使用Python抓取QQ音乐库数据时,音乐名中出现一些奇怪字符,下面的抓取结果中,《执迷不悔 (国语)》就变成了“执迷不悔 (国语)”:
Python自带的HTMLParser模块可以解决这个问题:
html = '(Hello)'
import HTMLParser
html_parser = HTMLParser.HTMLParser()
txt = html_parser.unescape(html)
使用cgi模块还可以反转结果:
import cgi
html = cgi.escape(txt)
本文介绍了如何使用Python自带的HTMLParser模块和cgi模块解决抓取QQ音乐库数据时出现的奇怪字符问题。通过实例演示了如何将HTML特殊字符进行转义和反转,确保数据正确解析。
6752

被折叠的 条评论
为什么被折叠?



