有时候,我们在抓取的过程中,将HTML实体内容抓到后,存储到了数据库中,这时候在读取数据库的时候,就会以实体的形式出现(当然,如果是在Web页面上展示,则实体会自动被浏览器转为原字符,正常显示),这时候我们需要对其进行处理。
Python中提供了一个模块:HTMLParser,里面有很多好用的方法,
我们可以使用:dir(HTMLParser.HTMLParser)查看该模块下的HTMLParser类属性,其中有一个方法:unescape(),
再使用:help(HTMLParser.HTMLParser.unescape),可以看到该方法的说明信息,但是几乎没什么用。其实该方法就是将HTML实体(带有&#符号打头的)进行解码,转换为原有字符。下面是简单实例:
import HTMLParser
def decodeHtml(input):
h = HTMLParser.HTMLParser()
s = h.unescape(input)
return s
print decodeHtml('阳锟')
执行结果:阳锟