对于网页中的《新编全注
,正常情况下python3中能直接转化为utf-8,所以即使网页中显示的是这种escape sequence
,获取到之后能够显示正常,但是偶尔也不好使,不好使的情况下可以使用如下方法解决:
安装HTMLParser
pip install HTMLParser
修改HTMLParser的源码
修改
import markupbase
为import _markupbase as markupbase
(在源码的第11行)修改
return unichr(c)
为return chr(c)
python3中没有unichr,用chr即可(在源码的456行)
使用方法
from HTMLParser import HTMLParser
HTMLParser().unescape("《新编全注"
)