在练习lxml数据解析的时候,用parse方法加载本地的html文件时出现如下错误
lxml.etree.XMLSyntaxError: Entity ‘copy’ not defined, line 61, column 38
原因:
html代码书写不规范,不符合xml解析器的使用规范
解决的办法:
使用parse方法的parser参数:
parser = etree.HTMLParser(encoding=“utf-8”)
tree = etree.parse(‘huazhuang.html’,parser=parser)