在写爬虫爬取网页时遇到题目中的问题,完整错误如下:
def getXpath(req, xpath): sourcehtml = etree.HTML(req.text) print(sourcehtml) nodes = sourcehtml.xpath(xpath) return nodes
ValueError: Unicode strings with encoding declaration are not supported. Please use bytes input or XML fragments without declaration。
分析错误原因:
对于有encoding声明的Unicode strings不支持。
解决办法:
如报错信息中所说,两种方法:
- 如果是读取的本地xml文件,需要将文件中的encoding declaration删除。
- 如果是读取网页的,不能修改时,就将其转换为bytes类型。
修改后的代码如下:
def getXpath(req, xpath): sourcehtml = etree.HTML(req.text.encode('utf-8')) print(sourcehtml) nodes = sourcehtml.xpath(xpath) return nodes
可以在网页分析页面看到encoding是什么编码,然后使用encode将其转换为bytes。