lxml里面xpath获取结果不完整解决办法
去掉html里面内容为\x00
的部分
r = requests.get(url)
body = r.text.strip().replace('\x00', '').encode('utf8') or b'<html/>'
root = etree.fromstring(body, parser=etree.HTMLParser(recover=True, encoding='utf8'))
root.xpath(...)
request传输编码为Transfer-Encoding: chunked
时乱码问题
当传输编码为Transfer-Encoding: chunked
时,requests返回的text无法解析,此时修改requests的header,把accept-encoding
修改成空即可,例如:
accept-encoding:''
附:推荐html数据解析库parsel,基于lxml和cssselect,同时支持xpath和css方法。