爬取网页的编码问题
问题:有时爬取到的网页是乱码,在lxml解析时并未解析正确,可以使用此代码获取网页的编码方式进行编码
response = requests.get(url, headers=headers)
# 如果请求成功
if response.status_code == 200:
encoding = response.encoding
tree = etree.HTML(response.content, parser=etree.HTMLParser(encoding=encoding))
若此方法依旧不成功,可以查看网页的源代码中的charset
字段
然后指定编码格式:
encoding = 'utf-8' #使用utf-8编码
然后再尝试