python3的requests抓取中文页面出现乱码

最新推荐文章于 2022-02-25 08:15:10 发布

精灵之舞

最新推荐文章于 2022-02-25 08:15:10 发布

阅读量3.1k

点赞数 1

分类专栏： python 文章标签：乱码 xpath python

3 篇文章 0 订阅

订阅专栏

最近在用python2到python3的过渡的问题，然后使用过程中能免遇到不适应，就在使用requests抓取页面时就出现问题了，问题如下，就是抓取的页面使用xpath如何的去解析都遇到一堆的乱码的问题，然后这个问题也困扰了自己差不多有些时间：
**查找到是如下原因：
原理：**

requests 是一个python的http请求类库，基于urllib3，但支持更多的特性以及更人性化的API。

最近用requests抓取一个中文gb2312编码的页面时，整个页面的中文都乱码了。

基本上乱码就肯定是编码了，首先想到了是不是requests识别编码的时候识别错了，转到其它编码去了。

于是加上调试，打印出来 response.encoding，发现居然是：ISO-8859-1 这个奇怪的编码。

搜索了一下相关的说明，发现 requests 只会简单地从服务器返回的响应头的 Content-Type 去获取编码，如果有 Charset 才能正确识别编码，否则就使用默认的 ISO-8859-1，这样一来某些不规范的服务器返回就必然乱码了。

requests 内部的 utils 提供了一个从返回 body 获取页面编码的函数，get_encodings_from_content，这样如果服务器返回的头不含 Charset，再通过 get_encodings_from_content 就可以知道页面的正确编码了。

知道了原因，解决就容易了，一个方法是写一个 patch 将 requests.models.Response.content 打上补丁，而这明显比较麻烦。

而另一个办法就是先用 ISO-8859-1 再 encode 一次，再用获取的准确的 charset 去decode，这样省事了，不过肯定影响效率并且可能会有转换丢失。

代码：

response.text.encode('ISO-8859-1').decode(requests.utils.get_encodings_from_content(response.text)[0]) 。

上面的原理建议大家还是具体的了解下，这些并不能帮我们解决问题，但是能告诉我们问题是为什么出现了

这个问题出在就是解析网页编码出现问题了：
只要用requests进行如下如下处理：

显式地指定收到的网页编码为‘utf-8’

import requests
url="https://www.baidu.com/"
req =requests.get(url)
req.encoding='utf-8' **#显式地指定网页编码，一般情况可以不用**
print(req.text)

这样我们的问题得到解决了

但是在用的时候，我又不明白r.text与r.content的区别了

使用r.text

html = requests.get('xxxxxx',cookies=cookies).text

使用r.content：

html = requests.get('xxxxxx',cookies=cookies).content

那r.text与r.content有什么区别呢？
分析requests的源代码发现，r.text返回的是Unicode型的数据，
而使用r.content返回的是bytes型的数据。也就是说，在使用r.content的时候，他已经只带了

html = bytes(bytearray(html, encoding='utf-8'))

这样一个转化了。

若在使用的是r.text然后

selector = etree.HTML(html)

报错可以进行如下处理：

html = bytes(bytearray(html, encoding='utf-8'))
selector = etree.HTML(html)

这样的是相当于先给其转为bytes字节进行解析，然后我们在提取具体的中文字符时，我们再给其decode解析回来就好了~~

关注

专栏目录