python3的requests抓取中文页面出现乱码

最近在用python2到python3的过渡的问题,然后使用过程中能免遇到不适应,就在使用requests抓取页面时就出现问题了,问题如下,就是抓取的页面使用xpath如何的去解析都遇到一堆的乱码的问题,然后这个问题也困扰了自己差不多有些时间:
**查找到是如下原因:
原理:**

requests 是一个python的http请求类库,基于urllib3,但支持更多的特性以及更人性化的API。

最近用requests抓取一个中文gb2312编码的页面时,整个页面的中文都乱码了。

基本上乱码就肯定是编码了,首先想到了是不是requests识别编码的时候识别错了,转到其它编码去了。

于是加上调试,打印出来 response.encoding,发现居然是:ISO-8859-1 这个奇怪的编码。

搜索了一下相关的说明,发现 requests 只会简单地从服务器返回的响应头的 Content-Type 去获取编码,如果有 Charset 才能正确识别编码,否则就使用默认的 ISO-8859-1,这样一来某些不规范的服务器返回就必然乱码了。

requests 内部的 utils 提供了一个从返回 body 获取页面编码的函数,get_encodings_from_content,这样如果服务器返回的头不含 Charset,再通过 get_encodings_from_content 就可以知道页面的正确编码了。

知道了原因,解决就容易了,一个方法是写一个 patch 将 requests.models.Response.content 打上补丁,而这明显比较麻烦。

而另一个办法就是先用 ISO-8859-1 再 encode 一次,再用获取的准确的 charset 去decode,这样省事了,不过肯定影响效率并且可能会有转换丢失。

代码:

response.text.encode('ISO-8859-1').decode(requests.utils.get_encodings_from_content(response.text)[0]) 。

上面的原理建议大家还是具体的了解下,这些并不能帮我们解决问题,但是能告诉我们问题是为什么出现了

这个问题出在就是解析网页编码出现问题了:
只要用requests进行如下如下处理:

显式地指定收到的网页编码为‘utf-8’

import requests
url="https://www.baidu.com/"
req =requests.get(url)
req.encoding='utf-8' **#显式地指定网页编码,一般情况可以不用**
print(req.text)

这样我们的问题得到解决了

但是在用的时候,我又不明白r.text与r.content的区别了

使用r.text

html = requests.get('xxxxxx',cookies=cookies).text

使用r.content:

html = requests.get('xxxxxx',cookies=cookies).content

那r.text与r.content有什么区别呢?
分析requests的源代码发现,r.text返回的是Unicode型的数据
而使用r.content返回的是bytes型的数据。也就是说,在使用r.content的时候,他已经只带了

html = bytes(bytearray(html, encoding='utf-8'))

这样一个转化了。

若在使用的是r.text然后

selector = etree.HTML(html)

报错可以进行如下处理:

html = bytes(bytearray(html, encoding='utf-8'))
selector = etree.HTML(html)

这样的是相当于先给其转为bytes字节进行解析,然后我们在提取具体的中文字符时,我们再给其decode解析回来就好了~~

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值