解决python爬虫中文乱码问题

m0_61369227

已于 2024-04-27 00:11:58 修改

阅读量648

点赞数 20

分类专栏：程序员文章标签： python 爬虫开发语言

于 2024-04-27 00:11:57 首次发布

本文链接：https://blog.csdn.net/m0_61369227/article/details/138234591

版权

程序员专栏收录该内容

259 篇文章 0 订阅

订阅专栏

content是把内容bytes返回. 而text是decode成Unicode. 如果headers没有charset字符集的化,text()会调用chardet来计算字符集

也就是说text是解码完的数据，调用req.text(）就不需要解码了，问题经常出现解码中的类型码是否正确，这个下面在说，先明白text（）和content（）的区别

假设对获取的内容最终都编码成‘utf-8’的类型text（）和content的处理方式如下所示：

requests.get(url).text.encode(‘utf8’,‘ignore’) #如果req.text()自动解码正确，直接编码，自动解码下面介绍

requests.get(url).content.decode(‘gbk’,‘ignore’).encoding(‘utf-8’,‘ignore’) #假设源码是gbk，则需要先解码在编码成utf-8

遇到的中文乱码问题

1.1 简单的开始

使用requests来拔取网站内容十分方便，一个最简单的代码段只需要2-3行代码就行。

url = ‘http//www.pythonscraping.com/’

req = requests.get(url)

print(req.text)

tree = html.fromstring(req.text)

print(tree.xpath(“//h1[@class=‘title’]/text()”))

1.2 麻烦的开始

本来当时的想法是写一些基础模块，方便之后开发的时候调用，减少重复性工作。为了保证代码在任何情况下都不会出现bug，所以想着用同样的代码爬取中文网站获取里面的文字

修改上面代码中的两行代码：

url = ‘http://sports.sina.com.cn/g/premierleague/index.shtml’

print(tree.xpath(“//span[@class=‘sec_blk_title’]/text()”))

运行程序可以发现，在语句print(req.text)输出的内容中，中文字体已经是乱码了。最后的结果输出是[’???©è§\x86é?\x91’, ‘??\x80?\x9c\x9f?\x9b\x9eé??’]

2 乱码解决办法

2.1 试错

由于之前爬取csdn上一个网页没有出现乱码问题，但是在sina体育网站上出现了乱码，所以当时以为不是编码问题，以为是文档压缩问题。因为csdn获取的页面header里没有“Content-Encodings”属性，但是sina体育获取的页面header有“Content-Encodings”属性–“Content-Encoding: gzip”。

在网上查看了多个相关问题的解决方案：

1. http://stackoverflow.com/questions/3122145/zlib-error-error-3-while-decompressing-incorrect-header-check

2. http://blog.csdn.net/pxf1234567/article/details/42006697

3. http://blog.csdn.net/bytxl/article/details/21278249

总结：参考上述文献，结果还是没有解决问题，但是就考虑是不是方向错了。不过这部分工作也没有白做，很多网站返回数据都会有压缩问题，之后的工作中也能用上。

2.2 乱码终极解决办法

后来查阅官方文档中response-content相关内容，说明了Requests会自动解码来自服务器的内容。Requests会基于HTTP头部对响应的编码作出有根据的推测，前提是响应文档的HTTP headers里面没有相关字符集说明。官方文档还说明了，如果你创建了自己的编码，并使用codecs 模块进行注册，你就可以轻松地使用这个解码器名称作为 r.encoding 的值，然后由Requests来为你处理编码。（自己没有使用codecs模块，所以这里不贴代码了，不过按官方的说法使用codecs模块是最简单的一种方式。）

另一份官方文档片段明确说了reponse编码处理方式：

Requests遵循RFC标准，编码使用ISO-8859-1 。

只有当HTTP头部不存在明确指定的字符集，并且 Content-Type 头部字段包含 text 值之时， Requests才不去猜测编码方式。

现在直接上实验结果，在原始代码中添加以下代码片段：

点击(此处)折叠或打开

print(req.headers[‘content-type’])

print(req.encoding)

print(req.apparent_encoding)

最后

不知道你们用的什么环境，我一般都是用的Python3.6环境和pycharm解释器，没有软件，或者没有资料，没人解答问题，都可以免费领取（包括今天的代码），过几天我还会做个视频教程出来，有需要也可以领取~

给大家准备的学习资料包括但不限于：

Python 环境、pycharm编辑器/永久激活/翻译插件

python 零基础视频教程

Python 界面开发实战教程

Python 爬虫实战教程

Python 数据分析实战教程

python 游戏开发实战教程

Python 电子书100本

Python 学习路线规划

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化学习资料的朋友，可以戳这里无偿获取

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！

m0_61369227

关注

20
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
解决python爬虫中文乱码问题

不知道你们用的什么环境，我一般都是用的Python3.6环境和pycharm解释器，没有软件，或者没有资料，没人解答问题，都可以免费领取（包括今天的代码），过几天我还会做个视频教程出来，有需要也可以领取~给大家准备的学习资料包括但不限于：Python 环境、pycharm编辑器/永久激活/翻译插件python 零基础视频教程Python 界面开发实战教程Python 爬虫实战教程Python 数据分析实战教程python 游戏开发实战教程Python 电子书100本。
复制链接

扫一扫