爬虫的时候会出现乱码？原来原因在这里！！

最新推荐文章于 2024-02-22 09:29:07 发布

python爬虫学习

最新推荐文章于 2024-02-22 09:29:07 发布

阅读量7.6k

点赞数 8

分类专栏： python爬虫 python基础 pyhton python入门 python 文章标签： python

本文链接：https://blog.csdn.net/qq_39363022/article/details/87023019

版权

python 同时被 3 个专栏收录

143 篇文章 6 订阅

订阅专栏

python爬虫

135 篇文章 2 订阅

订阅专栏

python入门

132 篇文章 1 订阅

订阅专栏

前言
相信大家在爬虫网站的时候，网页的源代码会出现乱码问题，如何解决呢？本文带你探讨一下关于一些乱码的处理方法，基本大多数语言乱码问题处理的方式是差不多的，所以只说一个可以了。

乱码问题的出现
就以爬取 51job网站举例，讲讲为何会出现“乱码”问题，如何解决它以及其背后的机制。

[import](http://www.yidianzixun.com/channel/w/import) requests
url = "http://search.51job.com"
res = requests.get(url)
print(res.text)

显示结果：
在这里插入图片描述

打印 rest.text 时，发现了什么？中文乱码！！！不过发现，网页的字符集类型采用的是 GBK

我们知道 Requests 会基于 HTTP 头部对响应的编码作出有根据的推测。当你访问 r.text 之时，Requests 会使用其推测的文本编码。你可以找出 Requests 使用了什么编码，并且能够使用 r.encoding 属性来改变它。

接下来，我们一起通过 Resquests 的一些用法，来看看 Requests 会基于 HTTP 头部对响应的编码方式。

print(res.encoding) #查看网页返回的字符集类型
print(res.apparent_encoding) #自动判断字符集类型

输出结果

UTF-8

可以发现 Requests 推测的文本编码（也就是网页返回即爬取下来后的编码转换）与源网页编码不一致，由此可知其正是导致乱码原因。

如果你跟我一样都喜欢python，想成为一名优秀的程序员，也在学习python的道路上奔跑，欢迎你加入python学习群：python群号：491308659 验证码：南烛
群内每天都会分享最新业内资料，分享python免费课程，共同交流学习，让学习变（编）成（程）一种习惯！

乱码背后的奥秘

当源网页编码和爬取下来后的编码转换不一致时，如源网页为 GBK 编码的字节流，而我们抓取下后程序直接使用 UTF-8 进行编码并输出到存储文件中，这必然会引起乱码，即当源网页编码和抓取下来后程序直接使用处理编码一致时，则不会出现乱码，此时再进行统一的字符编码也就不会出现乱码了。最终爬取的所有网页无论何种编码格式，都转化为 UTF-8 格式进行存储。

注意：区分源网编码 A-GBK、程序直接使用的编码 B-ISO-8859-1、统一转换字符的编码 C-UTF-8。

在此，我们拓展讲讲 Unicode、ISO-8859-1、GBK2312、GBK、UTF-8 等之间的区别联系，大概如下：

最早的编码是 ISO8859-1，和 ASCII 编码相似。但为了方便表示各种各样的语言，逐渐出现了很多标准编码。ISO8859-1 属于单字节编码，最多能表示的字符范围是 0-255，应用于英文系列。很明显，ISO8859-1 编码表示的字符范围很窄，无法表示中文字符。

1981 年中国人民通过对 ASCII 编码的中文扩充改造，产生了 GB2312 编码，可以表示 6000 多个常用汉字。但汉字实在是太多了，包括繁体和各种字符，于是产生了 GBK 编码，它包括了 GB2312 中的编码，同时扩充了很多。中国又是个多民族国家，各个民族几乎都有自己独立的语言系统，为了表示那些字符，继续把 GBK 编码扩充为 GB18030 编码。每个国家都像中国一样，把自己的语言编码，于是出现了各种各样的编码，如果你不安装相应的编码，就无法解释相应编码想表达的内容。终于，有个叫 ISO 的组织看不下去了。他们一起创造了一种编码 Unicode，这种编码非常大，大到可以容纳世界上任何一个文字和标志。所以只要电脑上有 Unicode 这种编码系统，无论是全球哪种文字，只需要保存文件的时候，保存成 Unicode 编码就可以被其他电脑正常解释。Unicode 在网络传输中，出现了两个标准 UTF-8 和 UTF-16，分别每次传输 8 个位和 16 个位。于是就会有人产生疑问，UTF-8 既然能保存那么多文字、符号，为什么国内还有这么多使用 GBK 等编码的人？因为 UTF-8 等编码体积比较大，占电脑空间比较多，如果面向的使用人群绝大部分都是中国人，用 GBK 等编码也可以。

也可以这样来理解：字符串是由字符构成，字符在计算机硬件中通过二进制形式存储，这种二进制形式就是编码。如果直接使用 “字符串↔️字符↔️二进制表示（编码）” ，会增加不同类型编码之间转换的复杂性。所以引入了一个抽象层，“字符串↔️字符↔️与存储无关的表示↔️二进制表示（编码）” ，这样，可以用一种与存储无关的形式表示字符，不同的编码之间转换时可以先转换到这个抽象层，然后再转换为其他编码形式。在这里，Unicode 就是 “与存储无关的表示”，UTF-8 就是 “二进制表示”。

乱码的解决方法

根据原因来找解决方法，就非常简单了。
方法一：直接指定 res.encoding

[import](http://www.yidianzixun.com/channel/w/import) requests
url = "http://search.[51job](http://www.yidianzixun.com/channel/w/51job).com"
res = requests.get(url)
res.encoding = "gbk"
[html](http://www.yidianzixun.com/channel/w/html) = res.text
print(html)

总结

关于网络爬虫乱码问题，这里不仅给出了一个解决方案，还深入到其中的原理，由此问题引申出很多有意思的问题，如 UTF-8、GBK、GB2312 的编码方式怎样的？为什么这样转化就可以解决问题？

python爬虫学习

关注

8
点赞
踩
26

收藏

觉得还不错? 一键收藏
1
评论
爬虫的时候会出现乱码？原来原因在这里！！

前言相信大家在爬虫网站的时候，网页的源代码会出现乱码问题，如何解决呢？本文带你探讨一下关于一些乱码的处理方法，基本大多数语言乱码问题处理的方式是差不多的，所以只说一个可以了。乱码问题的出现就以爬取 51job网站举例，讲讲为何会出现“乱码”问题，如何解决它以及其背后的机制。[import](http://www.yidianzixun.com/channel/w/import) reque...
复制链接

扫一扫