爬取网页数据出现中文乱码 UTF-8中文乱码

最新推荐文章于 2024-06-12 17:58:14 发布

lbyd2016

最新推荐文章于 2024-06-12 17:58:14 发布

阅读量1.2w

点赞数 19

文章标签： Python 爬虫

本文链接：https://blog.csdn.net/lbyd2016/article/details/84667299

版权

在用python爬取网页数据时，获取的中文数据出现乱码情况

第一种情况：

没有声明编码格式，即没有进行 encoding = 'utf-8' 编码声明

例如下图，在获取数据中<span> 里中文出现乱码：

<li><em>00:00</em><span>±±Æ½Õ½ÓëºÍ(20)</span></li>
<li><em>00:10</em><span>±±Æ½Õ½ÓëºÍ(21)</span></li>
<li><em>00:57</em><span>±±Æ½Õ½ÓëºÍ(22)</span></li>

这类解决办法是：加上 encoding = 'utf-8' 即可

s = requests.get(url)
s.encoding = 'utf-8'

第二种情况：

已经进行编码声明 encoding = 'utf-8' 但还是出现中文乱码

解决办法：检查网页编码，更正编码声明，如：encoding = 'GBK'

出现这样的情况时，就要检查一下抓取网页页面的编码格式，网页的编码不一定是 UTF-8 格式的，也有可能是 GBK、GB2312、GB18030等格式

例如下图：

s = requests.get(url)
s.encoding = 'GBK'

声明编码为GBK格式后，数据中的中文数据恢复正常

<li><em>06:00</em><span>英雄出少年</span></li>
<li><em>07:00</em><span>大仓库</span></li>

如何查看网页编码格式

一般在网页空白处右键查看编码即可

有的浏览器不支持的可以用IE打开查看。

lbyd2016

关注

19
点赞
踩
27

收藏

觉得还不错? 一键收藏
4
评论
爬取网页数据出现中文乱码 UTF-8中文乱码

在用python爬取网页数据时，获取的中文数据出现乱码情况第一种情况：没有声明编码格式，即没有进行 encoding = 'utf-8' 编码声明例如下图，在获取数据中&lt;span&gt; 里中文出现乱码：&lt;li&gt;&lt;em&gt;00:00&lt;/em&gt;&lt;span&gt;±±Æ½Õ½ÓëºÍ(20)&lt;/span&...
复制链接

扫一扫