python爬取网页有乱码怎么解决_python 爬虫网页乱码问题解决方法

最新推荐文章于 2022-07-20 11:20:30 发布

weixin_39836876

最新推荐文章于 2022-07-20 11:20:30 发布

阅读量1k

点赞数 1

文章标签： python爬取网页有乱码怎么解决

本文介绍了在Python爬虫过程中遇到网页乱码的常见解决方案，包括通过查看HTML head标签确定编码、使用chardet库检测、利用response的encoding和apparent_encoding属性，以及处理网页压缩导致的乱码问题。对于无法解决的情况，作者也提供了反馈交流的途径。

摘要由CSDN通过智能技术生成

在使用python爬取网页时，经常会遇到乱码问题，一旦遇到乱码问题，就很难得到有用的信息。本人遇到乱码问题，一般有以下几个方式：

1、查看网页源码中的head标签，找到编码方式，例如：

在上图中，可以看到charset='utf-8',说明这个网页很大可能是采用‘UTF-8’编码（是很大可能，但不是百分之百），因此可以试试这个编码方式：

result = response.content.decode('utf-8')

这种方式得到的内容基本上就不会乱码

2、如果上述的方式没有任何作用，页面依然乱码；或者在head标签下并没有找到charset属性；或者我们要采集很多网页的信息，而且这些网页的编码方式不尽相同，我们不可能做到一个一个网页的去查看head标签，那么可以采用下面的方式解决乱码。

2.1 python 的 chardet库

可以使用下面的方式解决乱码问题

result = chardet.detect(response.content)

print(result)

data = response.content.decode(chardet.detect(response.content)['encoding'])

{'confidence': 0.99, 'language': '', 'encoding': 'utf-8'}

从输出结果可以看出这是“猜测”编码，猜测的方式是先收集各种编码的特征字符，根据特征字符判断，就能有很大概率“猜对”。

这种方法的效率很低ÿ

最低0.47元/天解锁文章

weixin_39836876

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
python爬取网页有乱码怎么解决_python 爬虫网页乱码问题解决方法

在使用python爬取网页时，经常会遇到乱码问题，一旦遇到乱码问题，就很难得到有用的信息。本人遇到乱码问题，一般有以下几个方式：1、查看网页源码中的head标签，找到编码方式，例如：在上图中，可以看到charset='utf-8',说明这个网页很大可能是采用‘UTF-8’编码（是很大可能，但不是百分之百），因此可以试试这个编码方式：result = response.content.decode(...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。