python初步爬虫之编码

最新推荐文章于 2023-06-08 10:36:43 发布

lavender-dx

最新推荐文章于 2023-06-08 10:36:43 发布

阅读量314

点赞数

文章标签： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_43550864/article/details/107076474

版权

通过requests库我们可以从给定的URL获得了一些信息，但有的时候这些信息我们是看不懂的，因为它采用了特定的编码方式
我们可以利用返回对象的一些属性把它转成我们能看懂的编码方式。
下面简单介绍两个的简单的属性

encoding():
这里解释一下encoding()属性，这个属性是从http header中猜测响应内容编码方式
我们把requests.get()获得的信息给变量p（这里还是以百度为例）
在这里插入图片描述

这个时候的信息我们是看不懂的
在这里插入图片描述

我们可以查看一下当前的编码方式
当前的编码方式是ISO-8859-1
apparent_encoding:
这个属性是从获得的内容中分析出响应内容的编码方式，一般来说这个属性比encoding（）属性返回的编码更加准确
因为encoding()并没有分析内容，只是从头部猜测编码方式
当用encoding()解码出我们看不懂的字符，我们可以用apparent_encoding替换encoding

先看一下p.apparent_encoding()
这里的编码是utf-8
我们用p.apparent_encoding()替换p.encoding(),然后再看信息内容
现在就出现了中文字符，说明替换成功

说了这么多就是，就当encoding()给的编码看不懂时，用apparent_encoding()替换encoding()，这样就可以了

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。