python初步爬虫之编码

通过requests库我们可以从给定的URL获得了一些信息,但有的时候这些信息我们是看不懂的,因为它采用了特定的编码方式
我们可以利用返回对象的一些属性把它转成我们能看懂的编码方式。
下面简单介绍两个的简单的属性

encoding():
这里解释一下encoding()属性,这个属性是从http header中猜测响应内容编码方式
我们把requests.get()获得的信息给变量p(这里还是以百度为例)
在这里插入图片描述

这个时候的信息我们是看不懂的
在这里插入图片描述

我们可以查看一下当前的编码方式
当前的编码方式是ISO-8859-1
apparent_encoding:
这个属性是从获得的内容中分析出响应内容的编码方式,一般来说这个属性比encoding()属性返回的编码更加准确
因为encoding()并没有分析内容,只是从头部猜测编码方式
当用encoding()解码出我们看不懂的字符,我们可以用apparent_encoding替换encoding

先看一下p.apparent_encoding()
这里的编码是utf-8
我们用p.apparent_encoding()替换p.encoding(),然后再看信息内容
现在就出现了中文字符,说明替换成功

说了这么多就是,就当encoding()给的编码看不懂时,用apparent_encoding()替换encoding(),这样就可以了

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值