python 爬虫编码(encoding和apparent_encoding)区别

一、代码案例(encoding)

1.相关代码:
import requests
# 发送GET请求到清华大学官网
url = 'https://www.tsinghua.edu.cn/'
response = requests.get(url)
encoding = response.encoding
# 获取并打印网页编码方式
print(f"网页编码方式:{encoding}")
2.打印结果:

二、代码案例(apparent_encoding)

1.相关代码:
import requests
# 发送GET请求到清华大学官网
url = 'https://www.tsinghua.edu.cn/'
response= requests.get(url)
encoding = response.apparent_encoding
# 获取并打印网页编码方式
print(f"网页编码方式:{encoding}")
2.打印结果

三、查看网页是什么编码方式

四、encoding和apparent_encoding两者表示的是什么以及区别

1.encoding和apparent_encoding的使用场景

requests.get() 函数在获取网页内容时,默认会尝试从HTTP响应头部的Content-Type字段中提取编码信息来设置response.encoding属性。然而,有时候服务器提供的编码信息可能不准确或者未提供,这时requests库会使用chardet库(如果已安装)来推测网页的实际编码,这推测出来的编码就是response.apparent_encoding

2.encoding的使用

response.encoding 是根据HTTP响应头中的编码指示或者是通过chardet自动检测后赋给requests对象的编码属性。如果服务器报告的编码是ISO-8859-1,则response.encoding会被设置为ISO-8859-1

3.apparent_encoding的使用

response.apparent_encoding 则是基于requests内部的字符集探测机制得出的编码,即使服务器没有明确指定或指定得不准确,它也会尽量给出一个最佳猜测的编码,这里推测出的是UTF-8-SIGUTF-8-SIG是一种特殊的UTF-8编码,它前面带有一个BOM(Byte Order Mark),主要用于标记文本文件的开始,表明其采用UTF-8编码且字节顺序是标准的(对于UTF-8来说字节顺序无关紧要,因为它是字节序无关的编码,但BOM仍然可能被用于标识文件类型)。

4.两者之间的区别
  • response.encoding 更倾向于直接使用服务器声明的编码,如果没有则可能依赖于自动检测的结果。
  • response.apparent_encoding requests库对实际内容做的更为直观的编码判断,通常用于解决服务器提供的编码信息不可靠的情况。

五、总结

如果两个属性返回不同的编码,通常建议优先考虑response.apparent_encoding,因为它可能是网页内容实际使用的编码。当然,在解析网页内容时,最好的做法是先检查和确认编码是否正确,必要时手动调整后再进行解析。

  • 31
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
### 回答1: 当你通过 Python 从网站获取一个响应对象时,它会返回一个二进制数据流,因此需要将二进制数据流转换为字符串形式。`resp.encoding`属性用于指定从响应对象读取内容时要使用的编码方式。然而,编码方式并不总是明确定义的,因此使用`resp.apparent_encoding`属性可以检测网页编码方式,找到最适合该网页的编码方式,然后将其转换为字符串形式。这样确保了我们获得的响应正常显示,并且可以正确的解析响应内容。 ### 回答2: resp.encoding=resp.apparent_encoding 是一个Python网络爬虫中常用的语句,用于解决获取的网页内容的字符编码问题。 resp是一个网络请求的响应对象,表示从网页服务器返回的响应。encoding是该对象中的一个属性,表示网页内容的字符编码方式。 resp.apparent_encoding 是一个方法,用于从响应的内容中猜测并返回可能的字符编码方式。 所以,resp.encoding=resp.apparent_encoding 的作用是将resp对象的encoding属性值设置为猜测得到的网页内容的字符编码方式,以确保能够正确解码网页内容。 为什么要进行字符编码的解析呢?因为在互联网上,不同的网站使用不同的字符编码方式,如UTF-8、GBK等。如果我们将网页内容按错误的字符编码方式进行解码,就会出现乱码或无法正确显示中文等问题。因此,我们需要通过猜测字符编码的方式,把得到的网页内容进行正确的解码,以便进一步处理和使用。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

马龙强_

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值