python url编码_Python获取网页编码(apparent_encoding)

最新推荐文章于 2024-03-08 09:34:16 发布

weixin_39616565

最新推荐文章于 2024-03-08 09:34:16 发布

阅读量853

点赞数 2

文章标签： python url编码 python怎么查看网页编码格式 python获取网页源码不完整怎样查看一个网页的编码格式

点击上方“Python日记本”

未来有大量项目实操和自动化办公，欢迎关注！

爬虫的时候，时常被编码问题困扰

可以通过打开检查，查看网页的源代码

打开head标签，能看到苹果网页是用utf-8编码格式

电影天堂的编码是gb2312

640?wx_fmt=png

假如说，我爬取电影天堂网页的时候，没去关心它是什么编码的

就习惯写成编码'utf-8'

但因为这个网页不是用utf-8编码的，所以爬取时就会出现乱码

import requests
url = 'https://www.dytt8.net/index.htm'
res = requests.get(url)
res.encoding = 'utf-8'
print(res.text)

这时候，第一时间就是想到去网页，看看这个网页是用什么标准编码的

但还有一个方法，就是可以通过res.apparent_encoding查看是用什么标准编码的

import requests
url = 'https://www.dytt8.net/index.htm'
res = requests.get(url)
print(res.apparent_encoding)

可以看到电影天堂网页，是GB2312编码的

但是，并没必要把GB2312写去encoding那

我可以把请求的编码设置为原网页的编码(留意下方代码第四行)

import requests
url = 'https://www.dytt8.net/index.htm'
res = requests.get(url)
res.encoding = res.apparent_encoding
print(res.text)

这下，就能正确显示中文了

所以这也是为什么爬虫里大多数会写

res.encoding = res.apparent_encoding

就不用考虑网页文字编码的问题了

相关阅读利用python查询文件编码自动化办公 | docx模块简要介绍请求头快速加引号和用逗号隔开

(对文章有疑问或者有建议，可以在后台加微信聊聊哦！)

关注