获取网页编码方式apparent_encoding（自动识别网页编码）

最新推荐文章于 2023-09-02 15:13:50 发布

我可不爱穿格子衫

最新推荐文章于 2023-09-02 15:13:50 发布

阅读量1.4k

点赞数 2

分类专栏： python 前端文章标签： python pycharm html

版权

5 篇文章 0 订阅

订阅专栏

5 篇文章 0 订阅

订阅专栏

使用爬虫的时候，时常被编码问题困扰，可以通过打开检查，查看网页的源代码

打开head标签，能看到苹果网页是用utf-8编码格式

电影天堂的编码是gb2312

假如说，我爬取电影天堂网页的时候，没去关心它是什么编码的，就习惯写成编码'utf-8'

但因为这个网页不是用utf-8编码的，所以爬取时就会出现乱码

import requests

url = 'https://www.dytt8.net/index.htm'

res = requests.get(url)

res.encoding = 'utf-8'

print(res.text)

这时候，第一时间就是想到去网页，看看这个网页是用什么标准编码的

但还有一个方法，就是可以通过res.apparent_encoding查看是用什么标准编码的

import requests

url = 'https://www.dytt8.net/index.htm'

res = requests.get(url)

print(res.apparent_encoding)

可以看到电影天堂网页，是GB2312编码的

但是，并没必要把GB2312写去encoding那

我可以把请求的编码设置为原网页的编码(留意下方代码第四行)

import requests

url = 'https://www.dytt8.net/index.htm'

res = requests.get(url)

res.encoding = res.apparent_encoding

print(res.text)

这下，就能正确显示中文了

所以这也是为什么爬虫里大多数会写

res.encoding = res.apparent_encoding

关注

专栏目录