Python中文网页爬虫编码问题如何解决？

最新推荐文章于 2024-07-10 23:54:36 发布

渣飞

最新推荐文章于 2024-07-10 23:54:36 发布

阅读量1.5k

点赞数

分类专栏： Python 爬虫文章标签： python

本文链接：https://blog.csdn.net/qq_41424214/article/details/107031319

版权

2 篇文章 0 订阅

订阅专栏

2 篇文章 0 订阅

订阅专栏

爬虫时遇到这个问题，搜了下是Python2与Python3的区别，删掉encoding
这个参数就行。
源代码如下

start_html = requests.get(url, headers=headers,encoding='utf-8')  # 获取页面
print(start_html.text)  # 打印网页源码

第一次修改如下

start_html = requests.get(url, headers=headers)  # 获取页面
print(start_html.text)  # 打印网页源码

虽然删掉encoding这个参数之后，不会报错了，但是笔者要爬的网页里中文也是需要的，删掉encoding这个参数之后，中文会乱码无法显示。所以需要对网页进行转码

第二次修改如下：

start_html = requests.get(url, headers=headers)  # 获取页面
c = start_html.content.decode("utf=-8", "ignore")
print(c)  # 打印网页源码

关注