爬虫工程师，UTF8/GBK/GB2312的乱码让你头疼吗

最新推荐文章于 2023-12-19 17:11:08 发布

VIP文章 wadfdhsajd

最新推荐文章于 2023-12-19 17:11:08 发布

阅读量645

点赞数

分类专栏：后端文章标签：爬虫 pycharm python 开发语言算法

本文链接：https://blog.csdn.net/wadfdhsajd/article/details/126897533

版权

1、你将会了解到源码跟进的过程；

2、你将会看到问题分析的思路；

3、你可以解决 Requests 库关于编码猜测不准确的问题；

这一篇我们来观摩 Python 中的 Requests、Scrapy 库以及 Golang 中的 Charset 库对于网页编码的处理逻辑，并让你具备提高 Requests 库编码猜测准确性的能力。

近期在工程实践中发现了一个长期潜伏的网页文本乱码问题，也就是爬取网页后，打印出来的文本是乱码。如果你是 Python 工程师，你可以试试下面这段代码：

import requests
# GB2312
resp = requests.get("http://news.inewsweek.cn/society/2022-05-30/15753.shtml")
print(resp.text)

打印出来的网页文本，中文部分就是乱码，这真是令我狗头 🐶 变大。

你心里可能会有这样的疑问：“按理说，Python 的 Requests 库应该能够帮助我们自动识别编码，然后自动转换才对的”。“但事实却并不是那么回事，为什么？”

不仅仅是 Python 的 Requests 库有这样的症状，Golang 的 Charset

关注