python中——requests爬虫【中文乱码】的3种解决方法

本文详细阐述了在Python中使用requests库编写爬虫时遇到中文乱码的原因,包括响应方法不当和编码不匹配,并提供了3种解决方法:修改获取文本方法、手动指定网页编码和转码处理。同时推荐了学习资源以帮助读者更好地理解和实践。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

requests是一个较为简单易用的HTTP请求库,是python中编写爬虫程序最基础常用的一个库。
而【中文乱码】问题,是最常遇到的问题,对于初学者来说,是很困恼的。
本文将详细说明,python中使用requests库编写爬虫程序时,出现【中文乱码】的原因,及常见3种解决办法。

一、【中文乱码】情况及出现原因

(一)【中文乱码】举例

首先,本文的【中文乱码】情况,指的是原网页中的中文内容在使用requests获取后,中文完全无法识别的情况,区别于\x、\u等编码情况。如下图中的例子:
在这里插入图片描述
注:requests.get()方法,返回一个response对象,其存储了服务器响应的内容。

(二)出现【中文乱码】原因

导致上图中【中文乱码】的原因:
使用requests库时,选择使用的文本响应方法不合适,且没有在代码中添加设置合适的编码,以致于使用【response.text】自动获取到的网页编码,与实际网页的编码不一致,进而产生【中文乱码】。
使用requests库时,可能已经形成了一个习惯,常用【response.text】进行文本响应,而【response.content】常用于图片、视频等。
这两者,最大的一个区别就是:
1、【response.text】会自动根据HTTP头部去推测网页的编码,解码并返回解码后的文本。
2、【response.content】不会解码,直接以二进制形式返回。
两种文本响应方法,如下表:

方法释义
response.text服务器响应的内容,会自动根据响应头部的字符编码进行解码。根据HTTP头部对响应的编码做出有根据的推测,推测文本编码。返回类型:str;常用于:响应文本
response.content字节方式的响应体,不会根据HTTP头部对响应的编码做出有根据的推测。返回类型:bytes(二进制);常用于:图片、视频

二、3种处理【中文乱码】的方法

(一)修改网页文本获取的方法

据上,已知原因是获取文本的方法不对,显然最简单、直接的方法就是:
直接将response.text换成response.content
在这里插入图片描述

(二)手动指定网页编码、再提取文本

据上,已知使用【response.text】时,会解码返回,但解码又与原网页编码不一致,而导致【中文乱码】。
鉴于response也提供了【response.encoding】,来指定返回后的网页编码。
所以解决方法可以是:
手动指定网页编码,使之得到正常的文本
该方法的较第一种,相对麻烦一点:
首先,需要确认原网页的实际编码,然后根据网页实际编码做出修改。
具体步骤如下:
1、查看网页编码
查看网页编码,有以下两种方式:
(1)直接打开网页源码(html)【Ctr+U】,查看编码:【charset】的值。
在这里插入图片描述
(2)使用response的encoding、apparent_encoding,得到网页编码。
encoding、apparent_encoding两者最大的区别:
encoding是从header中去提取,而apparent_encoding是从网页源码去解析,apparent_encoding得到的结果更准确。
详细如下表:

属性释义
response.encoding从网页响应的header中,提取charset字段中的编码。若header中没有charset字段,则默认为ISO-8859-1编码模式,ISO-8859-1编码无法解析中文,这也是中文乱码的原因。
response.apparent_encoding从网页的内容中(html源码)中分析网页编码的方式。所以apparent_encoding比encoding更加准确,获取到的才是原网页的实际编码。

以(1)中网址为例,网页的真实编码为【GB2312】。
使用encoding、apparent_encoding两种方法,所得的结果是不一致的,apparent_encoding才是原网页实际编码。如下图:
在这里插入图片描述
2、手动指定文本编码
根据上述方法,获得原网页的实际编码后,手动在代码中指定文本编码格式,即可解决【中文乱码】问题。
写法有2种,可任选其一,如下图:
在这里插入图片描述

(三)在文本获取后对【中文乱码】进行转码

除了以上2种解决办法外,还可以使用pyhton自带的编码方法,把【中文乱码】的内容再次进行转码,转换为成网页实际的编码格式即可。
转码方式:encode(‘iso-8859-1’).decode(‘编码格式’)
如上面例子中,网页编码实际为“gb2312”,代码可修改为:
在这里插入图片描述
以上就python使用requests库编写爬虫时,出现【中文乱码】的原因,及常见的三种处理方法,可供参考。

-end

学习资源推荐

零基础Python学习资源介绍

👉Python学习路线汇总👈
Python所有方向的技术点做的整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。(学习教程文末领取哈)
在这里插入图片描述

👉Python必备开发工具👈
在这里插入图片描述

温馨提示:篇幅有限,已打包文件夹,获取方式在:文末

👉Python学习视频600合集👈
观看零基础学习视频,看视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。
在这里插入图片描述

👉实战案例👈
光学理论是没用的,要学会跟着一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。
在这里插入图片描述

👉100道Python练习题👈
检查学习结果。
在这里插入图片描述
👉面试刷题👈
在这里插入图片描述在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

资料领取

上述这份完整版的Python全套学习资料已经上传CSDN官方,朋友们如果需要可以微信扫描下方CSDN官方认证二维码输入“领取资料” 即可领取。

### 如何解决 Python 爬虫抓取 HTML 页面时遇到的字符编码乱码问题 当Python爬虫在获取网页数据的过程中遭遇中文乱码,主要原因是网页本身的编码格式同Python解析所采用的编码格式存在差异。为了有效应对这一情况,可以采取如下措施: #### 方法一:指定正确的编码格式 通过查看目标网站的实际编码并相应调整请求对象的`encoding`属性来匹配之。例如,如果发现某站点使用的是GBK而非默认假设的UTF-8,则应显式设定响应对象的编码为GBK。 ```python import requests url = "http://example.com" res = requests.get(url) res.encoding = 'gbk' html_content = res.text print(html_content) ``` 这种方法能够直接修正因预设错误而导致的乱码现象[^1]。 #### 方法二:利用 `chardet` 库自动检测编码 对于那些不确定具体采用了哪种编码标准的目标页面,可借助第三方库如[chardet](https://pypi.org/project/chardet/)来进行自动化识别,并据此动态配置合适的解码方案。 ```python import chardet import requests def get_page_encoding(response): raw_data = response.content[:4096] detected_info = chardet.detect(raw_data) encoding = detected_info['encoding'] confidence = detected_info['confidence'] if not (encoding and confidence > 0.7): return None try: test_decode = raw_data.decode(encoding, errors='replace') return encoding except Exception as e: print(f"Failed to decode with {encoding}: ", str(e)) return None response = requests.get('http://some-site-with-unexpected-charset.com/') detected_charset = get_page_encoding(response) if detected_charset is not None: response.encoding = detected_charset else: # Fallback strategy here... page_text = response.text print(page_text) ``` 此方法提高了处理未知或复杂编码环境的能力,减少了手动干预的需求[^3]。 #### 方法三:强制转换编码 有时即使指定了正确编码仍可能出现异常字符,这时可以通过先将字符串以一种通用格式(比如unicode)重新编码再转回所需格式的方式来尝试解决问题。 ```python text_with_errors = "...乱码..." fixed_text = text_with_errors.encode('latin1').decode('gbk', errors='ignore') # 或者反过来操作取决于具体情况 alternative_fix = text_with_errors.encode('utf-8').decode('latin1', errors='ignore') ``` 这种方式适用于某些特殊场景下的极端案例修复[^4]。 综上所述,针对不同类型的乱码状况可以选择不同的策略加以克服;而最为推荐的做法是在发起HTTP请求之前尽可能多地了解目标资源的信息,从而提前做好准备。
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值