python爬虫遇到中文乱码问题(ISO-8859-1)

最新推荐文章于 2025-03-20 21:00:13 发布

咕咕Gus

最新推荐文章于 2025-03-20 21:00:13 发布

阅读量5.4k

点赞数 4

文章标签： python 爬虫

本文链接：https://blog.csdn.net/Enexj/article/details/110875674

版权

本文介绍了在Python爬虫中遇到的ISO-8859-1编码导致的中文乱码问题及解决方案。通过检查响应编码并进行适当的编码解码转换，如从ISO-8859-1转为GBK，可以成功解决乱码，确保数据的正确读取。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

python爬虫遇到中文乱码(ISO-8859-1)

直接入正题，今天爬虫遇到中文乱码问题，具体大概如下：

ÕÐ±êÈË»òÆäÕÐ±ê´úÀí»ú¹¹Ó¦µ±¶ÔÆäÌá¹©µÄÕÐ±ê¹«¸æµÄÕæÊµÐÔ¡¢×¼È·ÐÔ¡¢ºÏ·¨ÐÔ¸ºÔð¡£（这种的字符）

找问题所在，首先查看response的编码问题

response = request.get(url,headers)
print(response.encoding)

输出内容：

这就好办了，直接编码解码(使用utf-8会出现部分字节问题)

response = requests.get(url,headers).text
content = response.encode("iso-8859-1").decode('gbk')

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

咕咕Gus

关注关注

4
点赞
踩
15

收藏

觉得还不错? 一键收藏
3
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

python中把ISO-8859-1编码转化为UTF-8

FM黎明之前的博客

08-27

5893

ISO-8859-1转换 UTF-8 应用场景：这几天在做微信OAuth2.0授权登录，遇到的问题。爬取一些数据的时候一定也会遇到这样的问题。这里我拿微信返回用户个人信息来举例： {'openid': 'oGl2QwQ07wZRyJVu0t57y1CaVlg4', 'nickname': 'é\x98³å\x85\x89ç\x94·å\xad©', 'sex': 1, 'language': 'zh_CN', 'city': 'æ\x9c\x9dé\x98³', 'province': 'å\x8

解决Python爬虫中文乱码(gbk)

weixin_41005658的博客

11-26

2382

解决Python爬虫中文乱码乱码问题是很常见的一种事情，记录一下解决python爬虫中的乱码问题，后续遇到，还会继续补充。我是爬得笔趣看小说网址 https://www.bqkan.com/25_25963/ 爬取小说章节题目的时候出现乱码查看网页源码head对应的编码如图所示为gbk 然后利用requests库的方法查看默认输出的编码类型可以看到编码为ISO-8859-1 然后在相应的文本位置加入encode(‘ISO-8859-1’) 中文乱码解决 ...

3 条评论您还未登录，请先登录后发表或查看评论

乱码编码方式解决 gbk ISO8859-1 utf8 编码

05-24

乱码编码方式解决 gbk ISO8859-1 utf8 编码乱码编码方式解决 gbk ISO8859-1 utf8 编码

乱码生成器

热门推荐

qq_40205002的博客

04-19

5万+

爬一个网站时出现了乱码 è§�æ½®å¥�å®¸åº�1ã��2ã��9ã��10ã��13å�·æ¥¼ html = requests.get(url=start_urls, headers=headers).text html = html.encode("ISO-8859-1") html = html.decode("utf-8") response = et...

python爬虫网页乱码问题ISO-8859-1和Utf-8

Al_shawn的博客

12-19

1817

爬苹果日报新闻时用requests解析到的网页是乱码用了下面这个就解决了 title_content.encode('ISO-8859-1').decode('utf-8') 繁体中文可以正常显示了，但是还没搞懂为什么之后记得研究一下参考下面几篇有点略懂但还不是很清晰，之后得好好研究一下编码问题 https://www.jianshu.com/p/e487e89c2a4e ht...

Python爬虫基于lxml解决数据编码乱码问题

12-17

这里，`encode('ISO-8859-1')` 将XPath选取的文本以ISO-8859-1编码转换为字节，然后 `decode('UTF-8')` 将字节按照UTF-8编码解码，从而得到正确的中文字符。在实际应用中，为了确保程序的健壮性，还可以使用更通用...

Python爬虫实例（2）--beautifulsoup的应用

qq_34786604的博客

08-29

2291

beautifulsoup find find_all 中文乱码 \xa0 &nbsp 爬虫实例

iso-8859-1转中文

weixin_41650019的博客

07-15

2403

解析kml 出现乱码

python 编码

m0_68682144的博客

11-24

365

UTF-8 gbk unicode适用场景

python解决中文乱码的方法

qq_36606793的博客

01-20

429

手动将response设置为utf-8编码 response=requests.get(url) response.encoding='utf-8' page_text=response.text 将字符串先进行iso-8859-1编码，再进行gbk解码 str=str.encode('iso-8859-1').decode('gbk') str=str.encode("gbk", 'ignore').decode("gbk", "ignore") ...

Python 乱码原理及其解决办法

qq_37453155的博客

04-26

9127

Python 乱码原理及其解决办法 HTML 解析爬虫编码解码乱码

【原创】python encoding中文编码

张志鹏的博客

03-20

3564

看一下python的字符编码，我琢磨了半天，这个好像没什么用啊，无论设置哪种编码方式，结果都一样的。设置方式如下：在python的lib目录下site-packages目录中，新建sitecustomize.py， C:\Python27\lib\site-pachages\sitecustomize.py 输入以下内容，保存关闭。 #sitecustomize.py # this fil

python学习笔记（9）——数据乱码的处理之重新编码和解码

Ama_tor的博客

02-03

1499

代码练习： import requests url='https://www.baidu.com' code=requests.get(url).encoding#获取网页源代码的编码方式为ISO-8859-1 res=requests.get(url).text #print(code):此时可以先运行，得出通过python获得网页源码的编码方式为：ISO-8859-1 print('直接获取：'+res) try:#以下为通用代码，不够简介 res=res.encode('ISO-8859

解决爬虫response.text后中文的乱码问题

weixin_30263073的博客

05-28

1128

有两种解决方式 1.使用response.encoding = 'utf-8' 2.使用.encode('iso-8859-1').decode('gbk') 爬取美女壁纸缩略图并解决标题乱码问题 http://pic.netbian.com/4kmeinv/ http://pic.netbian.com/4kmeinv/index_2.html import requests from lx...

UTF-8、GBK、ISO-8859-1之间的解码和转码

zhblanlan的博客

08-06

7098

编码：将字符或者其他符号编成计算机可以计算处理的二进制0、1数字。解码：将一系列二进制0、1数字解码成字符或者其他符号(编码的逆向过程)。测试代码如下： package com.qfedu.test; import java.util.Arrays; public class Test6 { public static void main(String[] args) th...

Python response 乱码

yy的博客

10-14

1648

解决html编码错误(以网站返回gbk编码举例): ''' 参考链接:https://zhuanlan.zhihu.com/p/33237576 ''' ISO-8859-1 当返回头里面有content_type 的时候， 1 如果有charset=xxx，则encoding的编码为chatset的值。 2 如果只是text/html,则编码为ISO-8859-1 3 如果什么都...

解决Python网页爬虫之中文乱码问题

01-08

### 解决 Python 网页爬虫中的中文乱码问题 #### 1. 使用 `requests` 库获取网页内容并处理编码为了防止因默认编码设置不当而导致的乱码现象，在使用 `requests.get()` 方法时可以先通过 `.content` 获取原始字节数据，再手动指定解码方式： ```python import requests url = "http://example.com" headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64)', } response = requests.get(url, headers=headers) # 尝试检测页面的真实编码 if response.encoding == 'ISO-8859-1': encodings = ['utf-8', 'gb2312'] for encoding in encodings: try: content = response.content.decode(encoding) break except UnicodeDecodeError: continue else: content = response.text ``` 此段代码尝试识别服务器返回的实际编码格式，并优先考虑常见的 UTF-8 或 GBK 编码[^1]。 #### 2. 处理特定类型的压缩算法（如 Brotli）某些现代网站可能会采用更高效的压缩技术来减少传输的数据量。如果遇到 `'Content-Encoding': 'br'` 这样的情况，则需要引入额外的支持库来进行解压操作： ```python import brotli key = 'Content-Encoding' if key in response.headers and response.headers[key] == 'br': decompressed_data = brotli.decompress(response.content).decode('utf-8') else: decompressed_data = response.text ``` 这段逻辑能够有效应对由 Brotli 压缩引起的潜在乱码问题[^3]。 #### 3. 利用 BeautifulSoup 正确解析 HTML 文档在创建 Beautiful Soup 对象时显式指明文档的编码有助于避免不必要的麻烦： ```python from bs4 import BeautifulSoup soup = BeautifulSoup(content, features="html.parser", from_encoding='utf-8') print(soup.prettify()) ``` 这里特别强调了 `from_encoding` 参数的重要性，它可以帮助我们更好地控制输入流的解释过程。 ---