python requests编码类型推断错误导致乱码

最新推荐文章于 2024-05-21 10:56:49 发布

飞行的荷兰猪

最新推荐文章于 2024-05-21 10:56:49 发布

阅读量2.2k

点赞数

分类专栏： Python 文章标签： python 乱码 requests chardet

本文链接：https://blog.csdn.net/qq_31331027/article/details/109089144

版权

在教授爬虫基础知识时遇到一个中文乱码问题，经分析发现是requests库在HTTP响应中自动推断ISO-8859-1编码导致。RFC 2616的过时规定是问题源头，而最佳实践是保存response.content为二进制，使用bs4进行一次性解码操作。

摘要由CSDN通过智能技术生成

问题描述

今天在教别人一些爬虫基础遇到一个从来没有出现过的现象：中文网站奇怪的乱码，经过多种编码尝试，均不能还原：

import requests
from bs4 import BeautifulSoup

res = requests.get('http://www.xinhuanet.com/')
bs = BeautifulSoup(res.text, 'lxml')
for item in bs.select('.dataList01 a')[:3]:
    print(item.text)

å¨é¢æ·±åŒ–æ”¹é©æ´»é¡µâ€”â€”ä¸å¤®æ·±æ”¹å§”15æ¬¡ä¼šè®®å¨çºªå½•
å›½åŠ¡é™¢ç¬¬ä¸ƒæ¬¡å¤§ç£æŸ¥æ‹‰å¼€åºå¹• è¿é€Ÿè¡ŒåŠ¨,æ±‚çœŸåŠ¡å®ž
å†³æˆ˜åƒå±±ä¸‡å¼„é—´ï¼å¹¿è¥¿â€œæžè´«è§’è½â€æœ€åŽæ”»åšè®°

乱码第一反应就是其他中文乱码，尝试使用常用big5、gbk等尝试还原，总是得不到正确的编码格式：

for item in bs.select('.dataList01 a')[:3]

最低0.47元/天解锁文章

飞行的荷兰猪

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
python requests编码类型推断错误导致乱码

问题描述今天在教别人一些爬虫基础遇到一个从来没有出现过的现象：中文网站奇怪的乱码，经过多种编码尝试，均不能还原：import requestsfrom bs4 import BeautifulSoupres = requests.get('http://www.xinhuanet.com/')bs = BeautifulSoup(res.text, 'lxml')for item in bs.select('.dataList01 a')[:3]: print(item.text)
复制链接

扫一扫