requests.get使用utf-8得到还是中文乱码的解决办法

最新推荐文章于 2024-05-06 13:42:45 发布

ggshabidaima

最新推荐文章于 2024-05-06 13:42:45 发布

阅读量6.5k

点赞数 1

文章标签： python request html utf http

本文链接：https://blog.csdn.net/ggshabidaima/article/details/121384550

版权

一共有三种可能性，可以一一排查：

最初的代码：

# 来源网站
url = 'http://quote.eastmoney.com/usstocklist.html'
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.106 Safari/537.36 Edg/80.0.361.54'}
html = requests.get(url=url, headers=headers).content
soup = BeautifulSoup(html, "html.parser")

此时如果输出soup里的内容会看到乱码。

第一种可能性，也是最常见能解决的：

一般来说把requests.get加一行encoding就行，如下图。

html = requests.get(url=url, headers=headers)
html.encoding('utf-8')
soup = BeautifulSoup(html.content, "html.parser")

第二种可能性：

修改之后还是乱码，之后检查是不是bs4这里的解码问题。在bs4模块的文档里找到：

bs4是自动检测编码的，通常都能找对，但是也有出错的可能。所以可以先猜一下乱码是什么编码（可以在网页head里找一下），通过from_encoding参数指定。以及可以把排除掉的错误选择填入exclude_encodings参数，让bs4自己再猜……

第三种可能性：

但这两个方法都没有解决，实际上如下操作会打印出\xd2\xe2\xbc\xfb\xd3这样的编码：

html = requests.get(url=url, headers=headers).content
print(html)

所以最终的解决办法是

html = requests.get(url=url, headers=headers).text
html = html.encode("latin1").decode("gbk")
soup = BeautifulSoup(html, "html.parser")

复制粘贴一下试试，就好啦。

ggshabidaima

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
requests.get使用utf-8得到还是中文乱码的解决办法

Python使用requests bs4爬取数据时乱码问题解决方法。如果设置了encoding为utf-8后还是乱码怎么办。
复制链接

扫一扫