requests.get使用utf-8得到还是中文乱码的解决办法

一共有三种可能性,可以一一排查:

最初的代码:

# 来源网站
url = 'http://quote.eastmoney.com/usstocklist.html'
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.106 Safari/537.36 Edg/80.0.361.54'}
html = requests.get(url=url, headers=headers).content
soup = BeautifulSoup(html, "html.parser")

此时如果输出soup里的内容会看到乱码。

第一种可能性,也是最常见能解决的:

一般来说把requests.get加一行encoding就行,如下图。

html = requests.get(url=url, headers=headers)
html.encoding('utf-8')
soup = BeautifulSoup(html.content, "html.parser")

第二种可能性

修改之后还是乱码,之后检查是不是bs4这里的解码问题。在bs4模块的文档里找到:

bs4是自动检测编码的,通常都能找对,但是也有出错的可能。所以可以先猜一下乱码是什么编码(可以在网页head里找一下),通过from_encoding参数指定。以及可以把排除掉的错误选择填入exclude_encodings参数,让bs4自己再猜……

第三种可能性:

但这两个方法都没有解决,实际上如下操作会打印出\xd2\xe2\xbc\xfb\xd3这样的编码:

html = requests.get(url=url, headers=headers).content
print(html)

所以最终的解决办法是

html = requests.get(url=url, headers=headers).text
html = html.encode("latin1").decode("gbk")
soup = BeautifulSoup(html, "html.parser")

复制粘贴一下试试,就好啦。 

  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值