一共有三种可能性,可以一一排查:
最初的代码:
# 来源网站
url = 'http://quote.eastmoney.com/usstocklist.html'
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.106 Safari/537.36 Edg/80.0.361.54'}
html = requests.get(url=url, headers=headers).content
soup = BeautifulSoup(html, "html.parser")
此时如果输出soup里的内容会看到乱码。
第一种可能性,也是最常见能解决的:
一般来说把requests.get加一行encoding就行,如下图。
html = requests.get(url=url, headers=headers)
html.encoding('utf-8')
soup = BeautifulSoup(html.content, "html.parser")
第二种可能性:
修改之后还是乱码,之后检查是不是bs4这里的解码问题。在bs4模块的文档里找到:
bs4是自动检测编码的,通常都能找对,但是也有出错的可能。所以可以先猜一下乱码是什么编码(可以在网页head里找一下),通过from_encoding参数指定。以及可以把排除掉的错误选择填入exclude_encodings参数,让bs4自己再猜……
第三种可能性:
但这两个方法都没有解决,实际上如下操作会打印出\xd2\xe2\xbc\xfb\xd3这样的编码:
html = requests.get(url=url, headers=headers).content
print(html)
所以最终的解决办法是
html = requests.get(url=url, headers=headers).text
html = html.encode("latin1").decode("gbk")
soup = BeautifulSoup(html, "html.parser")
复制粘贴一下试试,就好啦。