在爬取某电子书网站源码的时候,所爬取的源码内的中文内容出现了乱码,代码如下
爬取的结果:
中文部分出现了乱码,猜测应该是由编码问题造成的,首先想到的是不是采用utf-8的编码方式
于是先改成了这样:
import requests
url = 'https://www.qbiqu.com/0_1/'
response = requests.get(url)
response.encoding='utf-8'
print(response.text)
结果运行了一下之后…
enmmm…
差点给整不会了
估计编码方式还是有点问题
这时候查看了一下网页源码:
charset这个属性是属性规定在外部脚本文件中使用的字符编码,这里用到的是GBK
所以再更改一下编码方式尝试一下,代码如下:
import requests
url = 'https://www.qbiqu.com/0_1/'
response = requests.get(url)
code=response.text.encode('iso-8859-1').decode('gbk')
print(code)
运行一下,大功告成,乱码问题解决