1.显示编码问题
有时候当我们使用爬虫爬取网页源代码时,因为编码格式的不同导致乱码
例如 www.4399.com
网页源代码
我们可以看出4399的编码格式指定为 gb2312
而 Pycharm 默认的编码格式是 utf-8
所以当我们获取源代码时,汉字就会出现乱码
import requests
url='http://www.4399.com'
response=requests.get(url)
print(response.text)
输出结果如下
出现乱码
2.解决问题
只需要指定 Pycharm 改变当前编码格式
代码如下
import requests
url='http://www.4399.com'
response=requests.get(url)
response.encoding='gb2312'
print(response.text)
输出结果如下
乱码问题解决了