学习爬虫的时候,经常会遇到这种问题,即显示的内容为乱码。
以下为12306作为一个例子,执行代码如下
import requests
response = requests.get('https://www.12306.cn')
print(response.encoding)
print(response.text)
可以看到返回response编码类型为 ISO-8859-1,文本输出中中文字符为乱码。
那么最简单的方法就是增加utf-8编码的转化,如下:
import requests
response = requests.get('https://www.12306.cn')
response.encoding = 'utf-8'
# 查看编码方式
print(response.encoding)
print(response.text)
这样问题就解决了。