关于编码(decode和encode): 可参考
关于编码(content和text): 可参考
1. 乱码原因
源网页编码和爬取下来后的编码转换不一致。如源网页为gbk编码的字节流,而我们抓取下后程序直接使用utf-8进行编码并输出到存储文件中,这必然会引起乱码,即当源网页编码和抓取下来后程序直接使用处理编码一致时,则不会出现乱码,此时再进行统一的字符编码也就不会出现乱码了
url='http://www.pocketuni.net/'
response=requests.get(url)
print(response.content)
结果:
url='http://www.pocketuni.net/'
response=requests.get(url)
#审查元素发现该网页使用UTF-8编码,因此使用UTF-8对其进行解码
print(response.content.decode('utf-8'))
结果:
2. 寻找到目标网页的编码格式
- 查看网页源代码
- 检查元素,查看Response Headers