Python爬虫爬出乱码解决方法
学习爬虫时练习爬小说(不是正版网站<doge)遇到的问题,爬出来一章一章的都是乱码
原因:
源网页编码和爬取下来后的编码格式不一致。
如源网页为gbk编码的字节流,而我们抓取下后程序直接使用utf-8进行编码并输出到存储文件中,这必然会引起乱码 即当源网页编码和抓取下来后程序直接使用处理编码一致时,则不会出现乱码; 此时再进行统一的字符编码也就不会出现乱码了
解决方法:
responsee=requests.get(url=url,headers=headers)
responsee.encoding = responsee.apparent_encoding
这里根据源网页编码自动调整
response = requests.get(url=detial_url,headers=headers)
response.encoding = response.apparent_encoding
同上