Python爬虫爬出乱码解决方法

最新推荐文章于 2021-12-29 15:15:39 发布

sjyOvO

最新推荐文章于 2021-12-29 15:15:39 发布

阅读量1.4k

点赞数 3

文章标签： python 乱码

本文链接：https://blog.csdn.net/sjyisdog/article/details/111357962

版权

Python爬虫爬出乱码解决方法

学习爬虫时练习爬小说（不是正版网站<doge）遇到的问题，爬出来一章一章的都是乱码
原因：
源网页编码和爬取下来后的编码格式不一致。
如源网页为gbk编码的字节流，而我们抓取下后程序直接使用utf-8进行编码并输出到存储文件中，这必然会引起乱码即当源网页编码和抓取下来后程序直接使用处理编码一致时，则不会出现乱码; 此时再进行统一的字符编码也就不会出现乱码了
解决方法：

responsee=requests.get(url=url,headers=headers)
responsee.encoding = responsee.apparent_encoding

这里根据源网页编码自动调整

    response = requests.get(url=detial_url,headers=headers)
    response.encoding = response.apparent_encoding

同上

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

sjyOvO

关注关注

3
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
Python爬虫爬出乱码解决方法

Python爬虫爬出乱码解决方法学习爬虫时练习爬小说（不是正版网站<doge）遇到的问题，爬出来一章一章的都是乱码原因：源网页编码和爬取下来后的编码格式不一致。如源网页为gbk编码的字节流，而我们抓取下后程序直接使用utf-8进行编码并输出到存储文件中，这必然会引起乱码即当源网页编码和抓取下来后程序直接使用处理编码一致时，则不会出现乱码; 此时再进行统一的字符编码也就不会出现乱码了解决方法：responsee=requests.get(url=url,headers=headers)r
复制链接

扫一扫