爬虫遇到UnicodeDecodeError，或遇到解码失败的解决方法

最新推荐文章于 2021-01-26 22:31:59 发布

Mr_jia_qi

最新推荐文章于 2021-01-26 22:31:59 发布

阅读量1.3k

点赞数

分类专栏： python 文章标签： UnicodeDecodeError ISO-8859-9

本文链接：https://blog.csdn.net/Mr_jia_qi/article/details/102932916

版权

python 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

在requests请求发出后接受网页源码遇到解码失败或解码不成功时使用一下方法：

1、采用responsr.content.decode(response.apparent_encoding, ‘ignore’)

2、当遇到ISO-8859-[\d] 此种类型的编码是第一种方法解码会失败

失败原因：
因为ISO-8859-1编码范围使用了单字节内的所有空间，在支持ISO-8859-1的系统中传输和存储其他任何编码的字节流都不会被抛弃。换言之，把其他任何编码的字节流当作ISO-8859-1编码看待都没有问题。而utf8是定长编码，从utf8转化成iso8859-1相当于是高精度转化成低精度，造成精度丢失，所以不可逆。根本原因是因为utf8中文，在iso8859-1没有匹配的位置。
此时采用先转gbk再转utf8的方式进行转码
response.content.decode(‘gbk’, ‘ignore’).encode(‘utf-8’, ‘ignore’).decode(‘utf-8’)

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Mr_jia_qi

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
爬虫遇到UnicodeDecodeError，或遇到解码失败的解决方法

在requests请求发出后接受网页源码遇到解码失败或解码不成功时使用一下方法：1、采用responsr.content.decode(response.apparent_encoding, ‘ignore’)2、当遇到ISO-8859-{/d} 此种类型的编码是第一种方法解码会失败失败原因：因为ISO-8859-1编码范围使用了单字节内的所有空间，在支持ISO-8859-1的系统中传输和...
复制链接

扫一扫