'gbk' code can't decode byte ...
原因:
文章中包含有‘gbk’或‘utf-8’无法编码的字符
解决:
一般编程语言在做decode时,都可以设置‘ignore’,设置一下即可
事件完整描述
本人想爬取小说网站的小说文本,但发现爬取结果为乱码
![在这里插入图片描述](https://img-blog.csdnimg.cn/20200601131435775.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzMzOTQ2MTUz,size_16,color_FFFFFF,t_70)
于是用乱码在线恢复工具测试,如下图所示
![在这里插入图片描述](https://img-blog.csdnimg.cn/20200601131644551.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzMzOTQ2MTUz,size_16,color_FFFFFF,t_70)
很明显,原来编码是GBK,现编码为iso-8859-1
所以需要先按ios-8859-1 encode 一下,再用GBK decode 一下,
但是decode时会出现“‘gbk’ code can’t decode byte …”这类问题,
这时只需要设置一下ignore就行,如下图
![在这里插入图片描述](https://img-blog.csdnimg.cn/20200601132000365.png)