爬取小说网站时遇到的问题

最新推荐文章于 2021-09-16 19:09:55 发布

屋大维-甘地

最新推荐文章于 2021-09-16 19:09:55 发布

阅读量570

点赞数 1

分类专栏：爬虫文章标签：乱码 python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_33946153/article/details/106470393

版权

爬虫专栏收录该内容

1 篇文章 0 订阅

订阅专栏

'gbk' code can't decode byte ...

原因：
解决：
事件完整描述

原因：

文章中包含有‘gbk’或‘utf-8’无法编码的字符

解决：

一般编程语言在做decode时，都可以设置‘ignore’，设置一下即可

事件完整描述

本人想爬取小说网站的小说文本，但发现爬取结果为乱码
在这里插入图片描述
于是用乱码在线恢复工具测试，如下图所示

很明显，原来编码是GBK，现编码为iso-8859-1

所以需要先按ios-8859-1 encode 一下，再用GBK decode 一下，
但是decode时会出现“‘gbk’ code can’t decode byte …”这类问题，
这时只需要设置一下ignore就行，如下图
在这里插入图片描述

屋大维-甘地

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
爬取小说网站时遇到的问题

'gbk' code can't decode byte ...原因：解决：事件完整描述原因：文章中包含有‘gbk’或‘utf-8’无法编码的字符解决：一般编程语言在做decode时，都可以设置‘ignore’，设置一下即可事件完整描述本人想爬取小说网站的小说文本，但发现爬取结果为乱码于是用乱码在线恢复工具测试，如下图所示很明显，原来编码是GBK，现编码为iso-8859-1所以需要先按ios-8859-1 encode 一下，再用GBK decode 一下，但是decode时会出现
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。