[Spider] ‘gbk‘ codec can‘t decode byte 0xaa in position 29123: illegal multibyte sequence

最新推荐文章于 2022-05-14 12:40:25 发布

風の唄を聴け

最新推荐文章于 2022-05-14 12:40:25 发布

阅读量708

点赞数

分类专栏： Python 文章标签： gbk gb18030

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42902669/article/details/108095394

版权

Python 专栏收录该内容

54 篇文章 3 订阅

订阅专栏

写爬虫时需要事先知道要爬网页的编码，通过document.charset命令可以查询页面编码。
在这里插入图片描述
这里遇到一个问题，虽然查询的结果是GBK，但使用GBK解码时却报了如题所示的错误。从报错的内容可以看出是页面中部分字符无法识别导致的，解决方法有两个：

将GBK改为gb18030，gb18030编码包含更多的字符，所以可以处理部分GBK无法处理的字符

requests.get(url).content.decode('gb18030')

在解码时加入errors='ignore'，跳过出现错误的字符，也就是写成下面的形式

requests.get(url).content.decode('gbk',errors='ignore')

風の唄を聴け

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

風の唄を聴け CSDN认证博客专家 CSDN认证企业博客

码龄6年

139: 原创

23万+: 周排名

93万+: 总排名

53万+: 访问

: 等级

4168: 积分

127: 粉丝

219: 获赞

94: 评论

977: 收藏

私信

关注

热门文章

分类专栏

最新评论

[Mac] 安装和使用 selenium 绕过反爬
魅蓝星空: 你成功打开了吗? 我的还是一片空白
[Python/Vue] 基于 Flask + Vue 实现前端文件上传及下载
小刘の成神之路: 很感谢大佬的分享，但是如果有挖坑能ps一下吗？很难绷啊，配fileDownload.vue界面跳不过去，还以为是变量或者methods出问题，找了半天结果发现是data缺少return
[Vue+Vant] 多页面共用底部导航栏 Tabbar
Mr.Doc: 引入home成功，但无法切换页面请教一下怎么解决？谢谢
[Vue+Vant] 多页面共用底部导航栏 Tabbar
yeyazi001: 您好，我可以在点击事件里控制<template>内容显示来实现页面导航的效果吗？不报错但是没任何效果。
[ClickHouse] 使用 Pandas 读写 ClickHouse
光脚丫丫: TypeError: Unsupported column type: <class 'dict'>. ndarray/DatetimeIndex is expected；执行时报错，没找到原因，字段和数据库都没有dict格式

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。