Python爬虫‘utf-8‘ codec can‘t decode byte 0x83 in position 0: invalid start byte 的解决方案

最新推荐文章于 2024-03-18 20:09:04 发布

秦时明月之君临天下

最新推荐文章于 2024-03-18 20:09:04 发布

阅读量1.8k

点赞数 2

分类专栏： Python 文章标签：爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_41287260/article/details/127708925

版权

Python 同时被 2 个专栏收录

51 篇文章 15 订阅

订阅专栏

6 篇文章 0 订阅

订阅专栏

今天用Python爬取豆瓣的时候，发现报错“UnicodeDecodeError: ‘utf-8’ codec can’t decode byte 0x83 in position 1:invalid start byte”。

然后发现不管我怎么转码都还是乱码，然后网上搜了下，发现好像是因为请求头的原因导致的。

错误原因竟然是我的 headers 中有一条:

html_header = {
    ……
    'Accept-Encoding': 'gzip, deflate, br',
    ……
}

这一条是我从web端请求抓过来的，为什么用浏览器可以正常浏览，而用Python模仿就不行呢?

看到网上的一种解释:

本地接收压缩格式的数据，服务器传过来压缩格式gzip的文件，而解压这种gzip文件只能用deflate算法，浏览器能够自动解压，程序却不能自动解压gzip，需要额外进行设置才行。

总结：写爬虫程序时候还是不要写 'Accept-Encoding': 'gzip, deflate' 了，就让服务器传原始文件过来吧，不用压缩了。

秦时明月之君临天下

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。