'utf-8' codec can't decode byte 0x8b in position 1: invalid start byte或者chardet 获的encoding为none

最新推荐文章于 2024-06-10 17:09:54 发布

「已注销」

最新推荐文章于 2024-06-10 17:09:54 发布

阅读量3.1k

点赞数

文章标签： python爬虫

本文链接：https://blog.csdn.net/qq_40764723/article/details/80762366

版权

之前爬虫访问百度一直出现 'utf-8' codec can't decode byte 0x8b in position 1: invalid start byte

然后安装了能够检测网页编码的chardet，安装之后检测了www.iqiyi.com，可以正常使用。

等到检测百度时，出现了chardet 获的encoding为none，然后又去查原因。

最终得知是从服务器或取得时压缩包，需要解压：

import zlib

import chardet

response=urllib.request.urlopen(url)
html=response.read()
html = zlib.decompress(html, 16+zlib.MAX_WBITS)#解压网页
print(chardet.detect(html)) #输出chardet读取的信息
html=html.decode("utf-8")

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

「已注销」

关注关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
'utf-8' codec can't decode byte 0x8b in position 1: invalid start byte或者chardet 获的encoding为none

之前爬虫访问百度一直出现 'utf-8' codec can't decode byte 0x8b in position 1: invalid start byte然后安装了能够检测网页编码的chardet，安装之后检测了www.iqiyi.com，可以正常使用。等到检测百度时，出现了chardet 获的encoding为none，然后又去查原因。最终得知是从服务器或取得时压缩包，需要解压：im...
复制链接

扫一扫