Python: 'utf-8' codec can't decode byte 0x8b in position 1: invalid start byte

最新推荐文章于 2024-06-10 17:09:54 发布

七月&猪

最新推荐文章于 2024-06-10 17:09:54 发布

阅读量1.9k

点赞数

分类专栏： python 文章标签： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/q1364557884/article/details/104339129

版权

python 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

起因：看小说无聊，想起用python自己写一个爬虫，爬出笔趣阁中的所有的小说。就去爬（www.xbiquge.la）网站。
经过：代码如下

def getHtml(url):
    print('start html')
    #获取网页内容
    page = urllib.request.urlopen(url)
    html = page.read().decode()
    return html

然后代码运行时，出现了 ‘utf-8’ codec can’t decode byte 0x8b in position 1: invalid start byte 这个错误提示。
原因：笔趣阁网站返回的数据是经过压缩的，压缩格式是Gzip格式，需要通过相应算法解压后使用。
修改后代码：

def unGzip(page):
    try:
        data = gzip.decompress(page)
    except:
        pass
    return data

def getHtml(url):
    print('start html')
    #获取网页内容
    page = urllib.request.urlopen(url)
    html = unGzip(page.read()).decode()
    return html

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Python: 'utf-8' codec can't decode byte 0x8b in position 1: invalid start byte

‘utf-8’ codec can’t decode byte 0x8b in position 1: invalid start byte起因：看小说无聊，想起用python自己写一个爬虫，爬出笔趣阁中的所有的小说。就去爬（www.xbiquge.la）网站。经过：代码如下def getHtml(url): print('start html') #获取网页内容 ...
复制链接

扫一扫

专栏目录

七月&猪 CSDN认证博客专家 CSDN认证企业博客

码龄9年

18: 原创

16万+: 周排名

33万+: 总排名

2万+: 访问

: 等级

396: 积分

2: 粉丝

28: 获赞

16: 评论

64: 收藏

私信

关注

热门文章

分类专栏

spring 1篇
java 12篇
java web 1篇
python 2篇

最新评论

Java && 和 || 优先级
佳人有约@: System.out.println(true || false && false); System.out.println((true || false) && false); true false
Java && 和 || 优先级
佳人有约@: 你在讲啥呀。亲测&&比||优先级高。
Java && 和 || 优先级
Marty_fan: System.out.println(false||true||false&&false)你试试,如果优先级一样应该为false,可是结果是true
Java && 和 || 优先级
沙土: 看不懂。 Java 先执行 &&，在执行 || 。不是按照从左到右执行。这句话上面标识以下结论错误，说明上面的结论是错误的。最后又得出结论逻辑运算先执行 &&，在执行 ||。所以先执行 &&，再执行 || 所以到底是对的还是错的
Java && 和 || 优先级
Insight720: 我再举一个例子，也是书上的例子。(a || b) && c 【a 或 b 中有一个为 true，同时 c 为 true，b 可能为 false】和 a || b && c 【a 为 true，或 b 和 c 同时为 true， b 一定是 true】显然是不一样的，但 a && b || c 【a 和 b 同时为 true，或者 c 为 true】和 (a && b) || c 【a 和 b 同时为 true，或者 c 为 true】是一样的。这个例子中，小括号只能提高 || 的优先级，而不能提高 && 的优先级（因为它的优先级本来就高），这证明了 && 的优先级是比 || 高的。这只是一种证明方法。

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。