python下载网页内容出现乱码

最新推荐文章于 2022-11-25 12:49:40 发布

砍柴君

最新推荐文章于 2022-11-25 12:49:40 发布

阅读量638

点赞数

文章标签：乱码 python 爬虫解压gzip 爬虫-python

本文链接：https://blog.csdn.net/jyckder/article/details/78468520

版权

平时使用urllib2下载一个页面的内容，然后使用beautifulsoup解析后出现乱码，不管是换成utf8或者gbk编码来解码都不行。

这个问题可能是网页被压缩的原因

用浏览器调试工具查看下url应答包header中是否有Content-Encoding为gzip

python可以使用gzip库来解压

import gzip, StringIO
url = 'http://www.example.com'
response = urllib2.urlopen(url)
html = response.read()
if response.info().get('Content-Encoding') == 'gzip':
    buf = StringIO.StringIO(html)
    fd = gzip.GzipFile(fileobj=buf)
    html = fd.read()
print html

更多内容：python常见问题总结

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

砍柴君

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python下载网页内容出现乱码

平时使用urllib2下载一个页面的内容，然后使用beautifulsoup解析后出现乱码，不管是换成utf8或者gbk编码来解码都不行。这个问题可能是网页被压缩的原因用浏览器调试工具查看下url应答包header中是否有Content-Encoding为gzippython可以使用gzip库来解压import gzip, StringIOurl = 'http://www.example.com
复制链接

扫一扫