python 关于Gzip解压

近日发现原来查询Yahoo排名的一支python程式不能正常运行了,Debug后发现一个提示:

WARNING:Some characters could not be decoded, and were replaced with REPLACEMENT CHARACTER.

查了Stackoverflow发现因为对方启用了Gzip压缩.使我们抓下来的页面内容需经过gzip.GzipFile方法解出来才能用.

判断是否gzip的方法,只要:

1 page = urllib2.urlopen(req)
2 print page.info().get('Content-Encoding')

输出结果如果是'Gzip'的话.就是已经经过Gzip压缩的.

 

附解决方法及通用解压方式:

import gzip
import zlib
import StringIO

def decode (self,page):
    encoding = page.info().get("Content-Encoding")
    if encoding in ('gzip', 'x-gzip', 'deflate'):
        content = page.read()
        if encoding == 'deflate':
            data = StringIO.StringIO(zlib.decompress(content))
        else:
            data = gzip.GzipFile('', 'rb', 9, StringIO.StringIO(content))
        page = data.read()
    return page

# call run --
if  __name__ == "__main__":
    response =  urllib2.urlopen(req)
    content = self.decode(response) #加入gzip解压
    response.close() ##防止内存泄漏 关闭连接
    content = BeautifulSoup(''.join(content))

 

 

转载于:https://www.cnblogs.com/vingi/articles/3570440.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值