python以gzip header请求html数据时,response内容乱码无法解码的解决方案

1. 问题背景

在使用urllib2 module抓取web数据时,如果希望使用如何request header,减少传输时数据量。返回的数据,是经过gzip压缩的。直接按照 content.decode(“utf8”), 解码会出现异常,并且也无法检测网页数据的实际编码类型。

2. 问题分析

因为http请求中,如果在request header包含”Accept-Encoding”:”gzip, deflate”, 并且web服务器端支持,返回的数据是经过压缩的,这个好处是减少了网络流量,由客户端根据header,在客户端层解压,再解码。urllib2 module,获取的http response数据是原始数据,没有经过解压,所以这是乱码的根本原因。

3. 解决方案

3.1 Request header移除”Accept-Encoding”:”gzip, deflate”

最快的方案,能直接得到可解码的数据,缺点是,传输流量会增加很多。

3.2 使用zlib module,解压缩,然后解码,得到可读的明文数据。

这也是本文使用的方案

4. 源码解析

代码如下, 这是一个典型的模拟form表单,post方式提交请求数据的代码,基于python 2.7
,

代码块

代码块语法遵循标准markdown代码

#! /usr/bin/env python2.7
import sys
import zlib
import chardet
import urllib
import urllib2
import cookielib

def main():
    reload( sys )
    sys.setdefaultencoding('utf-8')
    url = 'http://xxx.yyy.com/test'
    values = {
            "form_field1":"value1",
            "form_field2":"TRUE",
             }

    post_data = urllib.urlencode(values)
    cj=cookielib.CookieJar()
    opener=urllib2.build_opener(urllib2.HTTPCookieProcessor(cj))
    headers ={"User-agent":"Mozilla/5.0 (Macintosh; Intel Mac OS X 10.10; rv:36.0) Gecko/20100101 Firefox/36.0",
              "Referer":"http://xxx.yyy.com/test0",
              "Accept":"text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8",
              "Accept-Language":"en-US,en;q=0.5",
              "Accept-Encoding":"gzip, deflate",
              "Connection":"keep-alive",
              # "Cookie":"QSession=",
              "Content-Type":"application/x-www-form-urlencoded",
              }
    req = urllib2.Request(url,post_data,headers)
    response = opener.open(req)
    content = response.read()
    gzipped = response.headers.get('Content-Encoding')
    if gzipped:
        html = zlib.decompress(content, 16+zlib.MAX_WBITS)
    else:
        html = content
    result = chardet.detect(html)
    print(result)
    print html.decode("utf8")

if __name__ == '__main__':
    main()  

使用本脚本需要以下环境
- Mac OS 10.9+
- Python 2.7.x

目录

[TOC]来生成目录:

  • 2
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
当我们使用Python进行get请求,并拿到html响应,有候可能会遇到乱码的情况。这种情况通常是由于编码问题造成的。 首先,我们需要确保我们正在使用正确的编码进行解码。大部分网页使用的是UTF-8编码,因此我们可以尝试使用UTF-8进行解码。我们可以使用Python的`requests`库来发送get请求,并使用`response.encoding = 'utf-8'`来设置编码。 如果使用UTF-8解码仍然无法正常显示网页内容,那么可能是网页使用的编码与我们猜测的不同。在这种情况下,我们可以尝试使用`chardet`库来检测网页的编码。`chardet`库可以分析网页的内容,并尝试猜测出正确的编码。我们可以使用`chardet.detect(content)`来检测网页内容的编码,然后再使用该编码进行解码。 另外,有候网页在返回没有指定正确的编码,我们可以尝试将返回的html内容转化为Unicode,然后再进行解码。我们可以使用`response.content.decode('unicode_escape')`来将html内容转化为Unicode。 最后,如果上述方法都无法解决问题,那可能是网页本身存在乱码的情况,我们无法完全修复。在这种情况下,我们可以尝试使用BeautifulSoup库来处理网页内容,该库可以自动修复一些网页中的乱码问题。 总结起来,当我们使用Python的get请求拿到html乱码,可以尝试使用UTF-8编码进行解码,使用chardet库检测网页的编码并使用该编码进行解码,将html内容转化为Unicode进行解码,以及使用BeautifulSoup库处理网页内容。根据具体情况选择相应的方法来解决乱码问题。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值