获取http的gzip内容并解压相关问题

原创 2010年03月17日 14:07:00

08年在csdn上面写了一个帖子关于解压http的gzip内容的,一直以来有不少的程序员前仆后继,持续的遇到同样的问题,正如我08年遇到的时候看的都是03 04年的帖子一样,现在把论坛上面的资料整理一下放到这里,希望能这个问题不会再困扰其他的程序员。

------------------------------

寻找gzip
获取一个网页数据返回的编码类型是gzip,我该怎么解压缩 ?
HTTP头获取?
如何用vb获取网络上的xml文件,并解析内容 ?
关于GZIP的解码 ?
怎样解gzip的压缩 ?
请问Wininet是否可以进行Gzip的http传输,尤其是post的时候!如果可以如何实现?
关于GZIP格式解压缩HTTP数据包的问题,我使用ZLIB为什么必须先保存文件,内存解压缩出错 ?
无法获取$_SERVER["HTTP_REFERER"]
关于GZIP的问题,高分求解!!
.....
等都是关于gzip解压的
问题:
提取http的gzip内容,并解压。
关键点:
1 提取http数据包的内容,主要是gzip格式的
2 数据包的重组
3 在内存中解压gzip数据

这两个周过来,都是在网上过来的,得到网友的帮助不少,很是感激,为了不让这个问题继续困扰后来的un_gziper,特写此文。
1 数据包内存的提取:
关键的地方是找到gzip内存的开始位置以及如何确定gzip内容的大小
开始位置:“Content-Encoding: gzip/r/n/r/n”
gzip大小:“Content-Length:”后面的就是了
2 数据包的重组,一般网页的内容很少是一个数据包可以装得下的,所以都得进行gzip之后再用多个数据包进行传输
关键的地方是:
get请求数据包的ack和seq与http返回数据包的ack,seq有密切的联系:
举例说明:
get请求:ack=0,seq=0
http1:seq=0,ack=584
http2: seq=1420,ack=584
...
简单的分析说明可以看出,我们的算法设计:
首先得到get请求的ack,返回的数据包的seq等于这个值,同时记下这个数据包的ack,后面进行分包发送的http的数据包的ack都是这个值,这个是关键点之一,同时综合
Content-Length就可以得到gzip的全部内容。
至此,原始数据提取完毕,该是如何解压的问题了
3解压gzip
我做了上面的1,2步以后将内容保存到文件里面,用gzip命令可以打开,验证了数据的完整性。
而后我采用了zlib提供的uncompress函数,和大多数的网友一样,都是犯了一个致命的错误,没有仔细的阅读zlib的文档!导致一次次无谓的识别!
事实上zlib格式和gzib格式是有差别的,而uncompress是用来解压zlib格式文件的,这就是为什么会出现用compress函数压缩的数据,在内存中可以直接用uncompress函数进行解压的,而就不能解压gzip数据的问题!

后来测试了zlib包里面的example例子,算是对zlib有了一点点的了解,应该用inflate类函数进行解压!
当然这样遇到了问题,格式不对!
后来在网上看到的帖子:gzip格式用inflate函数还不行,必需要用inflateInit2(&strm,  47); !!!!!!!!!!!!!!!!!!
问题解决!
这里借用那位网友的源代码,同时对他表示感谢!

int  inflate_read(char  *source,int  len,char  **dest,int  gzip)
{
int  ret;
unsigned  have;
z_stream  strm;
unsigned  char  out[CHUNK];
int  totalsize  =  0;

/*  allocate  inflate  state  */
strm.zalloc  =  Z_NULL;
strm.zfree  =  Z_NULL;
strm.opaque  =  Z_NULL;
strm.avail_in  =  0;
strm.next_in  =  Z_NULL;

if(gzip)
ret  =  inflateInit2(&strm,  47);
else
ret  =  inflateInit(&strm);

if  (ret  !=  Z_OK)
return  ret;

strm.avail_in  =  len;
strm.next_in  =  source;

/*  run  inflate()  on  input  until  output  buffer  not  full  */
do  {
strm.avail_out  =  CHUNK;
strm.next_out  =  out;
ret  =  inflate(&strm,  Z_NO_FLUSH);
assert(ret  !=  Z_STREAM_ERROR);    /*  state  not  clobbered  */
switch  (ret)  {
case  Z_NEED_DICT:
ret  =  Z_DATA_ERROR;          /*  and  fall  through  */
case  Z_DATA_ERROR:
case  Z_MEM_ERROR:
inflateEnd(&strm);
return  ret;
}
have  =  CHUNK  -  strm.avail_out;
totalsize  +=  have;
*dest  =  realloc(*dest,totalsize);
memcpy(*dest  +  totalsize  -  have,out,have);
}  while  (strm.avail_out  ==  0);

/*  clean  up  and  return  */
(void)inflateEnd(&strm);
return  ret  ==  Z_STREAM_END  ?  Z_OK  :  Z_DATA_ERROR;
}


有问题的可以继续在这里一起讨论,不用加我QQ了:)

获取http的gzip内容并解压相关问题

转载自: http://blog.csdn.net/Squallxye/article/details/5388955 08年在csdn上面写了一个帖子关于解压http的gzip内容的...
  • VHeroin
  • VHeroin
  • 2016年10月05日 16:55
  • 1799

获取http的gzip内容并解压相关问题(续)

续上一篇,之前用zlib,自己socket构造http数据包,那个代码是很正常的。 但是昨天用miniz.c来实现,用在wininet下却不行。后来参考了github上面的代码。 https://...
  • VHeroin
  • VHeroin
  • 2016年10月06日 08:06
  • 197

获取http的gzip内容并解压

08年在csdn上面写了一个帖子关于解压http的gzip内容的,一直以来有不少的程序员前仆后继,持续的遇到同样的问题,正如我08年遇到的时候看的都是03 04年的帖子一样,现在把论坛上面的资料整理一...
  • pluton
  • pluton
  • 2010年05月14日 14:30
  • 12765

关于HTTP GZIP解压问题

寻找gzip 获取一个网页数据返回的编码类型是gzip,我该怎么解压缩 HTTP头获取? 如何用vb获取网络上的xml文件,并解析内容 关于GZIP的解码 怎样解gzip的压缩 ...
  • qinggebuyao
  • qinggebuyao
  • 2012年07月09日 11:32
  • 8654

解压gzip格式文件(包括网页)

先上源码参数说名: - source :gzip格式流内容。 - len: gzip流长度 - dest: 解压后字符流指针 - gzip: 压缩标志,非0时解压gzip格式,否则按照zip解...
  • u012266559
  • u012266559
  • 2017年03月24日 19:34
  • 468

关于http的gzip解压

关于http的gzip解压 时间:2012-09-21 12:31  浏览:206人 发送时需要添加Accept-Encoding字段,而接收时检查Content-Encoding即可...
  • wangyin159
  • wangyin159
  • 2015年08月07日 09:23
  • 2223

利用zlib库对HTTP收到的gzip数据解压

1、首先说为什么采用zlib解压,因为zlib可以解压内存数据。 2、下载zlib库后,自己在projcts目录里面根据需要编译lib库 3、静态链接只需要zlib.h ;zconf.h;zlib...
  • xuqiang918
  • xuqiang918
  • 2016年05月20日 18:04
  • 2594

使用zlib库函数实现http报文的解压

最近做项目的时候遇到了一个问题,那就是需要获得http响应报文主体内容,一般响应主体会通过gzip格式进行压缩,本文就是针对这种情况所写的,可以进行内存解压,而不需要保存至本地文件再解压。至于chun...
  • liuchonge
  • liuchonge
  • 2015年10月25日 21:14
  • 2322

查看wireshark抓包中含有gzip内容的方法

移动APP或者一些网页的http为了提高效率,节约流量,包体经常采用压缩方式传输, 判断是否采用压缩最直观的可以从抓包的request和response头看到,如下图的content-encodin...
  • xwj528
  • xwj528
  • 2015年03月09日 17:44
  • 2032

httpClient4发送gzip的post数据,servlet接收并解压

1、gzipUtils工具类: package nc.edu.nuc.utils; import java.io.ByteArrayInputStream; import java.io.ByteA...
  • liuxiao723846
  • liuxiao723846
  • 2017年11月15日 21:03
  • 308
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:获取http的gzip内容并解压相关问题
举报原因:
原因补充:

(最多只允许输入30个字)