关于数据流压缩的原理,lz77以及huffman编码可以参考上一篇:
https://blog.csdn.net/sesiria/article/details/116835301
本篇将包含以下内容:
1. gzip格式分析
2. zlib库函数API分析
3. zlib库实战(压缩和解压文件)
gzip格式采用deflate算法来实现数据的压缩
一、deflate采用了改进版的lz77算法
即:三个字节以上重复才进行编码,否则不进行编码;即对滑动窗口进行查询的时候最短的匹配大小为3个字节。
为什么要最小匹配3个字节呢? 这是由于,在gzip中,<匹配长度,到匹配串开头的距离>对中,“匹配长度”的范围为3-258,也就是有256种可能指,需要8bit来保存。 “到匹配 串开头的距离"范围 为0~32k,需要15bit来保存。 所以一个<匹配长度,到匹配串开头的距离>对需要23位,差一位3个字节。
如果一个匹配串小于3个字节,使用<匹配长度,到匹配串开头的距离>对进行替换,不但没有压缩,反而还会增大。所以保存<匹配长度,到匹配串开头的距离>所队应的位数,决定了最小匹配长度至少要为3个字节。
deflate无损压缩解压算法(先lz77压缩,然后huffman编码)
deflate中的huffman编码:
对lz77得到的压缩后结果,需要统计字符生成编码表huffmantree,根据码表对内容进行编码,从而实现压缩的效果。
编码表hufmantree和编码后的data都放在一个文件中。
deflate中欧弄个的解压:
读取二进制文件,构建huffmantree表,读取数据根据huffmantree生成字符
接着用lz77解码,进行搜索匹配并替换为队应的串。
todo: 基于先使用lz77 最短3字节编码,后使用huffman编码的deflate压缩算法的实现:
二、gzip格式分析
gzip的压缩原理:先使用lz77算法的 一个变种进行压缩,对得到的结果再使用huffman编码进行压缩;
bzip2的压缩原理:使用了一个游程编码器进行编码,接下来块排序压缩和Move-to-front(MTF)变换进一步产生大量相同符号,进一步使用另一个游程编码器进行编码。最后使用huffman编码,将一个消息头与其打包;
LZMA编码:它是deflate和lz77算法改良和优化后的压缩算法,而Deflate是同时使用了lz77算法与huffman编码的一个无损 数据压缩算法。
deflate(RFC1951):一种压缩算法,使用 LZ77 和哈夫曼进行编码;
zlib(RFC1950):一种格式,是对 deflate 进行了简单的封装,他也是一个实现库(delphi
中有 zlib,zlibex);
gzip(RFC1952):一种格式,也是对 deflate 进行的封装;
https://www.rfc-editor.org/rfc/rfc1952.txt
gzip = gzip头 + deflate编码的实际内容 + gzip尾
zlib = zlib头 + deflate编码的实际内容 + zlib尾
GZIP本身只是一种文件格式,其内部通常采用Deflate数据格式,而Deflate采用lz77压缩算法来压缩数据。
GZIP文件由1~多个块组成,实际上通常只有1个块。每个块包含头,数据和尾三部分。
块的大概结构如下:
1. 头部分
ID1与ID2:各1字节。固定值,ID1 = 31(0x1F), ID2 = 139(0X8B), 指示GZIP格式。
CM: 1字节。表示压缩方法。目前只有一种: CM = 8, 指Deflate算法。
FLG: 1字节,标志位。
bit 0 FTEST - 指示文本数据
bit 1 FHCRC - 指示存在CRC16头校验字段
bit 2 FEXTRA - 指示存在可选字段
bit 3 FNAME - 指示存在原文件名字段
bit 4 FCOMMENT - 指示存在注释字段
bit 5-7 保留
MTIME: 4字节。更改时间。UNIX格式。
XLF: 1字节。 附加的标志。当CM=8时, XFL = 2 表示采用最大压缩但最慢的算法;
XFL=4 表示最快但最小的压缩算法
OS: 1字节。操作系统,确切说应该是文件系统。有如下定义:
0 - FAT文件系统 (MS-DOC, OS/2, NT/Win32)
1 - Amiga
2 - VMS/OpenVMS
3 - Unix
4 - VM/CMS
5 - Atari TOS
6 - HPFS 文件xitong (OS/2, NT)
7 - Macintosh
8 - Z-System
9 - CP/M
10 - TOPS-20
11 - NTFS
12 - QDOS
13 - Acorn RISCOS
255 - 未知
额外的头字段:
若FLG.FEXTRA = 1
+---+---+---+---+===============//=========