Deflate内部实现（LZ77无损压缩算法）超详细图解算法版～

你脸上有BUG

已于 2025-02-08 16:00:33 修改

阅读量3.1k

点赞数 15

分类专栏：算法文章标签：算法压缩算法滑动窗口

于 2024-06-19 17:11:21 首次发布

原文链接：https://blog.csdn.net/lixiaogang_theanswer/article/details/119332879

版权

算法专栏收录该内容

21 篇文章

订阅专栏

无损压缩算法

第一阶段：重复消除 — LZ77无损压缩算法
- 算法介绍
第二阶段：位减少
- huffman
- 位减少

概览

Gzip
- Deflate 编码（LZ77+哈夫曼）
Brotli
- LZ77+哈夫曼+二阶上下文建模

Deflate 分两个阶段压缩数据：重复消除和位减少

第一阶段：重复消除 — LZ77无损压缩算法

算法介绍

基于字典的无损压缩算法，它搜索重复的未压缩序列并用引用指针替换它们。

引用指针由 2 个元素定义：

offset距离（或偏移量）：原始未压缩数据中出现的第一个现有字节的相对返回。
Length：重复的字节长度。

当对序列进行压缩的时候，采用 “滑动窗口” 算法，
结构如下：

查找缓冲区（Search buffer），也称字典（已编码部分）
先行缓冲区（Look ahead buffer），包括即将进行编码序列的一部分。每次读取数据的时候，先把一部分数据预载入前向缓冲区。为移入滑动窗口做准备。

由于缓冲区具有固定的长度，所以，当算法（编码器）在运行时候，它看起来像在文件中“滑动”，所以这个缓冲区被称为“滑动窗口”。

滑动窗的尺寸是影响压缩性能的关键因素之一。如果滑动窗口太小，则压缩器可能会发现较少的重复数据序列，结果，压缩文件的大小将更大。如果滑动窗口太大，则压缩器可能需要花费更长的时间来查找重复的数据序列，因此压缩速度将变慢。

要使用 LZ77 压缩算法：

将编码位置设置为输入流的开头。
在查找缓冲区的窗口中找到最长的匹配项。
如果找到匹配，则输出指针 P。将编码位置（和窗口）向前移动 L个字节。
如果未找到匹配项，则输出空指针和先行缓冲区中的第一个字节。将编码位置（和窗口）向前移动一个字节。
如果先行缓冲区不为空，则返回步骤 2。

主要逻辑：
通过先行缓冲区预读取数据，然后向字典中移入，不断搜索字典中与先行缓冲区连续相匹配的最长序列，然后输出metadata标记。

举例

以微软的例子来理解算法：微软介绍：LZ77压缩算法

Input stream

Position    1    2    3    4    5    6    7    8    9
Byte        A    A    B    C    B    B    A    B    C

Output 期望压缩后得到的结果：
在这里插入图片描述

压缩后怎么能读取到原文呢？

答：需要将output进行解码，如：
（0，0）‘X’：直接推入X
（o，l）：找到offset=o的位置，往后复制l个字符

看来最重要的一环就是如何压缩啦！让我们一起看看这个算法的思路和图解吧～

压缩算法思路

AABCBBABC串，将重复的子串用指针进行替换，
对于其中的每个元素 x 有两种情况：
1. 前文没有任何重复的子串：输出（0，0）x
2. 在前文能找到重复的子串：输出（offset = x和匹配子串的的距离，length = 匹配子串的长度）

图解压缩过程

字符序列移动方向：从右往左

简称：

buffer区：先行缓存区（未编码），这是需要匹配的字符串
Dictionary：查找缓存区（已编码），用来匹配buffer的字典区域

初始字符串从右往左滑动，直至占满所有buffer区，如图1

（图1）
开始遍历图1 buffer的第一个字符’A’，因Dictionary空，未匹配到’A’ => 往左移一格（如图2），输出(0,0)A。
（offset = A无匹配子串，距离=0，length：0，无重复子串） （图2）
遍历图3 buffer第一个字符"A"，在Dictionary找到"A"，未超过buffer黄色长度，往后遍历到编码"AB"，Dictionary没有匹配到“AB”字符串，于是只编码"A"，输出(1, 1)。

（图3）

如图4，匹配长度为1，所以字符串向左偏移一个单位：

（图4）
匹配buffer区第一个字符’B’，Dictionary内未匹配，同步骤1，输出(0,0)B，左移一格。
匹配buffer区第一个字符’C’，Dictionary内未匹配，同上，输出(0,0)C，左移一格，如图5 ：

（图5）
匹配图6 buffer区第一个字符’B’，offset（'B’与Dictionary中匹配的’B’的距离）=2，两个查找指针同时往后移1（如图6），比较'C'vs'B'不匹配，终止，length=1，输出（2，1）

（图6）

得到结果：

（图7）
匹配图7 buffer区第一个字符’B’，Dictionary匹配到‘B’，分别是offset=1和offset=3，但offset=3下一字节'C'vs'A'不匹配，就近原则选择offset=1，length=1，输出（1，1）。

（图8）
此时已编码序列长度大于Dictionary区，有序列滑出了窗口，如图8。
匹配图8 BUFFER第一个字符 ‘A’，在DICTIONARY匹配到，offset=5，往后遍历直到匹配"ABC"，length=3，此时不能再往后编码否则超过BUFFER区域长度，故输出(5, 3)，往左移动3格，如图：