LZ77文件压缩算法

最新推荐文章于 2024-06-19 17:11:21 发布

抖立FLAG

最新推荐文章于 2024-06-19 17:11:21 发布

阅读量2.3k

点赞数 1

分类专栏： C++项目

本文链接：https://blog.csdn.net/qq_44329028/article/details/105432509

版权

C++项目专栏收录该内容

2 篇文章 0 订阅

订阅专栏

LZ77压缩算法

1977由两个以色列人提出的基于重复语句层面的一种通用的压缩算法。
通用:对文件没有要求最终是将重复语句替换成更短的<长度，距离，先行缓冲区匹配字符串的下- -个字符>对，以达到压缩的目的。

mnoabczxyuvwabc 123456abczxydefgh

mnoabczxyuvw(3, 9, 1)23456(6, 18, d)efgh

找到一个重复子串后,需要将先行缓冲区匹配字符串的下一个字符按照源字符的方式写入压缩文件，下次如果匹配efg

GZIP 中的LZ77思想

GZIP: LZ77从重复语句层面压缩+ huffman从字节层面进行压缩

在ZIP算法中，也使用到LZ77的算法思想，但是对其进行了改进，主要是对于短语标记的改进：只使用“长度+距离”的二元组进行表示，匹配的查找是在查找缓冲区中进行的，即字典。
在这里插入图片描述

1、从之前压缩过的部分找重复

2、找到重复：将从夫出现的字符串使用（长度，距离）进行替换
 未找到重复：将该字节写在压缩文件中

注意：查找缓冲区的数据是已经被扫描过，建立的字典中的数据，先行缓冲区即为带压缩数据

查找缓冲区:

该部分的数据已近压缩写到压缩文件中
带压缩数据对应的-一个字符串将来要在该区域中找重复
随着压缩的进行，查找缓冲区在不断的增大

先行缓冲区:

待压缩的数据
每次从该区域中取一个字符串，然后在查找缓冲区中进行匹配
随着压缩的进行，先行缓冲区在不断的缩小

真正的数据压缩数据存储，长度，距离对不会用括号括起来，也不会用逗号隔开，因为会影响压缩比率。
那如何区分是原字符还是长度距离对呢？

采用标记位

在这里插入图片描述

重复字符串有几个时候进行长度距离对的替换?

匹配字符串的长度用一个字节存储: [0, 255]

为什么长度用一个字节表示: 一个字节可表示的最大值为255,255理论已经比较长，如果匹配长度超过255，长度必须要通过两个字节来进行存储，而正常文件中的匹配长度可能都小于255，- -个字节就可以存储，如果用两个字节存储时，对压缩率会有一定的影响。

距离用几个字节来进行存储?

就要必须知道缓冲区有多大?
缓冲区越大，查找到重复概率就更高

LZ77:缓冲区的大小—> 64K

理论上:应该在整个查找缓冲区中找匹配但是实际不会这么做:根据实际情况，重复-般都是有局部原理性-- -重复-般都不会太远虽然在整个查找缓冲区中进行查找，找到匹配的概率会更大，但是会严重增大查找的效率为了提升一点点的压缩比率，程序效率大大牺牲真正匹配范围不会超好WSIZE: 32K---->2^5*K—> 两个字节 [1,32768]

<长度，距离对>总共占了三个字节，匹配串长度

1个字符—>肯定不会找匹配，即不会压缩

2个字符—>如果找到的匹配长度是2个字符,不会进行匹配，因为如果将2个字符用<长度,距离>对替换—>会使压缩文件变大3个字符或以上字符才开始替换。
最小匹配长度 MIN MATCH LEN = 3;
最大匹配长度 MAX_ MATCH LEN = 258;

一个字节范围[0, 255]—>0表示长度3,1表示长度4…255长度258。
如果某个匹配长度超过258，则拆成两个匹配来进行表示

如何查找最长匹配串？

1、暴力求解

该算法的性能比较差，是一个O(N^2)的算法，如果待压缩文件比较大，
会严重影响压缩的速度。

2、采用哈希

哈希思想查找最大匹配串

使用哈希“桶”保存每三个相邻字符构成的字符串中首字符的窗口索引。
压缩过程中每遇到新字符时，进行如下操作：

利用哈希函数计算该字符与紧跟其后的两个字符构成字符串的哈希地址
将该字符串中首字符在窗口中的索引插入上述计算出哈希位置的哈希桶中，返回插入之前该桶的状态
根据2返回的状态监测是否找到匹配串
如果当前桶为空，说明未找到匹配，
否则：可能找到匹配，再定位到匹配串位置详细进行匹配即可。
利用哈希的思想，可大大提高查找匹配串的效率。

关于"哈希桶"，引发出以下问题：