数据压缩算法—2无损压缩算法

最新推荐文章于 2025-04-16 01:15:00 发布

qccz123456

最新推荐文章于 2025-04-16 01:15:00 发布

阅读量9.9k

点赞数 7

分类专栏：数据压缩算法

本文链接：https://blog.csdn.net/qccz123456/article/details/84979297

版权

几个常见的编码算法

（一）字典算法

字典算法是最为简单的压缩算法之一。它是把文本中出现频率比较多的单词或词汇组合做成一个对应的字典列表，并用特殊代码来表示这个单词或词汇。例如：
有字典列表：
00=Chinese
01=People
02=China
源文本：I am a Chinese people,I am from China 压缩后的编码为：I am a 00 01,I am from 02。压缩编码后的长度显著缩小，这样的编码在SLG游戏等专有名词比较多的游戏中比较容易出现，比如《SD高达》。

（二）固定位长算法（Fixed Bit Length Packing）

这种算法是把文本用需要的最少的位来进行压缩编码。
比如八个十六进制数：1，2，3，4，5，6，7，8。转换为二进制为：00000001，00000010，00000011，00000100，00000101，00000110，00000111，00001000。每个数只用到了低4位，而高4位没有用到（全为0），因此对低4位进行压缩编码后得到：0001，0010，0011，0100，0101，0110，0111，1000。然后补充为字节得到：00010010，00110100，01010110，01111000。所以原来的八个十六进制数缩短了一半，得到4个十六进制数：12，34，56，78。
这也是比较常见的压缩算法之一。

（三） RLE算法

这种压缩编码是一种变长的编码，RLE根据文本不同的具体情况会有不同的压缩编码变体与之相适应，以产生更大的压缩比率。
变体1：重复次数+字符
文本字符串：A A A B B B C C C C D D D D，编码后得到：3 A 3 B 4 C 4 D。
变体2：特殊字符+重复次数+字符
文本字符串：A A A A A B C C C C B C C C，编码后得到：B B 5 A B B 4 C B B 3 C。编码串的最开始说明特殊字符B，以后B后面跟着的数字就表示出重复的次数。
变体3：把文本每个字节分组成块，每个字符最多重复 127 次。每个块以一个特殊字节开头。那个特殊字节的第 7 位如果被置位，那么剩下的7位数值就是后面的字符的重复次数。如果第 7 位没有被置位，那么剩下 7 位就是后面没有被压缩的字符的数量。例如：文本字符串：A A A A A B C D E F F F。编码后得到：85 A 4 B C D E 83 F（85H= 10000101B、4H= 00000100B、83H= 10000011B）
以上3种不RLE变体是最常用的几种，其他还有很多很多变体算法，这些算法在Winzip Winrar这些软件中也是经常用到的。

（四） LZ77算法

LZ77算法是由 Lempel-Ziv 在1977发明的，也是GBA内置的压缩算法。LZ77算法有许多派生算法(这里面包括 LZSS算法)。它们的算法原理上基本都相同，无论是哪种派生算法，LZ77算法总会包含一个滑动窗口（Sliding Window）和一个前向缓冲器（Read Ahead Buffer）。滑动窗口是个历史缓冲器，它被用来存放输入流的前n个字节的有关信息。一个滑动窗口的数据范围可以从 0K 到 64K，而LZSS算法使用了一个4K的滑动窗口。前向缓冲器是与滑动窗口相对应的，它被用来存放输入流的前n个字节，前向缓冲器的大小通常在0 – 258 之间。这个算法就是基于这些建立的。用下n个字节填充前向缓存器（这里的n是前向缓存器的大小）。在滑动窗口中寻找与前向缓冲器中的最匹配的数据，如果匹配的数据长度大于最小匹配长度（通常取决于编码器，以及滑动窗口的大小，比如一个4K的滑动窗口，它的最小匹配长度就是2），那么就输出一对**〈长度（length），距离（distance）〉**数组。长度(length)是匹配的数据长度，而距离(distance)说明了在输入流中向后多少字节这个匹配数据可以被找到。
LZ77压缩算法采用字典的方式进行压缩，是一个简单但十分高效的数据压缩算法。其方式就是把数据中一些可以组织成短语(最长字符)的字符加入字典，然后再有相同字符出现采用标记来代替字典中的短语，如此通过标记代替多数重复出现的方式以进行压缩。LZ77的主要算法逻辑就是，先通过前向缓冲区预读数据，然后再向滑动窗口移入（滑动窗口有一定的长度），不断的寻找能与字典中短语匹配的最长短语，然后通过标记符标记。
在这里插入图片描述
目前从前向缓冲区中可以和滑动窗口中可以匹配的最长短语就是（A,B）,然后向前移动的时候再次遇到（A,B）的时候采用标记符代替。

4.1 压缩

当压缩数据的时候，前向缓冲区与移动窗口之间在做短语匹配的是后会存在2种情况:
找不到匹配时：将未匹配的符号编码成符号标记（多数都是字符本身）
找到匹配时：将其最长的匹配编码成短语标记。
短语标记包含三部分信息：（滑动窗口中的偏移量（从匹配开始的地方计算）、匹配中的符号个数、匹配结束后的前向缓冲区中的第一个符号&#x