压缩的学习1

最新推荐文章于 2023-06-16 09:57:24 发布

beiyouyu

最新推荐文章于 2023-06-16 09:57:24 发布

阅读量733

点赞数

分类专栏：数据库数据结构与算法文章标签：算法 google 搜索引擎存储网络 c

本文链接：https://blog.csdn.net/beiyouyu/article/details/4015232

版权

数据结构与算法同时被 2 个专栏收录

7 篇文章 0 订阅

订阅专栏

数据库

0 篇文章 0 订阅

订阅专栏

0. 为什么需要压缩？

数据存储的需要：像google、baidu这样的搜索引擎公司，需要大量的存储设备来保存spider down的网页；如果不压缩的话，呵呵，结果可想而知。

网络传输的需要：传输1T的数据与传输100GB的数据相比，所耗的时间显而易见。

1. 为什么可以压缩？

数据的重复的pattern：例如：aabbcaabbc，后半段的aabbc就属于前面的重复，可以用一些标记来表示。

字符出现的概率：高频率的字符用较少的bit数来记录，而低频率的字符就可以用较多的bit数来表示。例如：文章中只有a和b两个字符，a出现了100000次，而b只出现了1次。

2. 常见压缩算法的思路：

基于[1]的压缩可行性，压缩算法自然可以分为以下类型：

基于重复pattern的算法：也被成为基于词典的方法。常见的有lz系列（lzp、lz77等）、LongCommonString等。

基于字符频率信息的算法：最经典的就是Huffman编码了。还有算术编码。

二者结合的算法：单单使用上面某一类的算法可能达不到理想的效果，通常会有二者结合的算法，先用基于重复pattern的算法进行压缩预处理，再用基于字符频率信息的算法压缩。例如gzip（lz77+Huffman）。

还有一种算法成为run-length coding：例如1110011110000，可以用03254来表示，0表示压缩的起始位置。

当然，上面介绍的算法均使用在无损压缩，针对text类型的数据；和无损压缩相对应，就是有损压缩了，适用范围例如图片、视频等，但对于text就不行了。试想如果google、baidu使用有损来压缩网页，那索引库就会出错了。

3. 压缩算法的资源限制

压缩算法通常需要考虑内存占用和性能的问题。如果占用了太多了内存，那也就是个失败的压缩算法了；如果性能太差，谁用你呢。但这个也会根据实际应用的类型来选择。

4. 实现的关键算法：

滑动窗口：基于重复pattern的压缩算法，例如gzip里的lz77，用<start_pos,length>来替代重复出现的串，start_pos表示匹配串的起始位置，length表示匹配成功的长度。例如aabbccdaabbc，最后的aabbc可以用<1, 5>来表示，表示从第1个位置开始，长度为5。考虑到压缩的需要，start_pos和length通常有最小的限制；因为要对每个串建词典，使用滑动窗口来限制匹配的范围（只能在窗口内匹配）。

Hash：通常用若干个字符作为上下文，来计算hash。例如：abcde，使用3个字符作为hash，hash["abc"]=1，hash[bcd]=2，表示hash值的匹配位置。当hash值冲突时，有两种处理：1.只保存最近的一个，例如lzp，这样可能会牺牲一些压缩率。2.保存若干个，例如lz77，这样在匹配时可以有选择的余地，选择length最大的一个串，获得更高的压缩比，但同时会牺牲内存和CPU。

Huffman编码：每个字符的code都不会是其他的code的前缀。假设字符c的概率为p，那么c的code的bit数为log2(1/p)，还需为整数。

算术编码：

统计模型：