源代码获取:
https://github.com/akh5/C-/tree/master/LZ77
LZ77简介
LZ77是一种基于字典的算法,它将长字符串(也称为短语)编码成短小的标记,用小标记代替字典中的短语,从而达到压缩的目的。也就是说,它通过用小的标记来代替数据中多次重复出现的长串方法来压缩数据。其处理的符号不一定是文本字符,可以是任意大小的符号。
LZ77原理介绍
LZ77是基于字节的通用压缩算法,它的原理就是将源文件中的重复字节(即在前文中出现的重复字节)使用(offset,length)的元组进行替换。通过在前文中搜索,匹配到相同字符串时,记录下到匹配位置的距离,和其匹配的长度,来代替当前字符串,可以节省很多空间。
一般情况下,匹配的字符串超过3个字符以上时才进行替换,3个一下字符有时反而会使压缩文件变大
压缩
压缩时以一个缓冲区,不断向右滑动的方式来扫描前文
通过缓冲区的方式,查找缓冲区已经扫描好的字符串,而向前缓冲区中的时需要向前查找匹配内容的区域,所以查找到的距离长度对都是从查找缓冲区开始匹配的,而不是从文件最开始的部分开始进行匹配。
压缩开始时,有一个当前位置的指针,从当前位置与下一个位置的字符配合在查找缓冲区中查找相应字符串,如果找到匹配,则继续向下查找,直到找到