LZW压缩算法是Unisys的专利,由Lempel-Ziv-Welch三人发明,有效期到2003年。
LZW思路:
ASCII字符有255个,每个用8bits表示,如果要表示2个字符,就用16bits;3个字符就用24bits,依此类推。假设我们对ASCII码扩展成12位,可以有4096个字符,并自己定义255以后的含义,如ab定义成258,abc定义成259,那么ab只用9位,较原来节约7位;abc也只用9位,较原来24bits节约15位,可以想象,代替的字符串越长,位数越节约。一般LZW压缩比为2:1或3:1。这是以前系统内存以及存储能力较小,为提高计算和存储能力而设计的。到现在,计算机性能突飞猛进,其优势就不复存在。
LZW核心是在于其压缩算法——动态生成压缩字典,自动还原压缩字典进行解压,压缩数据内含压缩字典,边压缩边生成压缩字典,但不保存;解压时,边解压边还原压缩字典,进行解压。
压缩
生成压缩字典就是如何将255个的ASCII码动态扩展成最大4096个字符码的过程。
(1)形成关键字为255个ascii码,值为0~255的初始字典,设定clearcode=256,endcode=257。(clearcode是为了在解压时避免扩展字典容量超过4096时,告诉程序以后的压缩数据的压缩字典重新计算;endcode表示结束)
(2)读取一个字符(input),和根字符(root)形成新的字符串(key),如果新字符串(key)在字典里存在,将根字符用新字符串(key)取代;如果key不存在,则将root计入输出流,input计为root字符,在字典中添加Key。
以ababababa为例,演示其压缩过程:
index | Input | Root | Root+Input (key) | Dictionary | Out |
1 | a(97) | a | - | - | |
2 | b(98) | a | ab | [258]=ab | 97 |
3 | a(97) | b | ba | [259]=ba | 98 |
4 | b(98) | a | ab | - | - |
5 | a(97) | ab | aba | [260]=aba | 258 |
6 | b(98) | a | ab | - | - |
7 | a(97) | ab | aba | - | - |
8 | b(98) | aba | abab | [261]=abab | 260 |
9 | a(97) | b | ba | - | - |
10 | - | ba | - | - | 259 |
压缩输出值(10进制):97|98|258|260|259
输出转换值(9bits二进制):001100001|001100010|100000010|100000100|100000011
最终输出值(8bits字节):48|152|160|80|72|24
解压
(1)同压缩,生成初始字典;
(2)读取一个字符(input)的第一个数值,在字典中找到对应的字符串输出,key字符=Root字符+input字符串第一个字符,并将key添加到字典中,将input设为新Root;
如果没有对应的关键字,key字符=Root+Root的第一个字符,并将key添加到字典中,输出key字符,将key设为新Root;
以上面压缩数据97 98 258 260 259 解压为例:
输入压缩值(8bits字节):48|152|160|80|72|24
转换压缩值(9bits二进制):001100001|001100010|100000010|100000100|100000011
Index | Input | Root | Root+Input.FirstChar (Key) | Dictionary | Out | 说明 |
1 | 97(a) | a | - | - | 字典存在97这个序号 | |
2 | 98(b) | a(97) | ab | [258]=ab | a | |
3 | 258(ab) | b(98) | ba | [259]=ba | b | |
4 | 260 | ab(258) | aba | [260]=aba | ab | 260不存在字典,Root+Root.firstChar,添加到字典,并输出(这是lzw最巧妙的地方,没有在字典里,如何推算出260),aba=>root |
5 | 259(ba) | aba(260) | abab | [261]=abab | aba | |
6 | - | ba(259) | - | - | ba |
最终输出:ababababa