数据压缩实验三：LZW编解码算法实现

原创

已于 2022-07-14 21:18:36 修改 · 702 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#大数据

于 2022-07-14 21:13:07 首次发布

本文详细介绍了LZW编码原理，包括编码思想、步骤及解码算法。通过实验步骤展示了LZW编码和解码的过程，以及如何处理解码时当前码字不在词典中的情况。实验结果显示，LZW编码对于某些文件格式如bmp能有效压缩，但对已压缩文件可能导致文件增大。

一、LZW编码原理概述

1.1 LZW的编码思想

不断地从字符流中提取新的字符串，通俗地理解为新“词条”，然后用“代号”也就是码字表示这个“词条”。这样一来，对字符流的编码就变成了用码字去替换字符流，生成码字流，从而达到压缩数据的目的。LZW编码是围绕称为词典的转换表来完成的。LZW编码器通过管理这个词典完成输入与输出之间的转换。LZW编码器的输入是字符流，字符流可以是用8位ASCII字符组成的字符串，而输出是用n位(例如12位)表示的码字流。

1.2 LZW编码算法的步骤

步骤1：将词典初始化为包含所有可能的单字符，当前前缀P初始化为空。

步骤2：当前字符C=字符流中的下一个字符。

步骤3：判断P＋C是否在词典中（1）如果“是”，则用C扩展P，即让P=P＋C，返回到步骤2。（2）如果“否”，则输出与当前前缀P相对应的码字W；将P＋C添加到词典中；令P=C，并返回到步骤2LZW编码算法可用下述函数实现。首先初始化词典，然后顺序从待压缩文件中读入字符并按照上述算法执行编码。最后将编得的码字流输出至文件中。

1.3 LZW解码原理和实现算法

LZW解码算法开始时，译码词典和编码词典相同，包含所有可能的前缀根。

具体解码算法如下：

步骤1：在开始译码时词典包含所有可能的前缀根。

步骤2：令CW：=码字流中的第一个码字。

步骤3：输出当前缀-符串string.CW到码字流。

步骤4：先前码字PW：=当前码字CW。

步骤5：当前码字CW：=码字流的下一个码字。

步骤6：判断当前缀-符串string.CW 是否在词典中。

（1）如果”是”，则把当前缀-符串string.CW输出到字符流。当前前缀P：=先前缀-符串string.PW。当前字符C：=当前前缀-符串string.CW的第一个字符。把缀-符串P+C添加到词典。

（2）如果”否”，则当前前缀P：=先前缀-符串string.PW。当前字符C：=当前缀-符串string.CW的第一个字符。输出缀-符串P+C到字符流,然后把它添加到词典中。

步骤7：判断码字流中是否还有码字要译。

（1）如果”是”，就返回步骤4。

（2）如果”否”，结束。

二、实验步骤

1．首先调试LZW的编码程序，以一个文本文件作为输入，得到输出的LZW编码文件。

2. 以实验步骤一得到的编码文件作为输入，编写LZW的解码程序。在写解码程序时需要对关键语句加上注释，并说明进行何操作。在实验报告中重点说明当前码字在词典中不存在时应如何处理并解释原因。

3. 选择至少十种不同格式类型的文件，使用LZW编码器进行压缩得到输出的压缩比特流文件。对各种不同格式的文件进行压缩效率的分析。

三、实验结果和相关代码

3.1 补充lzw.cpp中缺失代码

3.1.1 DecodeString

int DecodeString(int start, int code) {
	int count = start;
	while (0 <= code) 
	{
		d_stack[count] = dictionary[code].suffix;  //将新字符传入数组
		code = dictionary[code].parent;  //将旧字符赋给code
		count++;  //数组下标增加1
	}
	return count;
}

3.1.2 LZWDecode

void LZWDecode(BITFILE* bf, FILE* fp)
{
	int character;
	int new_code, last_code;   //new_code为新码字，last_code为上一个旧码字
	int phrase_length;         //输出字符串长度
	unsigned long file_length; //输入文件长度
	file_length = BitsInput(bf, 4 * 8);  //读取文件大小
	if (-1 == file_length) file_length = 0;
	InitDictionary();   //初始化词典，
	last_code = -1; //pw=-1
	while (0 < file_length) {  //解完最后一个码字后退出循环
		new_code = input(bf);  //读入新码字
		if (new_code >= next_code) //如果新码字不在词典中
		{ 
			d_stack[0] = character;  //写character数组，即为pw
			phrase_length = DecodeString(1, last_code);//解码后返回字符串长度
		}
		else //如果新码字在词典中
		{	  
			phrase_length = DecodeString(0, new_code);//直接对应词典解码
		}
		character = d_stack[phrase_length - 1];//将cw的第一个字符存入character，确定pw的值
		while (0 < phrase_length) 
		{ 
			phrase_length--;
			fputc(d_stack[phrase_length], fp);//输出当前对应的字符串
			file_length--;//待解码文件长度-1
		}
		if