LZW 编解码算法

BeatriceDluberry

已于 2022-07-06 22:19:36 修改

阅读量420

点赞数

文章标签： c++ 算法

于 2022-07-06 21:59:54 首次发布

本文链接：https://blog.csdn.net/BeatriceDluberry/article/details/125642656

版权

概述

该编码方法属于词典压缩编码方法。词典编码是一种通用编码方法，适用于无法观察新源统计特性，或虽然可观察但统计特性不固定的情形。

LZW编码可应用于通用文件压缩（如WinZip）、动画图像压缩（如GIF、TIFF）等领域。

编码

LZW的编码思想是不断地从字符流中提取新的字符串，通俗地理解为新“词条”，然后用“代号”也就是码字表示这个“词条”。这样一来，对字符流的编码就变成了用码字去替换字符流，生成码字流，从而达到压缩数据的目的。LZW编码是围绕称为词典的转换表来完成的。LZW编码器通过管理这个词典完成输入与输出之间的转换。LZW编码器的输入是字符流，字符流可以是用8位ASCII字符组成的字符串，而输出是用n位(例如12位)表示的码字流。LZW编码算法的步骤如下：

步骤1：将词典初始化为包含所有可能的单字符，当前前缀P初始化为空。

步骤2：当前字符C=字符流中的下一个字符。

步骤3：判断P＋C是否在词典中

(1)如果“是”，则用C扩展P，即让P=P＋C，返回到步骤2

(2)如果“否”，则

输出与当前前缀P相对应的码字W；

将P＋C添加到词典中；

令P=C，并返回到步骤2

void LZWEncode(FILE *fp, BITFILE *bf) {
	int character;
	int string_code;
	int index;
	unsigned long file_length;

	fseek(fp, 0, SEEK_END);
	file_length = ftell(fp);
	fseek(fp, 0, SEEK_SET);
	BitsOutput(bf, file_length, 4 * 8);
	InitDictionary();
	string_code = -1;
	while (EOF != (character = fgetc(fp))) {
		index = InDictionary(character, string_code);
		if (0 <= index) {	// string+character in dictionary
			string_code = index;
		}
		else {	// string+character not in dictionary
			output(bf, string_code);
			if (MAX_CODE > next_code) {	// free space in dictionary
				// add string+character to dictionary
				AddToDictionary(character, string_code);
			}
			string_code = character;
		}
	}
	output(bf, string_code);
}

解码

LZW解码算法开始时，译码词典和编码词典相同，包含所有可能的前缀根。具体解码算法如下：

步骤1：在开始译码时词典包含所有可能的前缀根。

步骤2：令CW：=码字流中的第一个码字。步骤3：输出当前缀-符串string.CW到码字流。步骤4：先前码字PW：=当前码字CW。

步骤5：当前码字CW：=码字流的下一个码字。

步骤6：判断当前缀-符串string.CW 是否在词典中。

(1)如果”是”，则把当前缀-符串string.CW输出到字符流。

当前前缀P：=先前缀-符串string.PW

当前字符C：=当前前缀-符串string.CW的第一个字符

把缀-符串P+C添加到词典

(2)如果”否”，则当前前缀P：=先前缀-符串string.PW

当前字符C：=当前缀-符串string.CW的第一个字符

输出缀-符串P+C到字符流,然后把它添加到词典中

步骤7：判断码字流中是否还有码字要译。

(1)如果”是”，就返回步骤4

(2)如果“否”，结束

void LZWDecode(BITFILE *bf, FILE *fp) {
	//需填充
	int character;
	int previousCode;	// pW
	int currentCode;	// cW
	int phraseLen;	// 码长

	unsigned long inFileSize = BitsInput(bf, 4 * 8);
	if (inFileSize == -1) {
		inFileSize = 0;
	}

	/*词典和pW初始化*/
	InitDictionary();
	previousCode = -1;

	while (inFileSize > 0) {
		currentCode = input(bf);
		if (currentCode < next_code) {	/*当cW在词典中时 */
			phraseLen = DecodeString(0, currentCode);	// cW对应码长
		}
		else {	/*当cW超出当前节点索引，即cW不在词典中时 */
			d_stack[0] = character;	// 最后一个循环堆栈中的最后一个字符，即为pW的第一个字符
			phraseLen = DecodeString(1, previousCode);	// pW长度增加1
		}
		character = d_stack[phraseLen - 1];	//堆栈中的最后一个字符，即pW或cW的第一个字符

		while (phraseLen > 0) {
			phraseLen--;
			fputc(d_stack[phraseLen], fp);	// 输出解码后的字符串（按decStack的倒序）
			inFileSize--;
		}
		if (next_code < MAX_CODE) {	/* 向词典中添加新语段 */
			AddToDictionary(character, previousCode);	// 将pW+（cW的首字符）或者pW+（pW的首字符）加入词典
		}
		previousCode = currentCode;	// 更新pW = cW
	}
}

补充Decodestring函数，对其解释见注释

int DecodeString(int start, int code) {
	//需填充
	int count;
	count = start;
	while (0 <= code) {
		//查找根节点
		d_stack[count] = dictionary[code].suffix;//d_stack是为解压缩而定义的堆栈，同时以相反的顺序存储原始字符串
		code = dictionary[code].parent;//将当前节点的父节点设置为下一个节点
		count++;//指向下一个节点
	}
	return count;//返回当前节点和根之间的距离，count即为解码长度
}

当前码字在词典中不存在时应如何处理并解释原因：

处理：输出pW+(pW的第一个字符)

原因：解码时如果出现码字不存在，是因为上一个新编码的码字出现，即上一个新编码的码字和其首字母构成新码字。

实验结果

1.txt的编解码结果：

在命令行使用D和E分别运行解码和编码

如图，编解码均成功

十种文件格式的编码

压缩比计算：单位KB

文件类型	压缩前大小	压缩后大小	压缩比
txt	1	1	1：1
docx	10	17	0.58：1
png	20	33	0.61：1
bmp	193	92	2.10：1
yuv	24000	14627	1.64：1
pptx	55	60	0.92：1
jpg	383	405	0.95：1
xlsx	12	20	0.6：1
mp4	15203	21566	0.70：1
gif	34	41	0.83：1

可见，LZW编码在某些文件格式的压缩上有着不错的效果（如bmp和yuv），而其他文件体积变大。

这或许是因为LZW编码是机基于文件中有重复内容而生的，而在这些文件格式（体积变大的文件）中可能并不存在大量的重复序列，我的猜测是，这些文件已经经过压缩，没有很多重复部分，再加上原本ASCII码为单字节，但压缩后需要两个字节来表示，使得文件体积反而变大。要说明的是，这里只对某种格式的文件选了一种进行测试，所以结果也可能不准确。