1. 压缩编码概述
数据压缩在日常生活极为常见,平常所用到jpg、mp3均采用数据压缩(采用Huffman编码)以减少占用空间。编码\(C\)是指从字符空间\(A\)到码字表\(X\)的映射。数据压缩编码指编码后信息的长度较于原始信息要短。本文试图探讨Huffman编码是如何保证唯一可译性、如何压缩、以及压缩效率如何?
前缀码
前缀码的任意一码字均不为其他码字的前缀,此保证了编码的唯一可译性。比如码字表{0, 01, 11, 1}
,0
为01
的前缀,1
为11
的前缀;当遇到字符文本011100
,是应分隔为01-11-0-0
还是0-11-1-0-0
等?若采用前缀码编码,码字表为{0, 10, 11}
,则字符文本011100
可即时分隔为0-11-10-0
可译,所以前缀码亦被称为即时码。同时,前缀码保证了编码的唯一可译性,即字符空间\(A\)到码字表\(X\)的映射为一一映射。本文探讨的Huffman编码即为前缀码。
根据码字长度,编码分为等长编码与变长编码。等长编码即字母表中所有码字的长度均相等,最为常见