霍夫曼编码的 C 语言实现
1.霍夫曼编码
霍夫曼编码是 1952 年为文本文件而建立,是一种统计编码。属于无损压缩编码。霍夫曼编码的码长
是变化的,对于出现频率高的信息,编码的长度较短;而对于出现频率低的信息,编码长度较长。这样,
处理全部信息的总码长一定小于实际信息的符号长度 。霍夫曼编码同香农 、费诺编码一样是一种通信编码,
但是他们是按不同思路设计了各自的编码实现方法。
通信的根本问题是如何将信源输出的信息在接收端的信息精确或近似的复制出来。若接收端要求无失
真地精确复制信源输出的消息,此信源编是无失真编码。只有对离散信源可以实现无失真编码,由于连续
信源输出信息量可为无限大,故不可能实现无失真编码。霍夫曼编码就是一种无损压缩编码,在通信领域
中应用非常广泛,因此我们用 C 语言的方式为让大家更好的认识和理解霍夫曼编码。
2. 编码原理
霍夫曼码由霍夫曼树构造,平均码长是霍夫曼树的带权路径长度,由于霍夫曼树是权最小的树,故其
压缩效果最好。霍夫曼树 — 即最优二叉树,带权路径长度最小的二叉树,经常应用于数据压缩。 在计算机
信息处理中, 霍夫曼编码“ ”是一种一致性编码法(又称 " 熵编码法 " ),用于数据的无损耗压缩。这一术语是
指使用一张特殊的编码表将源字符(例如某文件中的一个符号)进行编码。这张编码表的特殊之处在于,
它是根据每一个源字符出现的估算概率而建立起来的。
霍夫曼码是用概率匹配方法进行信源编码 。有两个明显特点 :一是保证了概率大的符号对应于短码,
概率小的对应于长码,充分利用了短码;二是缩减信源的最后二个码字总是最后一位不同,从而保证了霍
夫曼码是即时码。
霍夫曼变长码的效率很高,它可以单个信源符号编码或用 L 较小的信源序列编码,对编码器的设计来
说也易实现,但要注意,更高效率的编码仍须按长序列来计算,这样才能使平均码字降低。
3.霍夫曼编码的步骤
(l)将信号源的符号按照出现概率递减的顺序排列。
(2 )将两个最小出现概率进行合并相加,得到的结果作为新符号的出现概率。
(3 )重复进行步骤 1 和 2 直到概率相加的结果等于 1 为止。
(4 )在合并运算时,概率大的符号用编码 0 表示,概率小的符号用编码 1 表示。
(5 )记录下概率为 1 处到当前信号源符号之间的 0,l 序列,从而得到每个符号的编码。
例如:
设信号源为 s ={ s1, s2, s3, s4, s5 }
对应的概率为 p ={ 0.25 ,0.22 ,0.20, 0.18 ,0.15 }。
根据字符出现的概率来构造平均长度最短的异字头码字。霍未曼编码通常采用两次扫描的办法,第一
次扫描得到统计结果,第二次扫描进行编码。
4. 编码的特点
(1 )哈夫曼编码实际上构造了一个码树,码树从最上层的端点开始构造,直到树根结束,最后得到一
个横放的码树,因此,编出的码是即时码。
(2 )哈夫曼编码采用概率匹配方法来决定各码字的码长,概率大的符号对应于短码,概率小的符号对
应于长码,从而使平均码长最小。
(3 )每次对概率最小的两个符号求概率之和形成缩减信源时,就构造出两个树枝,由于给两个树枝赋
码元时是任意的,因此编出的码字并不惟一。
5.C 语言的实现
#include
#include
#include
#include
#include
#define HuffmanTree HF
#define HuffmanCode HMC
typedef struct
{unsigned int weight;
unsigned int parent,lchild,rchild;
} HTNode,*HF;
typedef char **HMC;
typedef struct {
unsigned int s1;