1、哈夫曼编码简介
哈夫曼编码(Huffman Coding)是一种编码方式,哈夫曼编码是可变字长编码(VLC)的一种。Huffman于1952年提出一种编码方法,该方法完全依据字符出现概率来构造异字头的平均长度最短的码字,有时称之为最佳编码,一般就叫做Huffman编码(有时也称为霍夫曼编码)。
2、哈夫曼编码的核心思想
(1)每一个字符用一个0、1串作为其代码,并要求任意一个字符的代码都不是其他字符代码的前缀;
(2)用字符在文件中出现的频率表来建立一个用0、1串表示各字符 的最优表示方式,即使出现频率高的字符获得较短的编码,出现频率较低的字符获得较长的编码;
(3)将字符在文件中出现的频率值作为一棵二叉树的叶子结点的权值,并通过构造一棵哈夫曼树得到最优前缀码。
3、哈夫曼树的构建
啥夫曼树又称最优二叉树。它是由n个带权叶子结点构成的所有二叉树中,带权路径长度(即树中所有叶子结点的带权路径长度之和)最小的二叉树。
构造哈夫曼树的步骤如下:
(1)用给定的n个权值{w1, w2 ,... , wn}对应的n个结点构成n棵二叉树的森林F={T1, T2 ,.. , Tn},其中每一棵二叉树Ti(1<=i<=n)都有一个权值为wi的根结点,其左右子树为空;
(2)在森林F中选择两棵根结点权值最小的二叉树,作为一棵新二叉树的左右子树,标记新二叉树的根结点权值为其左右子树的根结点权值之和;
(3)从F中删除被选中的那两棵二叉树,同时把新构成的二叉树加入到森林F中;
(4)重复