Huffman树
哈夫曼树,也叫最优二叉树,含n个带权叶子结点带权路径长度最短的二叉树。
基本概念:
- 路径长度? 路径上所经历边的数目。
- 结点的权? 结点所经路径被赋予的权重。
- 树的带权路径长度? 树中所有叶子结点带权路径长度之和。(WPL = ∑ WL)
构造算法
将n个结点(每个结点带有一定权值)构造为一棵Huffman树:
- n个结点自成森林集;
- 选取两棵权值最小的树作左右子树构成一棵新树(新结点权值为左右子树权值之和),森林集中删除左右子树,将新树加入到现有森林集;
- 重复步骤2至森林集剩一棵树,此树即为Huffman树;
Huffman编码
基本编码方式可分为:
- 固定长度编码,例如ASCII编码;
- 可变长度编码,例如电文;
可变长度编码译码时可能存在歧义,因此可变长度的编码都采用前缀编码,避免产生歧义。如果说要使得大多数情况下,字符串总的编码长度尽可能短,也就是说要让使用次数多的字符尽量使用较短的编码。这样一个编码过程,可以将字符视为叶结点,频次看作权重,生成一棵Huffman树,左右孩子分支分别编码为0、1,从根出发到对应叶子结点产生的二进制序列,即为对应叶子字符的编码。(依据Huffman树生成原理,我们可以知道访问到权重大(频次高)的结点的路径是相对较短的,也就是此字符编码序列相对较短)