带权路径长度
定义1. 结点的权:有某种现实含义的数值
定义2.结点的带权路径长度:从树的根节点到该结点的路径长度与该结点上权值的乘积
例如,图中结点E的带权路径长度为:1x3 = 3。
定义3.树的带权路径长度:树中所有叶结点的带权路径长度,用WPL表示
如上图中的树的带权路径长度为 3+6+6+6+8=29
哈夫曼树的定义
在含有n个带权叶结点的二叉树中,其中带权路径长度最小的树称为哈夫曼树,也叫最优二叉树
哈夫曼树的构造
假设给定n个权值为w1,w2,w3......的结点,其构造描述如下
1.将这n个结点作为仅含有一个结点的n棵树,并将这些树构成一个森林F。
2.选取森林中根节点权值最小的两棵树,将他们根节点的权值相加,构成一个新的根节点,并将这两棵树作为新的根节点的左右子树。
3.从森林F中删除刚刚选取的两棵树,并将生成的新树加入森林F。
4.重复2和3知道森林F中只有一棵树。
操作示意图
给定6个结点,构成一个森林F
选取最小的两个构成一棵树
将权值为1和2的结点从森林F中删除,并将根节点为3的结点加入森林F
第二次选取,构成的树以及森林
第三次选取,构成的树和森林
第四次选取,构成的树和森林
最终形成的树
哈夫曼编码
举个例子,如果需传送的电文为 ‘ABACCDA’,它只用到四种字符,用两位二进制编码便可分辨。假设 A, B, C, D 的编码分别为 00, 01,10, 11,则上述电文便为 ‘00010010101100’(共 14 位),译码员按两位进行分组译码,便可恢复原来的电文。
哈夫曼编码需要解决的是根据字母出现频率,将字母转化为一棵哈夫曼树,进而形成哈夫曼编码,以便取得最小的编码长度。
使用哈夫曼树进行字符编码可以解决编码不唯一的问题。
通过这样的编码方式,我们可以得到A的字符编码为0,C的字符编码为10,B的字符编码为110,D的字符编码为111