概念:
给定N个权值作为N个叶子节点,构造一棵二叉树,若该树的带权路径长度达到最小,称这样的二叉树为最优二叉树,也称为霍夫曼树(Huffman Tree)。霍夫曼树是带权路径长度最短的树,权值较大的节点离根较近。
基本术语:
1、路径和路径长度
在一棵树中,从一个节点往下可以达到的子节点之间的通路,称为路径。通路中分支的数目称为路径长度。若规定根节点的层数为1,则从根节点到第L层节点的路径长度为L-1。
2、节点的权及带权路径长度
若将树中节点赋给一个有着某种含义的数值,则这个数值称为该节点的权。节点的带权路径长度为:从根节点到该节点之间的路径长度与该节点的权的乘积。
3、树的带权路径长度
树的带权路径长度规定为所有叶子节点的带权路径长度之和,记为WPL。
构造过程:
假设有n个权值,则构造出的霍夫曼树有n个叶子节点。 n个权值分别设为 w1、w2、…、wn,则霍夫曼树的构造规则为:
(1) 将w1、w2、…,wn看成是有n 棵树的森林(每棵树仅有一个节点);
(2) 在森林中选出两个根节点的权值最小的树合并,作为一棵新树的左、右子树,且新树的根节点权值为其左、右子树根节点权值之和;
(3)从森林中删除选取的两棵树,并将新树加入森林;
(4)重复(2)、(3)步,直到森林中只剩一棵树为止,该树即为所求得的霍夫曼树。
构建示例:
按照上面的构造过程我们来构建一棵霍夫曼树,假设我们有1、2、3、7、8这五个权值,
将其看成是有五棵树的森林,在森林中选出两个根节点的权值最小的树,即1、2进行合并,作为一棵新树的左、右子树,且新树的根节点权值为其左、右子树根节点权值之和,即3,
此时我们需要从森林中删除选取的1、2两棵树,并将新树3加入森林,森林变成了如下这样子,
然后再从森林中选出两个根节点的权值最小的树,即3、3进行合并,作为一棵新树的左、右子树,且新树的根节点权值为其左、右子树根节点权值之和,即6,
此时我们需要从森林中删除选取的3、3两棵树,并将新树6加入森林,森林变成了如下这样子,
然后再从森林中选出两个根节点的权值最小的树,即6、7进行合并,作为一棵新树的左、右子树,且新树的根节点权值为其左、右子树根节点权值之和,即13,
此时我们需要从森林中删除选取的6、7两棵树,并将新树13加入森林,森林变成了如下这样子,
然后再从森林中选出两个根节点的权值最小的树,即8、13进行合并,作为一棵新树的左、右子树,且新树的根节点权值为其左、右子树根节点权值之和,即21,
此时我们需要从森林中删除选取的8、13两棵树,并将新树21加入森林,森林变成了如下这样子,
这就是最终的树,霍夫曼树。
此时我们可以算出由上到下叶子节点的路径长度分别为1、2、3、4、4,带权路径长度为从根节点到该节点之间的路径长度与该节点的权的乘积,则分别为1x8、2x7、3x3、4x1、4x2,树的带权路径长度为所有叶子节点的带权路径长度之和,即WPL=8+14+9+4+8=43。
疑问:
从霍夫曼树的定义可知决定是否是霍夫曼树的关键在于这棵树的带权路径长度,那么在构建的过程中为什么是使用左右子树根节点权值之和作为新树的根节点权值,而不是这棵树的带权路径长度呢?
不怕大家笑话,之前我一直以为按照后者构建的树会使得带权路径长度更小,曾经也找到了那么五个权值,在纸上面计算了多次验证自己的猜想,同时这也是这篇文章的由来!
直到这篇文章的图在word上画完之后,一切都变了,一切都不一样了,这五个权值根据前面的构建方式得到的带权路径长度明显优于后者。懵了,不懂了,不理解了,这篇文章也随之废弃了。但最近不小心又翻出了这篇文章,想到自己当时第一次好不容易用word画的图,那就还是把它发上来吧,烦请大家能够答疑解惑。