哈夫曼树定义和原理
我们先把上图简化成叶子结点带权的二叉树(注:树结点间的连线相关的数叫做权,Weight)。
① 结点的路径长度:从根结点到该结点的路径上的连接数。
② 树的路径长度:树中每个叶子结点的路径长度之和。
③ 结点带权路径长度:结点的路径长度与结点权值的乘积。
④ 树的带权路径长度:WPL(Weighted Path Length)是树中所有叶子结点的带权路径长度之和。
※WPL的值越小,说明构造出来的二叉树性能越优,这种最优二叉树又称为哈夫曼树。
- 哈夫曼树的存储结构:
weight
data
leftChild
rightChild
哈夫曼树的结点存储结构为双亲孩子存储结构:
① weight: 结点的权值。
② data:结点的值。
③ leftChild:结点的左孩子。
④ rightChild:结点的右孩子。
- 构造哈夫曼树:
对于已知的一组叶子的权值W 1 ,W 2… ,W n
① 首先把 n 个叶子结点看做 n 棵树(仅有一个结点的二叉树),n棵树组成一个森林。
② 把森林中权值最小和次小的两棵树合并成一棵树(小的放左边,大的放右边),该树根结点的权值是两棵子树权值之和,这时森林中还有 n-1 棵树。
③ 重复第②步直到森林中只有一棵为止。此树就是哈夫曼树。
现给一组 (n=4) 具体的权值 2 、4 、5 、 8 ,下边是构造具体过程:
哈夫曼树的原理主要处理通信问题:
在日常的通信中,有一些字符的出现的频率高些,故设定的权重大些,编码时的二进制码短,从而总的缩短了编码长,节约了传输成本。在解码时,只需要双方约定好同样的哈夫曼编码规则。