在聊赫夫曼树之前,我们先来了解一下树的其他知识:
路径:从树中一个结点到另一个结点之间的分支构成这两个结点之间的路径
路径长度:路径上的分支数目
树的路径长度:从树根到 每个结点的路径长度之和
下图中树路径长度为: 2*1 + 3*2 + 1*3 = 11 (前边是数量,后边是路径长度)
我们学过两点之间线段最短,只要出现了路径之长短,我们肯定要找找怎么让路径最短
结点的带权路径长度:从结点到树根之间的路径长度与结点上权的乘积
树的带权路径长度(WPL):树中所有叶子结点的带权路径长度之和
最优二叉树:假设二叉树有n个叶子,其每个叶子结点带权wi,则带权路径长度WPL最小的二叉树称为最优二叉树或赫夫曼(Huffman)树。
WPL = 1*5+2*3+2*4=19
我们如何构造赫夫曼树?
在Huffman树中,权值最大的结点离根最近 权值最小的结点离根最远
Huffman树(算法)
1.根据给定的n个权值(w1, w2, …, wn)构成n棵二叉树的集合F={T1, T2, …, Tn},其中每棵二叉树Ti中只有一个带权为wi的根结点,左右子树为空
2.在F中选取两棵根结点的权值最小的树作为左右子树构造一棵新的二叉树,且置其根结点的权值为其左右子树根结点的权值之和
3.在F中删除这两棵树,同时将新得到的二叉树加入F中
4.重复2, 3,直到F只含一棵树为止
我们知道了赫夫曼树的原理,我们来了解一下赫夫曼树的应用:赫夫曼编码
设给出一段报文:GOOD_GOOD_GOOD_GOOOOOOOO_OFF
字符集合是 { O, G, _, D, F},各个字符出现的频度(次数)是 W={ 15, 4, 4, 3, 2}。
若按各个字符出现的概率不同而给予不等长编码,可望减少总编码长度。
令左孩子分支为编码‘0’,右孩子分支为编码‘1’
将根结点到叶子结点路径上的分支编码,组合起来,作为该字符的Huffman码,则可得到: O:1 _:011 G:010 D:001 F:000