1 定义
给定N个权值作为N个叶子结点,构造一棵二叉树,若该树的带权路径长度达到最小,称这样的二叉树为最优二叉树,也称为哈夫曼树(Huffman Tree)。哈夫曼树是带权路径长度最短的树,权值较大的结点离根较近。
路径长度:将路径上的分支总数称为路径长度
带权路径长度:根结点到任意结点的路径长度(经过的边数)与该结点的权值的乘积称为该节点的带权路径长度
2 哈夫曼树的构造
给定N个权值分别为w1,w2,...,w的节点,通过哈夫曼算法可以构造出最优二叉树,算法描述如下
1)将这N个结点分别作为N棵仅含一个结点的二叉树,构成森林F.
2) 构造一个新结点,并从F中选取两棵根结点权值最小的树作为新结点的左右子数,并将新结点的权值置为左、右子树上根节点的权值之和。
3)从F中删除刚才选出的两棵树,同时将得到的树加入到F中。
4)重复2)和 3),直至F中只剩下一棵树为止。
3 哈夫曼树的特点
1)每个初始节点都成为叶子结点,并且权值越小的结点到根结点的路径长度越大。
2)构造过程中共新建了N-1个结点(双分支结点),因此哈夫曼树中结点总数为2N-1。
3) 每次构造都选择2棵树作为新结点的孩子,因次哈夫曼树中不存在度为1的结点。
4 哈夫曼树的应用
哈夫曼编码:数据压缩编码,可变长度编码
前缀编码:没有一个编码是另一个编码的前缀
构造哈夫曼编码
权值作为字符出现的频度,我们可以将字符的编码解释为从根至该字符路径上的标记的序列
标记为0表示转向左孩子,标记为1表示转向右孩子