二叉树之Huffman树

哈夫曼树的基本概念
在介绍哈夫曼树之前,先给出几个基本概念。
1、结点间的路径和路径长度
(1)路径是指从一个结点到另一个结点之间的分支序列。
(2)路径长度是指从一个结点到另一个结点所经过的分支数目。
2、结点的权和带权路径长度
(1)在实际的应用中,人们常常给树中的每个结点赋予一个具有某种实际意义的实数,称该实数为这个结点的权。
(2)在树型结构中,我们把从根节点到某一结点的路径长度与该结点的权的乘积,叫做该结点的带权路径长度。
3、树的带权路径长度
树的带权路径长度WPL为树中从根节点到所有叶子结点的各个带权路径长度之和。树的路径长度PL。
在这里插入图片描述
(a)WPL=7×2+5×2+2×2+4×2=36
(b)WPL=4×2+7×3+5×3+2×1=46
(c)WPL=7×1+5×2+2×3+4×3=35

研究树的路径长度PL和带权路径长度WPL,目的在于寻找最优分析。
问题1:什么样的二叉树的路径长度最小?
一棵树的路径长度为0的结点至多只有1个(根);路径长度为1的结点至多只有2个(两个孩子);……以此类推,路径长度为k的 结点至多只有2^k个。所以n个结点的二叉树的路径长度至少等于如下图所示序列的前n项之和。
在这里插入图片描述
由上图可知,结点n对应的路径长度为对对log2n向下取整。
完全二叉树的路径长度=2^0 * 0 + 2 ^(1) × 1 + …,所以完全二叉树具有最小路径长度的性质,但不具有惟一性。
有些二叉树并不是完全二叉树,但也可以具有最小路径长度,如下图所示。
具有相同最小路径长度的不同形态的二叉树
问题2:什么样的二叉树的带权路径长度最小?
例如,给定一个权值序列{2,3,4,7},可构造如下图所示的多种二叉树的形态。
在这里插入图片描述
上图(a)所示的二叉树是完全二叉树,但并不具有最小的带权路径长度,由此可见,完全二叉树不一定带权路径长度最小。
那究竟什么样的二叉树的带权路径长度最小?
给定n个实数W1,…,Wn(n>=2),求一个具有n个终端结点的二叉树,使其带权路径长度最小。由于哈夫曼给出了构造这种树的规律,将给定的结点构成一棵带权路径最小的二叉树,因此就称为哈夫曼树

哈夫曼树:它是由n个带权叶子结点构成的所有二叉树中带权路径长度最小的二叉树。因为这种树最早由哈夫曼(Huffman)研究,所以称为哈夫曼树,又叫最优二叉树。上图©所示的二叉树就是一棵哈夫曼树。

构造哈夫曼树的算法(这种生成算法就是一种典型的贪心法)步骤如下:
(1)初始化:用给定的n个权值{W1,…,Wn}对应由n棵二叉树构成的森林F={T1,…,Tn},其中每一棵二叉树Ti都只有一个权值为Wi的根 结点。
(2)找最小树:在森林F中选择两棵根结点权值最小的二叉树,作为一棵新二叉树的左、右子树,标记新二叉树的根结点权值为其左、右子树根结点的权值之和。其中权值可以相同
(3)删除与加入:从F中删除被选中的那两棵二叉树,同时把新构成的二叉树加入到森林中。
(4)判断:重复(2)、(3)操作,直到森林中只含有一棵二叉树为止,此时得的这棵二叉树就是哈夫曼树。

哈夫曼树是求某种最优方案。
由于哈夫曼树没有度为1的结点,因此一棵有n个叶子结点的哈夫曼树共有2n-1个结点。
哈夫曼树是正则二叉树(也叫正规二叉树),即其中只有度为0和度为2的结点,又因为对任意一棵二叉树n0 = n2+1,而此时的n = n0+n2,所以n = 2 * n0 - 1。

哈夫曼编码
用电子方式处理符号时,需先对符号进行二进制编码。例如,在计算机中使用的英文字符的ASCII编码就是8位二进制编码,ASCII编码是一种定长编码,即每个字符用相同数目的二进制位编码。
为了缩短数据文件长度,可采用不定长编码。其基本思想是,给使用频度较高的字符编以较短的编码。这是数据压缩技术的最基本思想。
如何给数据文件中的字符编以不定长编码,使数据文件的长度最短呢?这是一个与哈夫曼树相关的最优问题。

在设计变长编码的时候需注意,这种编码必须要满足这样一个条件:任一个编码不能是其他编码的前缀。把满足这个条件的编码叫做前缀编码
(1)前缀编码:如果在一个编码系统中,任一个编码都不是其他任何编码的前缀(最左字串),则称该编码系统中的编码是前缀编码。
例如,一组编码01,001,010,100,110就不是前缀编码,因为01是010的前缀,若去掉01或010就是前缀编码。
(2)哈夫曼编码:对一棵具有n个叶子的哈夫曼树,若对树中的每个左分支赋予0右分支赋予1,则从根到每个叶子的通路上,各分支的赋值分别构成一个二进制串,该二进制串就称为哈夫曼编码。

哈夫曼编码的相关特性
定理1:哈夫曼编码是前缀编编码。
定理2:哈夫曼编码是最优前缀编码。即对与n种字符,分别以它们的使用频度为叶子权构造哈夫曼树,则该树对应的哈夫曼编码能使由这
n种字符构成的文件对应的二进制串的长度最短。

哈夫曼编码的平均码长为:每种编码的长度×该编码的使用频度。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值