(一)、哈夫曼树
哈夫曼树也叫最优二叉树(哈夫曼树)
(二)、问题:什么是哈夫曼树?
例:将学生的百分制成绩转换为五分制成绩:≥90 分: A,80~89分: B,70~79分: C,60~69分: D,<60分: E。
if (a < 60){
b = 'E';
}
else if (a < 70) {
b = ‘D’;
}
else if (a<80) {
b = ‘C’;
}
else if (a<90){
b = ‘B’;
}
else {
b = ‘A’;
}
判别树:用于描述分类过程的二叉树。
https://images0.cnblogs.com/blog2015/682679/201504/052142271163043.png(图片链接)
如果每次输入量都很大,那么应该考虑程序运行的时间
https://images0.cnblogs.com/blog2015/682679/201504/052145322101163.png(图片链接)
如果学生的总成绩数据有10000条,则5%的数据需 1 次比较,15%的数据需 2 次比较,40%的数据需 3 次比较,40%的数据需 4 次比较,因此 10000 个数据比较的
次数为: 10000 (5%+2×15%+3×40%+4×40%)=31500次
https://images0.cnblogs.com/blog2015/682679/201504/052147335854515.png(图片链接)
此种形状的二叉树,需要的比较次数是:10000 (3×20%+2×80%)=22000次,显然:两种判别树的效率是不一样的。
(三)、问题:能不能找到一种效率最高的判别树呢?
那就是哈夫曼树
(四)、回忆树的基本概念和术语
路径:若树中存在一个结点序列k1,k2,…,kj,使得ki是ki+1的双亲,则称该结点序列是从k1到kj的一条路径。
路径长度:等于路径上的结点数减1。
结点的权:在许多应用中,常常将树中的结点赋予一个有意义的数,称为该结点的权。
结点的带权路径长度:是指该结点到树根之间的路径长度与该结点上权的乘积。
(五)、哈夫曼树的构造(哈夫曼算法)
1.根据给定的n个权值{w1,w2,…,wn}构成二叉树集合F={T1,T2,…,Tn},其中每棵二叉树Ti中只有一个带权为wi的根结点,其左右子树为空.
2.在F中选取两棵根结点权值最小的树作为左右子树构造一棵新的二叉树,且置新的二叉树的根结点的权值为左右子树根结点的权值之和.
3.在F中删除这两棵树,同时将新的二叉树加入F中.
4.重复2、3,直到F只含有一棵树为止.(得到哈夫曼树)
(六)、关于哈夫曼树的注意点:
1、满二叉树不一定是哈夫曼树
2、哈夫曼树中权越大的叶子离根越近 (很好理解,WPL最小的二叉树)
3、具有相同带权结点的哈夫曼树不惟一
4、哈夫曼树的结点的度数为 0 或 2, 没有度为 1 的结点。
5、包含 n 个叶子结点的哈夫曼树中共有 2n – 1 个结