哈夫曼树也是最优二叉树,首先我们来看哈夫曼树的定义:给定n个权值作为n个叶子结点,构造一棵二叉树,若带权路径长度达到最小,哈夫曼树是带权路径长度最短的树,权值较大的结点离根较近。
先再解释一下什么是带权路径的长度:设二叉树有n个叶子结点,每个叶子结点带有权值Wn,从根结点到每个叶子结点的长度,则每个叶子结点的带权路径长度之和就是。
举个例子来说明下哈夫曼树要到底是要解决什么样的问题:比如对成绩进行等级划分
如果成绩低于60分grade就为1,60到69分之间grade=2,70到79之间grade=3,80到89之间grade=4,90分以上grade=5;按照这样的评价标准,每次读入一个学生的成绩后,就对这个成绩进行判断。这样的转换规则,可以用一棵判定树来表示:
对于这么一棵判定树,如果读入了一个成绩是低于60分了,那么只需做一步判断就可以得到grade=1的结果。如果读入的分数是大于80且小于90,那么就要3步判断。如果分数大于90,那就要4步。
那么假设,一个班里的学生成绩,大部分都集中在80到90之间,而低于60分和高于90分的人比较少,那么大部分的成绩都要进行4步判断才能得出相应等级,所以这样的判定规则,效率可能并不是十分高。例如我们假设按照上面的规则来做成绩判断,然后按照下面的表格来录入成绩:
查找效率就为:0.1*1+0.25*2+0.3*3+0.3*4+0.05*4=2.9。
那么既然我们知道70-80和80-90这两个分数段所占的人数比较多,那么我们应该读入一个成绩后,先进行这两个分数段的判断,这样效率会不会更高?