决策树的每一层都需要根据最大信息增益来进行分类特征的选取。实际上,信息增益最大找的是样本之间差异最大的特征
1 最大信息增益的定义
信息增益是指,分类前根据原始类别计算的熵值ResEntropy和分类后计算的熵值NewEntropy两者的差值DifferenceEntropy。因此,信息增益最大是指DifferenceEntropy最大。
2 熵值越小,样本类别越一致
既然原始的熵值是常量(当样本固定后),那么最大信息熵值实际上也就说是分类后的熵值要越小越好。我们知道,熵是用来度量信息容量的,即信息量越大,信息越多样,其熵值越大。相反,如果信息很一致,其熵值是很小的。
将其推广到分类中,分类后的两个类别,其各自的样本结果越复杂,则分类后的熵值越大。其自的样本结果越一致,其熵值越小。比如,区分班上爱学习和不爱学习的20个学生,如果用考试成绩特诊来分类,成绩特征值为高的一类同学9个人都是爱学习的,只有1个是不爱学习的,即成绩特征值高得一类样本结果的一致性很好。但是,如果使用身高来分类,身高属性值为高的一类同学中,可能5个是爱学习的,5个是不爱学习的,身高高的一类中样本结果的一致性很差。
也就是说,在爱学习和不爱学习的分类例子中,成绩特征比身高特征显著,其分类结果更为一致。而最大增益原则选取的正是使结果一致的特征。
3 最大信息增益的特征即为最显著特征
也就是说,最大信息熵的所选的特征是分类后熵值最小的特征。分类后熵值最小的特征恰恰是分类结果一致的特征,而分类结果一致的特征必须是两类样本差异最大的特征。