1. 决策树的划分选择
决策树学习的关键是:如何确定最优划分属性。
我们希望,决策树划分过程中,分支结点所包含的样本尽可能同属一类。即结点的纯度越来越高。分支结点的纯度越高,则熵越小。
对于信息增益,定义为:分支前的熵-分支后的熵。分支后纯度越高,熵越小,减数越小,则差值越大。即信息增益越大,表明分支越好。
对于信息增益率,除以该属性取值的分布熵。也是越大越好。
信息增益,对可取值数目较多的属性有所偏好,取值越多,越趋近于一个结点一个样本,这样熵很小,增益值很大。
为了平衡,除以属性的“固有值”即分布熵。属性可能取值越多,通常该值越大。起到矫正作用。
信息增益率,对可取值较少的属性有所偏好。取值越少,固有值越小,则分母越小,信息增益率越大。
C4.5启发式选择算法:先从候选划分属性中找到信息增益高于平均水平的(小的不包避免除以小分母翻把;大坏的包),再从其中选择信息增益率最大的(抑制里面大坏的)。
2. 基尼指数
基尼值:
直观上