熵
系统越有序,熵值越低;系统越混乱或者分散,熵值越高
信息熵
从信息的完整性上进行的描述:当系统的有序状态一致时,数据越集中的地方熵值越小;数据越分散的地方熵值越大
从信息的有序性上进行的描述:当数据量一致时,系统越有序,熵值越低;系统越混乱或者分散,熵值越高。
信息熵是度量样本集合纯度最常用的一种指标。
信息增益
以某特征划分数据集前后的熵的差值。熵越大,样本的不确定性越大。因此可以使用划分前后集合熵的差值来衡量使用当前特征对于样本集合D划分的好坏
信息增益 = entroy(前) - entroy(后)
所以可以得到信息增益的计算公式
信息增益率
信息增益率是由信息增益和属性a对应的固有值做除法求的
信息增益上面已经说了怎么求了
固有值用下面的公式求
基尼值和基尼指数
基尼值:从数据集D中随机抽取两个样本,其类别标记不一致的概率
基尼值越小,数据集D的纯度越高
计算基尼值时只有两种类别(对于有三种类别的,分为aa和其他、bb和其他、cc和其他)
基尼指数:一般选择使划分后基尼指数最小的属性作为最优化分属性