1.Gini系数
设pk为节点S包含的K个不同的类别的数据记录所占的比例,则结点S的基尼系数G(S)定义如下:
基尼系数位于[0,1]区间,数字越小表明区分度越大。一次划分的整体基尼系数等于划分得到的孩子节点的基尼系数的加权平均,且权值被定义为孩子节点包含的数据量。因此,如果S1和S2为节点S在二元决策树中的孩子节点,n1和n2为S1和S2包含的记录数,则划分S→(S1,S2)的基尼系数定义如下:
设pk为节点S包含的K个不同的类别的数据记录所占的比例,则结点S的基尼系数G(S)定义如下:
基尼系数位于[0,1]区间,数字越小表明区分度越大。一次划分的整体基尼系数等于划分得到的孩子节点的基尼系数的加权平均,且权值被定义为孩子节点包含的数据量。因此,如果S1和S2为节点S在二元决策树中的孩子节点,n1和n2为S1和S2包含的记录数,则划分S→(S1,S2)的基尼系数定义如下: