一、基础理解
- 决策树结构中,每个节点处的数据集划分到最后,得到的数据集中一定只包含一种类型的样本;
1)公式
- k:数据集中样本类型数量;
- Pi:第 i 类样本的数量占总样本数量的比例
2)实例计算基尼系数
- 3 种情况计算基尼系数:
- 基尼系数的性质与信息熵一样:度量随机变量的不确定度的大小;
- G 越大,数据的不确定性越高;
- G 越小,数据的不确定性越低;
- G = 0,数据集中的所有样本都是同一类别;
3)只有两种类别的数据集
- x:两类样本中,其中一类样本数量所占全部样本的比例;
- 当 x = 0.5,两类样本数量相等时,数据集的确定性最低;
二、使用基尼系数划分节点数据集
1)格式
-
from sklearn.t