一、基尼指数的概念 表示样本集合中一个随机选中的样本被分错的概率 注:Gini指数越小表示集合被选中的样本被参错的概率越小,即集合的纯度越高。反之,集合越不纯。当集合中所有样本为一个类时,基尼指数为0。 二、计算公式 三、示例 考虑如下数据集: (1)计算整个数据集的 Gini 指标值。 易统计: 故带入公式得 (2)计算属性性别的 Gini 指标值 故按属性竖着看计算,有: