使用基尼指数划分属性的决策树（CART）

最新推荐文章于 2025-03-18 13:57:37 发布

是大侠诶

最新推荐文章于 2025-03-18 13:57:37 发布

阅读量7.8k

点赞数 2

分类专栏：机器学习文章标签：决策树 python 机器学习

本文链接：https://blog.csdn.net/qq_41563601/article/details/108922852

版权

本文是在之前基础上的修改，所以如果有问题可以看西瓜书中的决策树算法实现（ID3）这篇文章。

CART 决策树由[Breiman et al.] 在1984 年提出。其使用”基尼指数“用来划分属性。

基尼系数（英文：Gini index、Gini Coefficient）是指国际上通用的、用以衡量一个国家或地区居民收入差距的常用指标。
基尼系数最大为“1”，最小等于“0”。基尼系数越接近0表明收入分配越是趋向平等。国际惯例把0.2以下视为收入绝对平均，0.2-0.3视为收入比较平均；0.3-0.4视为收入相对合理；0.4-0.5视为收入差距较大，当基尼系数达到0.5以上时，则表示收入悬殊。
基尼指数最早由意大利统计与社会学家Corrado Gini在1912年提出。

【注】我看这个概念的时候完全忘记了自己在决策树，哈哈哈
根据这个概念不难看出，对于经济体来说，肯定是收入越平均越好，但是对于我们的系统来说，越平均系统的熵越高，系统越混乱。因此一个接近与1的系统，他的混乱都最低。
但是，并非如此。玛德，又一次理解错了，书中的概念是：基尼指数越小越好，害，正好和理解的相反。然后我又找到了一篇文章。决策树：什么是基尼系数（“杂质增益指数系数”辨析）这个里面解释的很清楚，下面，我再去读一遍，国庆一个小假期忘得从差不多了…

基尼指数的原理就是，选择一个分类方式，原数据被分错的概率之和。借上文的图片一用：
在这里插入图片描述在上述分类器中，左侧共四个元素，全部正确分类故
$G_{left}=\frac{4}{4}*(1-1)+\frac{0}{4}*(1-0)=0$
计算的公式是（所占的比例*分错的概率）
下面计算右侧的概率：
$G_{right}=\frac{5}{6}*(1-\frac{5}{6})+\frac{1}{6}*(1-\frac{1}{6})=\frac{10}{36}=0.278$

最低0.47元/天解锁文章