使用基尼指数划分属性的决策树(CART)

本文是在之前基础上的修改,所以如果有问题可以看西瓜书中的决策树算法实现(ID3)这篇文章。

CART 决策树由[Breiman et al.] 在1984 年提出。其使用”基尼指数“用来划分属性。

基尼系数(英文:Gini index、Gini Coefficient)是指国际上通用的、用以衡量一个国家或地区居民收入差距的常用指标。
基尼系数最大为“1”,最小等于“0”。基尼系数越接近0表明收入分配越是趋向平等。国际惯例把0.2以下视为收入绝对平均,0.2-0.3视为收入比较平均;0.3-0.4视为收入相对合理;0.4-0.5视为收入差距较大,当基尼系数达到0.5以上时,则表示收入悬殊。
基尼指数最早由意大利统计与社会学家Corrado Gini在1912年提出。

【注】我看这个概念的时候完全忘记了自己在决策树,哈哈哈
根据这个概念不难看出,对于经济体来说,肯定是收入越平均越好,但是对于我们的系统来说,越平均系统的熵越高,系统越混乱。因此一个接近与1的系统,他的混乱都最低。
但是 ,并非如此。玛德,又一次理解错了,书中的概念是: 基尼指数越小越好,害,正好和理解的相反。然后我又找到了一篇文章。决策树:什么是基尼系数(“杂质 增益 指数 系数”辨析) 这个里面解释的很清楚,下面,我再去读一遍,国庆一个小假期忘得从差不多了…

基尼指数的原理就是,选择一个分类方式,原数据被分错的概率之和。借上文的图片一用:
在这里插入图片描述在上述分类器中,左侧共四个元素,全部正确分类 故
G l e f t = 4 4 ∗ ( 1 − 1 ) + 0 4 ∗ ( 1 − 0 ) = 0 G_{left}=\frac{4}{4}*(1-1)+\frac{0}{4}*(1-0)=0 Gleft=44(11)+40(10)=0
计算的公式是 (所占的比例*分错的概率)
下面计算右侧的概率:
G r i g h t = 5 6 ∗ ( 1 − 5 6 ) + 1 6 ∗ ( 1 − 1 6 ) = 10 36 = 0.278 G_{right}=\frac{5}{6}*(1-\frac{5}{6})+\frac{1}{6}*(1-\frac{1}{6})=\frac{10}{36}=0.278 Gright=65(16

评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值