CART 决策树的计算方法

本文介绍了CART决策树的构建过程,重点在于如何使用基尼指数来衡量数据集的纯度并选择最优划分特征。通过计算各特征的基尼指数,选择最小值作为分割节点。在示例中,选择了收入作为分割依据,并说明了当分支内数据属于同一类别时可直接作为叶节点,以及特征用尽后的叶节点值确定规则。
摘要由CSDN通过智能技术生成

数据集:

序号

是否有房

婚姻状况

年收入

是否拖欠贷款

1

单身

12.5

2

已婚

10

3

单身

7

4

已婚

12

5

离异

9.5

6

已婚

6

7

离异

22

8

单身

8.5

9

已婚

7.5

10

单身

9

数据集来源:https://blog.csdn.net/baimafujinji/article/details/53269040  数据挖掘十大算法之CART详解。(博客专家白马负金羁)年收入单位为:万元

  • 基尼指数(Gini Index)

Gini(D)反映了从数据集中随机抽取两个样本,其类别标记不一致的概率。因此,Gini(D)越小,则数据集D的纯度越高。

属性a的基尼指数定义为:

Gini_index(D,a)=

比如我们上述的数据集中,有三个特征,对每个特征a中,计算其Gini_index。选择其中的Gini_index最小的那个作为我们拆分的节点。

  • 利用基尼指数(Gini Index)选择划分特征

一、选择分支的特征

特征1:是否有房变量的Gini指数计算

 

                                                             是否拖欠

 

是否有房

 

sum

0

3

3

3

4

7

sum

3

7

10

 

 

 

 

 

 

有房的占比3/10

拖欠贷款的比例

0/3=0

 

 

 

未拖欠贷款的比例

3/3=1

 

 

有房的基尼指数0

1-(0/3)^2-(3/3)^2=0

 

 

 

 

 

 

 

 

无房的占比7/10

拖欠贷款的比例

3/7

 

 

 

未拖欠贷款的比例

4/7

 

 

无房的基尼指数0.4898

1-(3/7)^2-(4/7)^2=0.4898

 

 

是否有房的基尼指数

3/10*0+7/10*0.4898

0.34286

 

 

 

 

 

 

 

特征2:婚姻状况的Gini指数计算

由于婚姻状况有三种状态(已婚,单身,离异),而基尼系数只能计算两个随机抽取的样本不一致的概率。因此,这里要用其中一个类别,把总体分成两类。

(1)

按照{已婚,(单身,离异)},分成两组

 

 

 

         

 

 

是否拖欠

 

 

 

sum

 

已婚

0

4

4

 

(单身,离异)

3

3

6

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值