决策树———用基尼系数建立决策树

       第一、什么是决策树?

              简单来说就是用于解决分类问题的算法。

       第二、什么是基尼指数?

              是用于划分属性纯度的一个工具(基尼指数越小,则纯度越高说明该属性越优)

             公式如下

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETkBxcV80NTQ4OTcxNQ,size_11,color_FFFFFF,t_70,g_se,x_16对于各种不同的属性来计它的基尼指数,然后来创建一棵决策树。

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETkBxcV80NTQ4OTcxNQ,size_20,color_FFFFFF,t_70,g_se,x_16

例如label=0 和 label=1 都是5份的时候,每份的概率是0.5 使用基尼指数公式计算后,算出该属性的基尼指数为0.5

同理可得后面的两个例子,Gini=0.32 和0 。从这三个样本中看,我们可以观察出这个属性的纯度是越来越高的过程,而我们就是要使用基尼指数去判别某一个属性的纯度,或者说Gini值的大小,选择其为区分的属性节点。

 

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETkBxcV80NTQ4OTcxNQ,size_20,color_FFFFFF,t_70,g_se,x_16

例如此表中有各种各样的属性,最后又一个判定标签即是否拖欠贷款。 

             我们应该先分析有房者,婚姻,年收入三个属性哪一个更优一点,然后来判断谁可以来充当根节点。

  那我们就来,从年收入开始用基尼指数来建立一棵决策树,label的值为是否拖欠贷款

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETkBxcV80NTQ4OTcxNQ,size_20,color_FFFFFF,t_70,g_se,x_16

第一选择有房者这个属性,按照是否有房分为两类并记下其数量如图 有房的有3人,没有房的有7人,然后根据标签值分为四类人

有房拖欠贷款的0人,有房不拖欠贷款的3人,无房拖欠贷款的3人,无房不拖欠贷款的4人。分别计算有房者的基尼指数为0和无房者的基尼指数为24/49。最后进行加权平均如上图所示,可以得到有房这个属性的Gini加权值为12/35。

同理我们可以得到婚姻的Gini加权值为3/10,年收入的加权值为12/35。由于婚姻的Gini指数最低,或者说婚姻这个属性更纯,所以我们选择婚姻这个属性来当作根节点。

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETkBxcV80NTQ4OTcxNQ,size_20,color_FFFFFF,t_70,g_se,x_16

根据已婚 和(单身/离异)这两个条件分析它们label值,在已婚这边我们可以看到,四个人的标签均为否,所以可以直接把它的标签标记为否,剩下的6条数据继续进行基尼指数的计算来划分出一个更纯的属性。计算结果如下,计算过程与上面同理。

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETkBxcV80NTQ4OTcxNQ,size_20,color_FFFFFF,t_70,g_se,x_16 

 故有房成为第二个选择的属性节点。因为已经只剩下了一个属性,所以它成为了第三个属性节点,我们最终构建的决策树如下:

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETkBxcV80NTQ4OTcxNQ,size_20,color_FFFFFF,t_70,g_se,x_16

如果此时有了新的数据到来,我们就可以直接按照这棵决策树的判断条件,一直判断直到可以知道它的label值为是或者否为止。 

  • 21
    点赞
  • 106
    收藏
    觉得还不错? 一键收藏
  • 6
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值