决策树算法原理

 概念:熵

 

 

数学列子说明:

 

 

解析计算过程:


1、类别是最终分类的结果,类别里面有9个是,6个否,是和否总共有15个;类别概率计算就是经验熵。

                        H(D)=-9/15*log(9/15) - 6/15*log(6/15)

2、总共有四个类别(年龄、有工作、有房子、信贷情况)=(A1、A2、A3、A4)

年龄分了3个级别,分别为青年=D1,中年=D2,老年=D3

G(A1)=H(D1)+H(D2)+H(D3)

年龄相对于类别,D1表示青年,总共有5个,占了总年龄段5/15,2个是,3个否;计算其经验条件熵

H(D1)=5/15(-2/5*log2/5 - 3/5*log3/5)

年龄相对于类别,D2表示中年,总共有5个,占了总年龄段5/15,3个是,2个否;计算其经验条件熵

H(D1)=5/15(-3/5*log3/5 - 2/5*log2/5)

年龄相对于类别,D3表示中年,占了总年龄段5/15,总共有5个,4个是,1个否;计算其经验条件熵

H(D1)=5/15(-4/5*log4/5 - 1/5*log1/5)

所以G(A1)=H(D1)+H(D2)+H(D3)=0.888

计算信息增益:集合D的经验熵减去特征A1再给定条件下D1的条件经验熵之差。

就是:G(D,A1)=H(D)-H(D|A1)=0.083


分析第二个特征A2:特征A2(有工作)有俩个类别(是,否)

D1=有工作(是)(占了总数的5/15),D2=没工作(否)(占了总数的10/15)

D1相对于类别,5个是对5个类别的是,H(D1)=-5/15*(5/5log5/5+0*log0)=0

D2相对于类别,10个否对应4个是,H(D2)=-10/15(4/10log(4/10) +6/10log(6/10))=0.647

所以:G(D,A2)=H(D)-H(D|A2)=0.971-0.647=0.324


分析特征A3:特征A3(有房子),有俩个类别(是否)

D1=有房子(有)  (占了总数的6/15) D2=没房子(否)(占了总数的9/15)

D1相对于类别,6类别个对应6个是,H(D1)=-6/15*(6/6log6/6+0*log0)=0

D2相对于类别,9类别相对于3个,H(D2)=-9/15*(3/9log3/9+6/9log6/9)=0.551

所以:G(D,A3)=H(D)-H(D|A3)=0.971-0.551=0.42


分析特征A4:有3个类别(一般,好,非常好)

D1=一般 (占总数5/15)    D2=好(占总数6/15)  D3=非常好(占总数4/15)

D1对应的类别有(一个是,4个否定),H(D1)=-5/15*(1/5log1/5+4/5log4/5)

D2对应类别有(4个是,2个否定),H(D2)=-6/15*(4/6log4/6+2/6log2/6)

D3对应的类别有(4个是,0个否定),H(D3)=-4/15*(4/4log4/4+0*log0)=0

所以:G(D,A4)=H(D)-H(D|A4)=0.971-0.608=0.363


G(D|A1)=0.083|| G(D|A2)=0.324 || G(D|A3)=0.42 || G(D|A4)=0.363

综合来看A3的信息增益最大,A3有房子的特征是最优特征。

分析完毕。


主要的算法有:

算法划分原理提出人用途
ID3信息增益Ross Quinlan在1986年提出统计分类(不能处理特征属性值连续)
C4.5信息增益率Ross Quinlan在1993年在ID3的基础上改进而提出统计分类(能处理特征属性值连续)
Cart基尼指数L.Breiman,J.Friedman,R.Olshen和C.Stone于1984年提出既可以分类又可以回归

 

 

 

 

 

先就搞这些吧,慢慢总结吧................................................................................ 

 

 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值