决策树算法原理

最新推荐文章于 2024-07-19 09:16:40 发布

月疯

最新推荐文章于 2024-07-19 09:16:40 发布

阅读量539

点赞数

分类专栏：【人工智能AI】

本文链接：https://blog.csdn.net/chehec2010/article/details/115266102

版权

【人工智能AI】专栏收录该内容

57 篇文章 8 订阅

订阅专栏

概念：熵

数学列子说明：

解析计算过程：

1、类别是最终分类的结果，类别里面有9个是，6个否，是和否总共有15个；类别概率计算就是经验熵。

H(D)=-9/15*log(9/15) - 6/15*log(6/15)

2、总共有四个类别（年龄、有工作、有房子、信贷情况）=（A1、A2、A3、A4）

年龄分了3个级别，分别为青年=D1,中年=D2，老年=D3

G(A1)=H(D1)+H(D2)+H(D3)

年龄相对于类别，D1表示青年，总共有5个，占了总年龄段5/15，2个是，3个否；计算其经验条件熵

H(D1)=5/15(-2/5*log2/5 - 3/5*log3/5)

年龄相对于类别，D2表示中年，总共有5个，占了总年龄段5/15，3个是，2个否；计算其经验条件熵

H(D1)=5/15(-3/5*log3/5 - 2/5*log2/5)

年龄相对于类别，D3表示中年，占了总年龄段5/15，总共有5个，4个是，1个否；计算其经验条件熵

H(D1)=5/15(-4/5*log4/5 - 1/5*log1/5)

所以 G(A1)=H(D1)+H(D2)+H(D3) =0.888

计算信息增益：集合D的经验熵减去特征A1再给定条件下D1的条件经验熵之差。

就是： G(D,A1)=H(D)-H(D|A1) =0.083

分析第二个特征A2：特征A2（有工作）有俩个类别（是，否）

D1=有工作（是）（占了总数的5/15），D2=没工作（否）（占了总数的10/15）

D1相对于类别，5个是对5个类别的是，H(D1)=-5/15*(5/5log5/5+0*log0)=0

D2相对于类别，10个否对应4个是，H(D2)=-10/15(4/10log(4/10) +6/10log(6/10))=0.647

所以：G(D,A2)=H(D)-H(D|A2)=0.971-0.647=0.324

分析特征A3：特征A3（有房子），有俩个类别（是否）

D1=有房子（有）（占了总数的6/15） D2=没房子（否）（占了总数的9/15）

D1相对于类别，6类别个对应6个是，H(D1)=-6/15*(6/6log6/6+0*log0)=0

D2相对于类别，9类别相对于3个，H（D2）=-9/15*(3/9log3/9+6/9log6/9)=0.551

所以：G(D,A3)=H(D)-H(D|A3)=0.971-0.551=0.42

分析特征A4：有3个类别（一般，好，非常好）

D1=一般（占总数5/15） D2=好（占总数6/15） D3=非常好（占总数4/15）

D1对应的类别有（一个是，4个否定），H（D1）=-5/15*(1/5log1/5+4/5log4/5)

D2对应类别有（4个是，2个否定），H(D2)=-6/15*(4/6log4/6+2/6log2/6)

D3对应的类别有（4个是，0个否定），H(D3)=-4/15*(4/4log4/4+0*log0)=0

所以：G(D,A4)=H(D)-H(D|A4)=0.971-0.608=0.363

G(D|A1)=0.083|| G(D|A2)=0.324 || G(D|A3)=0.42 || G(D|A4)=0.363

综合来看A3的信息增益最大，A3有房子的特征是最优特征。

分析完毕。

主要的算法有：

算法	划分原理	提出人	用途
ID3	信息增益	Ross Quinlan在1986年提出	统计分类（不能处理特征属性值连续）
C4.5	信息增益率	Ross Quinlan在1993年在ID3的基础上改进而提出	统计分类（能处理特征属性值连续）
Cart	基尼指数	L.Breiman,J.Friedman,R.Olshen和C.Stone于1984年提出	既可以分类又可以回归

先就搞这些吧，慢慢总结吧................................................................................

月疯

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
决策树算法原理

概念：熵数学列子说明：解析计算过程：1、类别是最终分类的结果，类别里面有9个是，6个否，是和否总共有15个；类别概率计算就是经验熵。 2、总共有四个类别（年龄、有工作、有房子、信贷情况）=（A1、A2、A3、A4）年龄分了3个级别，分别为青年=D1,中年=D2，老年=D3年龄相对于类别，D1表示青年，总共有5个，占了总年龄段5/15，2个是，3个否；计算其经验条件熵年龄相对于类...
复制链接

扫一扫

专栏目录