概念:熵
数学列子说明:
解析计算过程:
1、类别是最终分类的结果,类别里面有9个是,6个否,是和否总共有15个;类别概率计算就是经验熵。
2、总共有四个类别(年龄、有工作、有房子、信贷情况)=(A1、A2、A3、A4)
年龄分了3个级别,分别为青年=D1,中年=D2,老年=D3
年龄相对于类别,D1表示青年,总共有5个,占了总年龄段5/15,2个是,3个否;计算其经验条件熵
年龄相对于类别,D2表示中年,总共有5个,占了总年龄段5/15,3个是,2个否;计算其经验条件熵
年龄相对于类别,D3表示中年,占了总年龄段5/15,总共有5个,4个是,1个否;计算其经验条件熵
所以=0.888
计算信息增益:集合D的经验熵减去特征A1再给定条件下D1的条件经验熵之差。
就是:=0.083
分析第二个特征A2:特征A2(有工作)有俩个类别(是,否)
D1=有工作(是)(占了总数的5/15),D2=没工作(否)(占了总数的10/15)
D1相对于类别,5个是对5个类别的是,H(D1)=-5/15*(5/5log5/5+0*log0)=0
D2相对于类别,10个否对应4个是,H(D2)=-10/15(4/10log(4/10) +6/10log(6/10))=0.647
所以:G(D,A2)=H(D)-H(D|A2)=0.971-0.647=0.324
分析特征A3:特征A3(有房子),有俩个类别(是否)
D1=有房子(有) (占了总数的6/15) D2=没房子(否)(占了总数的9/15)
D1相对于类别,6类别个对应6个是,H(D1)=-6/15*(6/6log6/6+0*log0)=0
D2相对于类别,9类别相对于3个,H(D2)=-9/15*(3/9log3/9+6/9log6/9)=0.551
所以:G(D,A3)=H(D)-H(D|A3)=0.971-0.551=0.42
分析特征A4:有3个类别(一般,好,非常好)
D1=一般 (占总数5/15) D2=好(占总数6/15) D3=非常好(占总数4/15)
D1对应的类别有(一个是,4个否定),H(D1)=-5/15*(1/5log1/5+4/5log4/5)
D2对应类别有(4个是,2个否定),H(D2)=-6/15*(4/6log4/6+2/6log2/6)
D3对应的类别有(4个是,0个否定),H(D3)=-4/15*(4/4log4/4+0*log0)=0
所以:G(D,A4)=H(D)-H(D|A4)=0.971-0.608=0.363
G(D|A1)=0.083|| G(D|A2)=0.324 || G(D|A3)=0.42 || G(D|A4)=0.363
综合来看A3的信息增益最大,A3有房子的特征是最优特征。
分析完毕。
主要的算法有:
算法 | 划分原理 | 提出人 | 用途 |
ID3 | 信息增益 | Ross Quinlan在1986年提出 | 统计分类(不能处理特征属性值连续) |
C4.5 | 信息增益率 | Ross Quinlan在1993年在ID3的基础上改进而提出 | 统计分类(能处理特征属性值连续) |
Cart | 基尼指数 | L.Breiman,J.Friedman,R.Olshen和C.Stone于1984年提出 | 既可以分类又可以回归 |
先就搞这些吧,慢慢总结吧................................................................................