数据挖掘十大算法之C4.5决策树

C4.5决策树

C4.5决策树属于分类算法,基于信息增益率来选择样本划分特征,每次根据这个特征将样本划分到不同的集合中。

了解信息增益率

  • 信息增益率=信息增益/分裂信息度量 ,信息增益是ID3分类决策树的划分样本特征,它的缺点在于倾向于选择特征取值多的特征作为划分标准,从信息增益的计算可以看出来(稍后说明),而分裂信息度量等于各种特征的取值所占比例*它的对数之和的负数,因为比例一定小于等于1,所以对数为负,最后要取负。分裂信息度量刚好弥补了倾向于选择特征取值多的缺陷,分裂信息度量随着特征取值多而增大,所以信息增益率会被减少。倾向于选择特征取值多的问题在于可能该特征对类别的影响没有那么大,但是特征取值多,就会造成它被优先作为划分标准。
  • 信息增益=熵-条件熵=类别信息熵-属性信息熵,类别信息熵=类别取值所占比例*它的对数之和的负数,表示划分类别的不确定性,可以看出随着类别而增多,不确定性也会增大。需要的信息量也越大。属性信息熵=(特征的取值所占比例*在这个条件下的类别信息熵 (这里类别信息熵计算不再是基于整体样本的比例,而是基于特征取值所对应的类别个数的比例))之和的负数,表示在该属性的条件下,类别的不确定性,类别越多,不确定性越大。类别信息熵和属性信息熵之差就表示在该属性条件下,类别不确定性减少的程度,减少得更多,就能更快地分类出来。属性信息熵随着特征取值增多而减少,所以信息增益也会增大。这就说明了基于信息增益的ID3决策树更倾向于选择特征取值多的特征作为划分标准。

计算流程

  • 首先选出信息增益率最大的特征作为划分标准,然后剔除该特征之后,再从划分的各个集合中选出信息增益率最大的特征。进一步划分。
  • 不断重复上述流程,直至划分的集合都属于同一类别。
  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值