C4.5(信息增益比)相比于ID3(信息增益)优点?

言外之意,c4.5为什么使用信息增益比来选择特征?

不讲那些乱七八糟的公式了,默认大家已经学会了好多公式,只讲思想层面。

首先从熵(Entropy)开始说起,熵最初是一个物理学概念,后来在数学中用来描述“一个系统的混乱程度”,因此一个系统的信息熵越高就越无序,信息熵越低就越有序,信息熵越高,使其有序所要消耗的信息量就越大。

如果一个决策树分支节点包含的样本都是属于同一个类别的(例如西瓜色泽都是亮),那么这个节点纯度就高;反之,如果包含的样本并不属于同一类别(不同种类的水果混合在一起了),那么节点纯度就低。

一般来说,通过一种划分方式带来的纯度提升越大,信息增益就越高。ID3算法以信息增益为准则来选择决策树划分属性。值多的属性更有可能会带来更高的纯度提升,所以信息增益的比较偏向选择取值多的属性。

可能会带来一个不好的结果,如果选择唯一ID作为划分属性,那么会得到n个类别,每个类别都只包含一个样本,每个节点的纯度都是最高的,纯度提升也是最大的,带来的信息增益也是最高的。但是这样的划分是没有意义的。

结合公式:

E(S)为初始label列的熵,并未发生变化,则IGain(S,A)的大小取决于E(A)的大小,E(A)越小,IGain(S,A)越大,

若某一列数据没有重复,ID3算法倾向于把每个数据自成一类,此时

这样E(A)为最小,IGain(S,A)最大,程序会倾向于选择这种划分,这样划分效果极差。

所以,为了避免ID3算法的选择偏好可能带来的不利影响,C4.5算法不直接使用信息增益为准则来选择划分属性,而是使用增益率(gain ratio)来划分。

这里Info为划分行为带来的信息,信息增益率如下计算:

info越大,gain—ratio越小,这样就减轻了划分行为本身的影响。

注意:C4.5算法并不是直接选择增益率最大的候选划分属性,而是使用了一个启发式:先从候选划分属性中找出信息增益高于平均水平的属性,再从中选择增益率最高的。


参考链接:

https://www.zhihu.com/question/22928442/answer/354885414

https://www.zhihu.com/question/22928442/answer/117189907

  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值