C4.5（信息增益比）相比于ID3（信息增益）优点？

Rnan-prince

于 2020-02-04 08:52:20 发布

阅读量5k

点赞数 1

分类专栏：算法机器学习文章标签： C4.5 ID3 决策树机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_19446965/article/details/104165203

版权

机器学习同时被 2 个专栏收录

57 篇文章

订阅专栏

51 篇文章

订阅专栏

言外之意，c4.5为什么使用信息增益比来选择特征？

不讲那些乱七八糟的公式了，默认大家已经学会了好多公式，只讲思想层面。

首先从熵（Entropy）开始说起，熵最初是一个物理学概念，后来在数学中用来描述“一个系统的混乱程度”，因此一个系统的信息熵越高就越无序，信息熵越低就越有序，信息熵越高，使其有序所要消耗的信息量就越大。

如果一个决策树分支节点包含的样本都是属于同一个类别的（例如西瓜色泽都是亮），那么这个节点纯度就高；反之，如果包含的样本并不属于同一类别（不同种类的水果混合在一起了），那么节点纯度就低。

一般来说，通过一种划分方式带来的纯度提升越大，信息增益就越高。ID3算法以信息增益为准则来选择决策树划分属性。值多的属性更有可能会带来更高的纯度提升，所以信息增益的比较偏向选择取值多的属性。

可能会带来一个不好的结果，如果选择唯一ID作为划分属性，那么会得到n个类别，每个类别都只包含一个样本，每个节点的纯度都是最高的，纯度提升也是最大的，带来的信息增益也是最高的。但是这样的划分是没有意义的。

结合公式：

E(S)为初始label列的熵，并未发生变化，则IGain(S,A)的大小取决于E(A)的大小，E(A)越小，IGain(S,A)越大，

若某一列数据没有重复，ID3算法倾向于把每个数据自成一类，此时

这样E(A)为最小，IGain(S,A)最大，程序会倾向于选择这种划分，这样划分效果极差。

所以，为了避免ID3算法的选择偏好可能带来的不利影响，C4.5算法不直接使用信息增益为准则来选择划分属性，而是使用增益率（gain ratio）来划分。

这里Info为划分行为带来的信息，信息增益率如下计算：

info越大，gain—ratio越小，这样就减轻了划分行为本身的影响。

注意：C4.5算法并不是直接选择增益率最大的候选划分属性，而是使用了一个启发式：先从候选划分属性中找出信息增益高于平均水平的属性，再从中选择增益率最高的。

参考链接：

https://www.zhihu.com/question/22928442/answer/354885414

https://www.zhihu.com/question/22928442/answer/117189907

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。