决策树的划分依据之：信息增益率

最新推荐文章于 2024-04-16 09:04:42 发布

传智教育

最新推荐文章于 2024-04-16 09:04:42 发布

阅读量1.9k

点赞数 2

文章标签：决策树算法机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/cz_00001/article/details/132041633

版权

本文探讨了决策树中信息增益率的概念，指出信息增益准则可能偏好于可取值多的属性。C4.5算法通过信息增益率来平衡这一问题，它是信息增益与属性固有值的比值。案例分析展示了如何计算信息增益率，并解释了如何在决策树构建中依据信息增益率选择最优属性。

摘要由CSDN通过智能技术生成

在上面的介绍中，我们有意忽略了"编号"这一列.若把"编号"也作为一个候选划分属性，则根据信息增益公式可计算出它的信息增益为 0.9182，远大于其他候选划分属性。

计算每个属性的信息熵过程中,我们发现,该属性的值为0, 也就是其信息增益为0.9182. 但是很明显这么分类,最后出现的结果不具有泛化效果.无法对新样本进行有效预测.

实际上，信息增益准则对可取值数目较多的属性有所偏好，为减少这种偏好可能带来的不利影响，著名的 C4.5 决策树算法 [Quinlan， 1993J 不直接使用信息增益，而是使用"增益率" (gain ratio) 来选择最优划分属性.

增益率：增益率是用前面的信息增益Gain(D, a)和属性a对应的"固有值"(intrinsic value) [Quinlan , 1993J的比值来共同定义的。

在这里插入图片描述

属性 a 的可能取值数目越多(即 V 越大)，则 IV(a) 的值通常会越大.

案例一

a.计算类别信息熵

b.计算性别属性的信息熵(性别、活跃度)

c.计算活跃度的信息增益(性别、活跃度)

d.计算属性分裂信息度量

用分裂信息度量来考虑某种属性进行分裂时分支的数量信息和尺寸信息，我们把这些信息称为属性的内在信息(instrisic information)。信息增益率用信息增益/内在信息，会导致属性的重要性随着内在信息的增大而减小(也就是说，如果这个属性本身不确定性就很大，那我就越不倾向于选取它)，这样算是对单纯用信息增

最低0.47元/天解锁文章

关注

2
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
决策树的划分依据之：信息增益率

在上面的介绍中，我们有意忽略了"编号"这一列.若把"编号"也作为一个候选划分属性，则根据信息增益公式可计算出它的信息增益为 0.9182，远大于其他候选划分属性。计算每个属性的信息熵过程中,我们发现,该属性的值为0, 也就是其信息增益为0.9182. 但是很明显这么分类,最后出现的结果不具有泛化效果.无法对新样本进行有效预测.
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。