二、决策树

最新推荐文章于 2021-11-28 13:23:02 发布

O__o吗果芒要

最新推荐文章于 2021-11-28 13:23:02 发布

阅读量1.5k

点赞数

分类专栏：机器学习算法文章标签：机器学习算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u012606924/article/details/78141751

版权

本文深入探讨了决策树的构建过程，包括ID3算法、C4.5算法及其改进，强调了信息增益和信息增益率的概念。此外，还介绍了防止过拟合的决策树剪枝策略和随机森林，阐述了随机森林的工作原理、优点及构建过程，强调了随机选取样本和特征的重要性。

摘要由CSDN通过智能技术生成

决策树生成算法一个重要的工作就是选择当前信息增益最大的属性对决策树进行分裂，并根据该属性可能的取值建立对应的分支。

信息增益与信息论中信息熵的概念相关。信息熵是表示一个事件的不确定性的大小，不确定性越大那么该事件包含的信息熵就越大，如果一个事件完全确定了，那么它所包含的信息熵就是0。

信息增益就是分裂前的信息熵–分裂后的信息熵，信息增益越大就表示分裂过程中所释放的信息量就越大。

1.决策树创建过程

决策树:选择一个属性进行分枝，因此要注意一下信息增益的计算公式

n代表有n个分类类别（比如假设是2类问题，那么n=2）。分别计算这2类样本在总样本中出现的概率p1和p2，这样就可以计算出未选中属性分枝前的信息熵。

现在选中一个属性xi用来进行分枝，此时分枝规则是：如果xi=vx的话，将样本分到树的一个分支；如果不相等则进入另一个分支。很显然，分支中的样本很有可能包括2个类别，分别计算这2个分支的熵H1和H2,计算出分枝后的总信息熵H’=p1*H1+p2*H2.，则此时的信息增益ΔH=H-H’。以信息增益为原则，把所有的属性都测试一边，选择一个使增益最大的属性作为本次分枝属性(说明信息熵最小，信息熵描述不稳定性，则信息熵最小的稳定性最高)。

决策树的优点：

计算量简单，可解释性强，比较适合处理有缺失属性值的样本，能够处理不相关的特征；

缺点：

容易过拟合（后续出现了随机森林，减小了过拟合现象）或者剪枝。

2.1决策树构建实例（ID3）

决策树连续变量分支

ID3算法就是在每次需

最低0.47元/天解锁文章

O__o吗果芒要

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
二、决策树

决策树生成算法一个重要的工作就是选择当前信息增益最大的属性对决策树进行分裂，并根据该属性可能的取值建立对应的分支。信息增益与信息论中信息熵的概念相关。信息熵是表示一个事件的不确定性的大小，不确定性越大那么该事件包含的信息熵就越大，如果一个事件完全确定了，那么它所包含的信息熵就是0。信息增益就是分裂前的信息熵–分裂后的信息熵，信息增益越大就表示分裂过程中所释放的信息量就越大。1.决策树创...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。