随即森林与Adaboost自我认知总结

忘川之水&

于 2021-01-06 20:59:54 发布

阅读量653

点赞数

分类专栏：机器学习文章标签：随即森林 Adaboost

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/duyibo123/article/details/112297692

版权

文章目录

- 随机森林与Adaboost

随机森林与Adaboost

一：随机森林

1.1:随即森林思想

随机森林是bagging思想下的一个算法。Bagging的思想很简单，从原来的数据集中随机抽取出数据，同时保持数据集的规模不变。用新的数据集训练弱学习器。重复多次，得到强分类器。在回归问题中，通过取平均值的方汇总所有基学习器的结果，在分类问题中，通常使用投票法汇总。

一棵树是决策树，多棵树是随即森林。一棵树有一个决策，多棵树有多个决策权，把所有树的决策综合在一起，肯定比单个树决策要强很多，解决了单棵决策树泛化能力弱的缺点。

1.2 随机森林的两个随机

随即森林的随机体现在两个方面，一个是随机选择样本，一个是随机选择特征。

随机样本选择就是从M个训练样本中有放回地随机抽取M个样本作为训练集
- 未抽取样本的概率为36.8% ；被抽取样本的概率为63.2%（每次抽取的概率相等为1/m，可能重复抽取。我们做一个简单的估计，样本m次采样中始终不被采样的概率为（ 1-(1/m)^m）
随机选择特征就是从候选的特征中随机抽取k个特征。

有了这2个随机因素，即使每棵决策树没有进行剪枝，随机森林也不会产生过拟合的现象。

1.3：随机森林的步骤

首先，每次从原来的N个训练样本中有放回地随机抽取N个样本。构成M个样本集。
然后，用每个样本集作为训练样本构造决策树。对每个样本集，从候选的特征中随机抽取k个特征，构建决策树。单个决策树在产生样本集和确定特征后，为了增强基分类器之间的差异性，不剪枝。
最后，将得到多个决策树集成构成随机森林。如果是分类问题那么对这些树的输出进行投票，以得票最多的类作为随机森林的决策。如果是回归问题就采用平均值的方法进行决策。

1.4 随机森林的优点

（1）学习过程快速
（2）分类结果更加准确
（3）可以处理高维度的属性，并且不用做特征选择

1.5 随机森林的缺点

1.当随机森林中的决策树个数很多的时候，训练时需要的时间和空间都很大
2.随机森林还有许多不好解释的地方，类似黑盒模型。

小问题：

随机森林为什么进行随机抽样？

如果不进行随机抽样，每棵树的训练集都一样，那么最终训练出的树分类结果也是完全一样的，这样的话完全没有bagging的必要。

随机森林为什么有放回的抽取？

如果不是有放回的抽样，那么每棵树的训练样本都是不同的，都是没有交集，而随机森林最后分类取

最低0.47元/天解锁文章

关注

0
点赞
踩
9

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

忘川之水& 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。