python 有放回随机抽取_集成算法 — 随机森林（Python3.6实现）

最新推荐文章于 2022-11-18 09:43:15 发布

weixin_39669202

最新推荐文章于 2022-11-18 09:43:15 发布

阅读量812

点赞数

文章标签： python 有放回随机抽取

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39669202/article/details/111758790

版权

本文介绍了随机森林算法的原理和Python实现。通过有放回随机抽取样本和特征，构建多个决策树并集成，用于分类和回归问题。随机森林在取样和特征选择上的随机性有助于防止过拟合。示例展示了使用sklearn库训练随机森林分类器的过程，并讨论了重要参数如n_estimators的影响，通过绘制学习曲线确定最佳模型参数。

摘要由CSDN通过智能技术生成

RandomForest 随机森林

在上一篇博文 “集成算法— 简介 + 决策树”中，简要介绍了集成算法的3种分类：Boosting、Bagging、Stacking以及它们经常使用的弱分类器—决策树(分类树和回归树)。集成算法可分为序列集成法和并行集成法：(1)序列集成法，是指参与训练的基础学习器按照顺序生成(如 AdaBoost)，利用基础学习器之间的依赖关系，通过对之前训练中错误标记的样本赋值较高的权重，提高整体的预测效果；(2)并行集成法，是指其中参与训练的基础学习器并行生成(如 Random Forest)，利用基础学习器之间的独立性，通过平均降低错误。

算法原理

1)每轮从数据集中抽取n个训练样本(在训练集中，有些样本可能被多次抽取到，而有些样本可能一次都没有被抽中)，样本是有放回的抽取；

2)共进行k轮抽取，得到k个训练集(k个训练集之间是相互独立的)；

3)对分类问题：对于将得到的k个模型采用投票的方式得到分类结果，各模型权重相等；对回归问题，计算k个模型的均值作为结果。

对于随机森林“随机”的理解

1)取样是随机的，并且是有放回的取样：

如果不是有放回的取样，那么每棵树都是没有交集的，是“有偏的”，尤其是对于样本量小或者是数据特征差别比较大的数据集，每棵树训练出来的预测结果差异会很大，而随机森林最后分类取决于多棵树的投票表决，因此若每棵树预测结果差异很大，那其对最终分类结果没有帮助。

2)随机选择特征，比如7个特征随机选5个：

在不知道哪些特征起作用&#x

最低0.47元/天解锁文章

weixin_39669202

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
python 有放回随机抽取_集成算法 — 随机森林（Python3.6实现）

RandomForest 随机森林在上一篇博文 “集成算法— 简介 + 决策树”中，简要介绍了集成算法的3种分类：Boosting、Bagging、Stacking以及它们经常使用的弱分类器—决策树(分类树和回归树)。集成算法可分为序列集成法和并行集成法：(1)序列集成法，是指参与训练的基础学习器按照顺序生成(如 AdaBoost)，利用基础学习器之间的依赖关系，通过对之前训练中错误标记的样本赋值...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。