机器学习：集成学习（OOB 和关于 Bagging 的更多讨论）

最新推荐文章于 2023-04-19 19:49:47 发布

ab1213456

最新推荐文章于 2023-04-19 19:49:47 发布

阅读量1.7k

点赞数 3

文章标签：人工智能 python 数据结构与算法

原文链接：http://www.cnblogs.com/volcao/p/9488113.html

版权

一、oob（Out - of - Bag）

定义：放回取样导致一部分样本很有可能没有取到，这部分样本平均大约有 37% ，把这部分没有取到的样本称为 oob 数据集；

根据这种情况，不对数据集进行 train_test_split，也就是不适用测试数据集，而使用这部分没有取到的样本做测试 / 验证；

　2）oob_score 参数

Bagging 取样方式的集成学习算法，可以不对数据集进行 train_test_split ，而是使用 oob 数据集作为验证数据集；
oob_score 是 Bagging 取样方式的集成学习算法 BaggingClassifier() 的一个参数：

oob_score = True：表示使用 oob 数据集作为验证数据集；
oob_score 默认为 False，不使用 oob 数据集作为验证数据集；
可以直接使用 oob_score_ 变量，查看模型在 oob 数据集上的准确率；

　3）并行化处理

Baggi

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

ab1213456

关注关注

3
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
机器学习：集成学习（OOB 和关于 Bagging 的更多讨论）

一、oob（Out - of - Bag）定义：放回取样导致一部分样本很有可能没有取到，这部分样本平均大约有 37% ，把这部分没有取到的样本称为 oob 数据集；根据这种情况，不对数据集进行 train_test_split，也就是不适用测试数据集，而使用这部分没有取到的样本做测试 / 验证；　2）oob_score 参数Bagging 取样...
复制链接

扫一扫

python机器学习库sklearn-集成方法

11-16

集成方法的目标是把多个使用给定学习算法构建的基估计器的预测结果结合起来，从而获得比单个估计器更好的泛化能力/鲁棒性。在 scikit-learn 中，bagging 方法使用统一的 BaggingClassifier 元估计器（或者 ...

ccc-sklearn-2-随机森林

liubi32326的博客

09-26

998

集成算法概述、集成算法模块ensemble、RandomForestClassifier参数、bootstrap & oob_score、随机森林的建立的流程、重要接口和属性、使用Bagging的一个必要条件、随机森林回归API、随机森林回归填充缺失值实例、机器学习中的调参基本思想、随机森林在乳腺癌数据上的调参

参与评论您还未登录，请先登录后发表或查看评论

随机森林算法参数解释及调优转胡卫雄 RF模型可以理解成决策树模型嵌入到bagging框架，因此，我们首先对外层的bagging框架进行参数择优，然后再对内层的决策树模型进行参数择优

studyvcmfc的专栏

07-31

1051

RF参数择优思想：RF模型可以理解成决策树模型嵌入到bagging框架，因此，我们首先对外层的bagging框架进行参数择优，然后再对内层的决策树模型进行参数择优。在优化某一参数时，需要把其他参数设置为常数。本文将详细解释随机森林类的参数含义，并基于该类讲解参数择优的过程。随机森林类库包含了RandomForestClassifer类，回归类是RandomForestRegressor类。RF的变种ExtraTress也有ExtraTressClassifier类和ExtraTressRegre

【机器学习】集成算法:bagging策略包含详细案例

qq_61260911的博客

04-19

5662

Bagging是一种基于集成学习的算法，是一种广泛使用的机器学习技术。Bagging的全称是Bootstrap Aggregating，其思想是通过将许多相互独立的学习器的结果进行结合，从而提高整体学习器的泛化能力。本篇博客将介绍Bagging算法的工作原理，优点和缺点，以及如何在Python中实现。

机器学习笔记（五）Bagging集成学习算法随机森林原理和实践

haveanybody的博客

11-25

2087

一、前言在前一篇文章《决策树原理和实践》中，我们介绍了决策树的相关原理和使用API，决策树在建模过程中需要剪枝等操作，而如果数据预处理不当或者剪枝不合理，又会造成过拟合等结果，或者建立的模型只在某个方面表现比较好。此时，我们会考虑建立单棵树模型可能会存在走上“歧途”的现象，那么是不是可以通过建立多棵树模型一起来判断结果呢？答案当然是可以的，具体怎么建立呢？如果使用相同的数据集和算法，那么建立的模型结果大概率也是相同的，就失去了意义。接下来的几篇文章我们将介绍集成学习算法（Ensemble learnin

机器学习(十一)——集成学习

hhhcbw的博客，欢迎各位来访

12-07

6053

集成学习（ensemble learning）通过构建并结合多个学习器来完成学习任务。根据个体学习器的生成方式，目前集成学习的方法大致分为两类，即个体学习器之间存在强依赖关系，必须串行生成的序列化方法；另一类就是个体学习器之间不存在强依赖关系、可同时生成的并行化方法。前者的代表是Boosting，后者的代表室Bagging和随机森林。 集成学习中的几个概念 1、个体学习器：集成学习的一般结构都是先产生一组个体学习器（individual learner），在用某种策略将他们结合起来，个体学习器通常由一.

机器学习__Bagging课件.pptx

01-14

**机器学习中的Bagging算法详解** Bagging（Bootstrap Aggregating）是一种集成学习方法，它通过构建多个模型的集合，并将它们的预测结果综合起来，从而提高预测的准确性和稳定性。Bagging的主要思想是减少过拟合...

机器学习与深度学习面试系列七（集成方法）1

08-03

【集成学习】 集成学习（Ensemble Learning）是一种利用多个模型进行组合，通过集体智慧提升预测性能的方法。...随机森林作为Bagging的延伸，通过特征子集随机抽样增强模型多样性，广泛应用于各种机器学习任务。

基于随机森林和bagging的鸢尾花分类（基于sklearn库）

04-27

3. 模型评价方式之二--基于交叉验证的集成模型性能评价将原始数据集按照类别分层随机打乱，分成K=5等分. (1) 采用K-折交叉验证平均预测错误率(及标准差)为评价指标，分别考察决策树数目=10,100,500三种情况下，...

用python实现几种机器学习算法.zip

最新发布

02-22

Python是一种广泛应用于数据分析和机器学习领域的编程语言，其丰富的库和简洁的语法使得它成为实现各种机器学习算法的理想选择。这个压缩包“用python实现几种机器学习算法.zip”很可能包含了几个示例项目，展示了...

OOB9.0_oracle数据库操作工具

10-31

OOB9.0_oracle数据库操作工具,是一款十分好用的数据库客户端操作工具

随机森林oob_score及oob判断特征重要性

Vulpes corsac

08-19

7340

Sklearn RandomForest算法（有监督学习），可以根据输入数据，选择最佳特征，减少特征冗余；同理，可以通过特征的排列组合，选择最优的组合特征，优化下游算法性能原理：由于随机决策树生成过程采用的Boostrap，所以在一棵树的生成过程并不会使用所有的样本，未使用的样本就叫（out_of_bag）oob袋外样本。通过袋外样本，可以评估这个树的准确度；此外，其他子树按这个原理评估。最后，取平均值即是随机森林算法的性能。特征选择...

随机森林里oob_score以及用oob判断特征重要性的理解

MingRachel的博客

03-21

2万+

本文总结了我在学习随机森林时关于oob产生的一系列问题以及学习到的问题答案1. 什么是oob2. 什么是oob_score3. 如何用oob判断特征的重要性错误理解与纠正参考文章在学习随机森林算法参数解释以及参数择优的过程中，注意到oob_score这一参数对应是否采用袋外样本来评估模型的好坏。同时在学习随机森林的优点时，其中一条是训练后可以给出各个特征对于输出的重要性。一开始未能清楚理解该优点的理论原因是什么，但在今天学习oob_score的时候，我就想这个优点是不是就是基于oob实现的（不是！具体

随机森林OOB score作用

studyvcmfc的专栏

05-23

920

https://blog.csdn.net/MingRachel/article/details/115038730

集成学习与随机森林

zr7116的博客

06-19

360

最基本的思路：一、 voting - hard voting soft voting =>区别在于少数服从多数带不带权重二、大批量集成学习克服voting模型少 1.对于samples方面 baging pasting 随机取样 2.也...

【算法】随机森林

jason7323的博客

11-21

4576

随机森林RF：以决策树为基学习器构建Bagging集成，由多棵CART构成的，进一步在决策树的训练过程中引入随机属性选择。传统决策树在选择划分属性的时候是在当前节点所有的属性集合中选出一个左右属性进行划分；而在RF中，对基决策树的每个节点，先从该节点的属性集合中随机选择一个包含k个属性的子集，然后再从这个子集中选择一个最优属性用于划分。这里的参数k控制了随机性的引入程度。如果k=d（全部属性集），...

机器学习算法之bagging与随机森林算法

Maple__Boy

08-20

1621

前言：在集成学习算法中，我们讲到了集成学习主要有两个流派，一个是boosting流派，它的特点是各个弱学习器之间有依赖关系。另一种是bagging流派，它的特点是各个弱学习器之间没有依赖关系，可以并行拟合。本文就对集成学习中Bagging与随机森林算法做一个总结。随机森林是集成学习中可以和梯度提升树GBDT分庭抗礼的算法，尤其是它可以很方便的并行训练，在如今大数据大样本的的时代很有诱惑力。 1、bagging的原理 Bagging：基于数据随机重抽样的分类器构建方法。从训练集从进行子抽样组成每个基模型所需

随机森林算法OOB_SCORE最佳特征选择

“相关推荐”对你有帮助么？

非常没帮助
没帮助
一般
有帮助
非常有帮助

提交

机器学习：集成学习（OOB 和 关于 Bagging 的更多讨论）

一、oob（Out - of - Bag）

2）oob_score 参数

3）并行化处理

Baggi

“相关推荐”对你有帮助么？

机器学习：集成学习（OOB 和关于 Bagging 的更多讨论）

　2）oob_score 参数

　3）并行化处理