《scikit-learn机器学习》决策树④ - 集合算法：Bagging自助聚合算法+boosting正向激励算法+随机森林+ExtraTrees

Bessie_Lee_gogogo

于 2021-11-19 11:24:25 发布

阅读量782

点赞数

分类专栏：学习ML+DL 文章标签：机器学习算法 scikit-learn

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42198265/article/details/121417840

版权

学习ML+DL 专栏收录该内容

45 篇文章 17 订阅

订阅专栏

文章目录

集合算法

集合算法

集合算法是一种元算法，它支持少数服从多数的原则，保存在sklearn.ensemble 包中

1、自助聚合算法：Bagging

自助聚合算法大名叫：Bootstrap Aggregating
它采取有放回方式的取样：
一个拥有m个数据的数据集，随机抽取一个数据放入一个新的数据集k中，然后再将这个抽取的数据放回m数据集中，再随机抽取一个数据再放入k中，就这样依次循环n次，得到n个数据的数据集k
【注意】：在该数据集中，很有可能存在重复的数据，因为是有放回的抽样。
【优点】：它可以降低数据集的噪声敏感
【缺点】：会增加计算量

2、正向激励算法：boosting

正向激励算法是采取赋予权重的方法进行。

在具有m个数据的数据集中，将每一个数据赋予一个对应的权重，再将带权重的全部数据进行训练模型，然后取出那些预测结果有误的数据集，重新分配对应的权重，再进行训练，重复B次，训练出B个模模型

【对比】：boosting比Bagging的优点在于，它可以对错误的数据进行一个加工处理的操作，加强了错误模型的训练过程，但是我觉得boosting的运算也是十分复杂的。

3、随机森林

随机森林是在Bagging的基础上进行的一个进化。它保存在RandomForestClassifier 和 RandomForestRegressor 中。

训练的时候要关注俩个特殊的数据：
t：构建决策树的个数
f：单科决策树的特征数

【算法思想】：
1、放回抽取：首先对单颗数的构建，也是采用Bagging的思想，在m个数据中选取含有n个数据的数据集
2、不放回抽取：取出f个特征数据
3、将1和2的操作汇总，形成一颗决策树，再将这一颗决策树的思路循环t次，就得到了t颗决策树。

【为何称为随机】：
因为如果不是随机取样的话，会导致耦合度过高，数据与数据之间有强关联的情况出现，导致一种倾向性的出现，不利于我们进行后续的模型训练

4、ExtraTrees

他是随机森林的进一步优化操作，由于随机森林是采用ID3或者CART算法找到一个最优的特征来进行分裂，但是这样子可能会出现过拟合现象。
于是改进的ExtraTrees算法就是在特征中随机找寻特征进行分裂，避免了过拟合现象。

Bessie_Lee_gogogo

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
0
评论
《scikit-learn机器学习》决策树④ - 集合算法：Bagging自助聚合算法+boosting正向激励算法+随机森林+ExtraTrees

文章目录集合算法1、自助聚合算法：Bagging2、正向激励算法：boosting3、随机森林4、ExtraTrees集合算法集合算法是一种元算法，它支持少数服从多数的原则，保存在sklearn.ensemble 包中1、自助聚合算法：Bagging自助聚合算法大名叫：Bootstrap Aggregating它采取有放回方式的取样：一个拥有m个数据的数据集，随机抽取一个数据放入一个新的数据集k中，然后再将这个抽取的数据放回m数据集中，再随机抽取一个数据再放入k中，就这样依次循环n次，得到
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

Bessie_Lee_gogogo 你的鼓励是我最大的动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。