机器学习算法（六）——集成学习三之Bagging算法

最新推荐文章于 2024-07-06 16:02:49 发布

MIT_sword

最新推荐文章于 2024-07-06 16:02:49 发布

阅读量1.4k

点赞数

分类专栏：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/MIT_sword/article/details/101751620

版权

机器学习专栏收录该内容

10 篇文章 1 订阅

订阅专栏

Bagging直接基于自助采样法bootstrap sampling。

自助采样法的步骤是：给定包含 N个样本的数据集：

先随机取出一个样本放入采样集中，再把该样本放回原始数据集。
这样经过 N 次随机采样操作，得到包含 N个样本的采样集。
初始训练集中有的样本在采样集中多次出现，有的则从未出现。一个样本始终不在采样集中出现的概率是。

根据
在这里插入图片描述
因此初始训练集中约有 63.2% 的样本出现在了采样集中。

自助采样法给Bagging算法带来了额外的优点：由于每个基学习器只用初始训练集中约 63.2% 的样本来训练，剩下的约 36.8% 的样本可用作验证集来对泛化性能进行包外估计。

Bagging的基本流程：

经过轮自助采样，可以得到个包含个训练样本的采样集。
然后基于每个采样集训练出一个基学习器。
最后将这个基学习器进行组合，得到集成模型。
在使用 Bagging学习器进行预测时：

分类任务采取简单投票法，取每个基学习器的预测类别的众数。
回归任务使用简单平均法，取每个基学习器的预测值的平均。
从偏差-方差分解的角度来看：

Bagging主要关注降低方差，它能平滑强学习器的方差。

因此它在非剪枝决策树、神经网络等容易受到样本扰动的学习器上效果更为明显。

Boosting 主要关注降低偏差，它能将一些弱学习器提升为强学习器。

因此它在SVM 、knn 等不容易受到样本扰动的学习器上效果更为明显

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。