快速了解Bagging算法

最新推荐文章于 2023-12-26 13:45:59 发布

chicken_shit_bro

最新推荐文章于 2023-12-26 13:45:59 发布

阅读量815

点赞数

分类专栏：机器学习文章标签：算法机器学习

本文链接：https://blog.csdn.net/weixin_43179522/article/details/106063938

版权

机器学习专栏收录该内容

9 篇文章 3 订阅

订阅专栏

快速了解Bagging算法

Boostrap sampling 自助采样
Bagging算法
Bagging性能

Boostrap sampling 自助采样

之前已经讲过模型的评估方法中有留一法（将数据集划分为两个互不相交的集合，一个做测试集，一个做训练集）和交叉验证方法（将数据分成k个大小相似互不相交的子集，每次使用k-1个子集做训练集，剩下的一个子集做测试集，以此循环进行k次的训练和测试，最后返回k次测试结果的均值。）。但是上述两种方法中都保留了一部分样本用于测试，所以实际模型所使用的训练集比源数据都要小，因此就会引入一些因训练样本规模不同而导致的估计偏差。另外一方面留一法受训练样本影响较小，但是计算复杂度又太高。因此为了解决减少训练样本规模不同造成的影响，同时还能比较高效地进行测试集的评估。自助法就是很好的解决方案。
boostrap抽样:
在样本集D(样本数为m)内有放回的抽样,抽取数为m,每次抽取的概率为1/m,一个样本可能被重复抽取.我们做一个简单的估计,样本m此采样中始终不被采样的概率为:
在这里插入图片描述
m趋近于正无穷时求极限,得到原数据集D中36.8%的样本没有出现在采用数据集D1中,我们可以使用D1作为训练集,D-D1作为测试集.这样实际评估的模型与期望的模型都使用m个训练样本,而我们仍有数据总量的1/3没有在训练集中出现.将其用于测试集.术语”包外估计”可以解释上述过程.
在这里插入图片描述

Bagging算法

在这里插入图片描述
Bagging基本流程：通过上述自助采样，采出T个含m个训练样本的采样集，然后基于每个采样集训练出一个基学习器(默认决策树,且是并行)，在将这些基学习器进行组合。
在对预测输出进行结合的时候，Bagging通常对分类任务使用简单投票法，对回归任务进行简单的平均法。但是如果投票个数一致，则最简单的做法是随机选择一个类别，当然也可以进一步考察学习器投票的置信度来确定最终的分类。

Bagging性能

1.Bagging是一个很高效的集成学习算法
2.Bagging与下面讲的AdaBoost只适用于二分类不同，它能不经修改地用于多分类、回归任务。
3.自助bootstrap采样过程还给Bagging带来了另一个优点：由于每个基学习器只使用了初始训练集中约63.2%的样本，剩下的约36.8%样本可用作验证集来泛化性能进行“包外样本评估（即：不同于训练数据的样本）”。
4.从偏差-方差分解角度看，Bagging主要关注降低方差，因此他在不剪枝决策树、神经网络等易受样本扰动的学习器上效果更为明显。

chicken_shit_bro

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
快速了解Bagging算法

快速了解Bagging算法Boostrap sampling 自助采样Bagging算法Bagging性能Boostrap sampling 自助采样之前已经讲过模型的评估方法中有留一法（将数据集划分为两个互不相交的集合，一个做测试集，一个做训练集）和交叉验证方法（将数据分成k个大小相似互不相交的子集，每次使用k-1个子集做训练集，剩下的一个子集做测试集，以此循环进行k次的训练和测试，最后返回k次测试结果的均值。）。但是上述两种方法中都保留了一部分样本用于测试，所以实际模型所使用的训练集比源数据都要小
复制链接

扫一扫

专栏目录