Bagging和Boosting的区别

最新推荐文章于 2024-04-13 10:49:20 发布

Hoshinory

最新推荐文章于 2024-04-13 10:49:20 发布

阅读量277

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/Hoshinory/article/details/116032567

版权

2 篇文章 0 订阅

订阅专栏

1. Bagging

Bagging是基于boostraping对训练样本进行抽样的一类算法，主要特点是对训练样本进行又放回随机抽取。有放回抽取的意义在于如下：

给定数据集 $D = \{ (x_{1}, y_{1}), (x_{2}, y_{2}),..., (x_{m}, y_{m}) \}$
如果其中存在 $m-k\leq m)$ 个异常数据，对于每一次有放回采样，非异常点被选中的概率 $\frac{m-k}{m} > \frac{k}{m}$ ，多次采样后将会降低异常点的比例，使训练集数据更加真实有效
每个数据样本被采集到的概率为 $\frac{1}{m}$ ，那么经过m次采样，数据样本点不被采集到的概率为 $\frac{1}{m})^{m}$ , $\underset{m \to \infty }{lim}(1 - \frac{1}{m})^{m} =\frac{1}{e} \approx 0.368$ ，换句话说，每轮采样中约有36.8%的样本不会被采集到，因此可以作为测试集来检验模型的泛化能力。
何种情况下可以使用Bagging
新加入样本对算法的稳定性和性能造成的影响较大时
基学习器
其对基学习器没有要求，常见的基学习器为决策树（CART $\to$ RF）和神经网络
支持并行计算

Boosting是基于前向分布算法（贪心策略）的一类算法，所有的基学习器训练集都是相同的，不同的是训练集中数据样本的权重，因此Boosting一簇的算法均需要解决以下四个问题：