Bagging

最新推荐文章于 2024-04-13 10:49:20 发布

lzk_nus

最新推荐文章于 2024-04-13 10:49:20 发布

阅读量207

点赞数

分类专栏： Machine Learning 文章标签：机器学习决策树算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_42791848/article/details/122372951

版权

Machine Learning 专栏收录该内容

22 篇文章 13 订阅

订阅专栏

Bagging

在overview中我们提到bagging是集成学习的方式之一，也是并行式集成学习的代表。

Booststrap Sampling

首先介绍一种采样方式，叫做自主采样法(booststrap sampling)，自主采样法在数据集比较小，难以划分训练集和测试集的时候比较有效。算法的流程是：

从数据集 $D$ 中随机选取一个样本 $x$ 放入 $D^{'}$ 中
将样本 $x$ 放回原数据集 $D$
重复上述过程 $m$ 次，得到一个包含 $m$ 个样本的子集 $D^{'}$ 。

这里我们计算某个样本在m次选取中均没有被选到的概率：
$\ =\ (1 \ -\ \frac{1}{m})^m$
取极限，即当 $m$ 趋向于 $\infty$ 时：
$\lim_{m \to \infty} p \ =\ \lim_{m \to \infty}{(1\ -\ \frac{1}{m})^m}=\frac{1}{e}\approx0.368$
也就是说，每次选取样本子集完成后，理论上会有36.8%的样本没有被选到。

Algorithm

那么bagging算法就是采用了bootstrap sampling，因为这种采样的方式能够使得我们每个个体学习器训练的数据都不相同，保证了基学习器之间的差异性。于是我们通过自助采样法选取出 $T$ 个包含 $m$ 个样本的样本子集，然后对每一个样本子集训练一个个体学习器。

在结合模块，针对不同的任务有不同的方法：如果是分类问题，我们通常采取“投票法”(Voting)，即少数服从多数；对于回归问题，我们通常取平均值。

在这里插入图片描述

Bagging的复杂度基本与个体学习器复杂度保持一致。

Random Forest

随机森林算法其实就是Bagging + Decision Tree，但是它在Decision Tree的部分做了一点改进，引入了随机属性的选择。我们知道在原始的决策树算法中，每次是通过信息增益或者基尼指数来选取最优划分特征。但是随机森林中，我们不是在所有特征集合中选取最优划分特征，而是先随机选取出一个特征子集，然后在这个特征子集中选取最优划分特征，一般情况下，推荐选取 $k\ =\ log_{2}{d}$ 个特征作为子集。

这个改动带来的效果上的提升是惊人的，其实这一步优化是进一步增加了集成模型的泛化能力，不仅样本有随机性，特征的选取也有随机性。

在这里插入图片描述

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Bagging

Bagging在overview中我们提到bagging是集成学习的方式之一，也是并行式集成学习的代表。Booststrap Sampling首先介绍一种采样方式，叫做自主采样法(booststrap sampling)，自主采样法在数据集比较小，难以划分训练集和测试集的时候比较有效。算法的流程是：从数据集DDD中随机选取一个样本xxx放入D′D^{'}D′中将样本xxx放回原数据集DDD重复上述过程mmm次，得到一个包含mmm个样本的子集D′D^{'}D′。这里我们计算某个样本在m次选取
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。