Bagging

Bagging

在overview中我们提到bagging是集成学习的方式之一,也是并行式集成学习的代表。

Booststrap Sampling

首先介绍一种采样方式,叫做自主采样法(booststrap sampling),自主采样法在数据集比较小,难以划分训练集和测试集的时候比较有效。算法的流程是:

  1. 从数据集 D D D中随机选取一个样本 x x x放入 D ′ D^{'} D
  2. 将样本 x x x放回原数据集 D D D
  3. 重复上述过程 m m m次,得到一个包含 m m m个样本的子集 D ′ D^{'} D

这里我们计算某个样本在m次选取中均没有被选到的概率:
p   =   ( 1   −   1 m ) m p \ =\ (1 \ -\ \frac{1}{m})^m p = (1  m1)m
取极限,即当 m m m趋向于 ∞ \infty 时:
lim ⁡ m → ∞ p   =   lim ⁡ m → ∞ ( 1   −   1 m ) m = 1 e ≈ 0.368 \lim_{m \to \infty} p \ =\ \lim_{m \to \infty}{(1\ -\ \frac{1}{m})^m}=\frac{1}{e}\approx0.368 mlimp = mlim(1  m1)m=e10.368
也就是说,每次选取样本子集完成后,理论上会有36.8%的样本没有被选到。

Algorithm

那么bagging算法就是采用了bootstrap sampling,因为这种采样的方式能够使得我们每个个体学习器训练的数据都不相同,保证了基学习器之间的差异性。于是我们通过自助采样法选取出 T T T个包含 m m m个样本的样本子集,然后对每一个样本子集训练一个个体学习器。

在结合模块,针对不同的任务有不同的方法:如果是分类问题,我们通常采取“投票法”(Voting),即少数服从多数;对于回归问题,我们通常取平均值。

在这里插入图片描述

Bagging的复杂度基本与个体学习器复杂度保持一致。

Random Forest

随机森林算法其实就是Bagging + Decision Tree,但是它在Decision Tree的部分做了一点改进,引入了随机属性的选择。我们知道在原始的决策树算法中,每次是通过信息增益或者基尼指数来选取最优划分特征。但是随机森林中,我们不是在所有特征集合中选取最优划分特征,而是先随机选取出一个特征子集,然后在这个特征子集中选取最优划分特征,一般情况下,推荐选取 k   =   l o g 2 d k\ =\ log_{2}{d} k = log2d个特征作为子集。

这个改动带来的效果上的提升是惊人的,其实这一步优化是进一步增加了集成模型的泛化能力,不仅样本有随机性,特征的选取也有随机性。

在这里插入图片描述

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值