Boosting集成学习方法-----机器学习

Boosting

之前的博文中我们提到过Boosting集成学习方法是个体学习器串行的序列化方法,这种方式中个体学习器存在强依赖的关系。

该方法的工作机制:我们先从初始的训练集中训练出一个基学习器,然后根据基学习器的表现对训练样本分布进行调整,使得先前基学习器做错的训练样本在后续受到更多的关注,然后基于调整后的样本分布来训练下一个基学习器;如此反复进行,直至基学习器数目达到了事先指定的值T,最后将这T个基学习器进行加权结合。我们看一个例子,加深我们对这种方式的理解。

 如图所示,我们使用回归任务作为一个例子,在最开始,我们的样本分布权重都是一样的,也就是说受到的关注是一样的,在第一幅图中,我们训练了一个学习器来拟合我们的样本,然后计算误差,发现有些样本也不是完全适应我们训练出来的这个学习器,然后我们就对这些样本加以更大的关注,也就是分配更大的权重给这些样本,然后我们训练第二个学习器再来拟合这些样本,同样计算误差,也发现有些样本不完全适应我们这个学习器,然后再对这些样本赋予更大的权重,训练第三个学习器知道个体学习器的数量达到了T,否则就一直循环上述的过程,这个例子应该加深了我们对Boosting的理解,也能够知道为什么这是串行的方式,因为个体学习器之间有着很强的依赖关系,我们只有训练了前一个学习器,对样本的权重进行调整之后,才能训练下一个分类器。

Boosting族算法中最著名的代表是AdaBoost,比较容易理解的是基于“加性模型”,即基学习器的线性组合:

上述中h_t(x)是个体学习器,\alpha _t是相应的个体学习器的权重,最开始就说了Boosting方式是将最后的结果进行加权结合,并非简单的投票法,上面这个式子应该不难理解。

西瓜书上还有一堆公式来说明,李航的《统计学习方法》中给了一个AdaBoost方式的例子。我们先看看AdaBoost的集成步骤,然后再一起看看《统计学习方法》中的例子加深理解。

AdaBoost算法

训练数据集T={(x_1,y_1),(x_2,y_2),...,(x_N,y_N)},其中

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值