Adaboot

AdaBoost,即英文”Adaptive Boosting”(自适应增强)的缩写。是一种流行的提升算法。

在Jiawei Han的书中对该算法是这样描述的:


这里写图片描述

我们着重关注画红线的关键字。
从上述的描述中,我们可以知道。该算法选取训练集是有放回的抽样。但是这个有放回的抽样不是随机的,而是看训练元组权重的。也就是说,每个元组被选中的机会是由他们的权重决定的
如果一个元组被不正确的分类,则该元组的权重增加,后序被选中的机会也会加大;如果一个被正确的分类了,则该元组的权重降低,后序被选中的机会也会减少。
这比较像我们在学生时代的刷题一样,对于容易错的题就重点训练。实际上,现在的某些驾考APP里面,也能看到这种算法思想的应用。

在最后,对于组合分类器中的每个基分类器来说,它自身还会有一个权重,我们称之为基分类器的话语权。其实就是根据每个基分类器的分类情况(错误率),对每个分类的表决赋予一个权重。分类器的错误率越低,它的准确率就越高,因此它的表决权重就越高。

在最后,要判断一个元组到底是哪个类的,就让组合分类器对每个类别进行加权投票,最后具有最大权重和类即是元组的类预测。

OK,想法我们就说到这儿。下面我们来看一下这个算法具体的执行流程是怎么样的。


这里写图片描述
这里写图片描述
这里写图片描述
注:对于增大分类错误数据的权值和分类误差计算的说明:

这里写图片描述

整个算法的思路还是很清晰的。。
在这里,大家可能会在书上,或者说网上看到一些不同的写法。
这些写法的区别在于运算方法,集中体现在/代表分类器的话语权系数计算方法不同,各元组项的权值更新方法不同,训练集的选取策略不同,训练方式不同上。但是算法的思想和执行流程都是一样的,对于初学者来说,可以暂时忽略这些具体的计算上的区别。重点把握Adaboost算法的思想。
需要补充的一点是,标准的Adaboot算法只适用于二分类任务。要想让其处理多分类或回归任务,还需要对其修改(目前已经有变体算法产生)

参考文章:
浅谈AdaBoost算法–附有详细示例解析
数据挖掘(概念与技术)-第三版-Jiawei Han-P247
集成学习原理小结
集成学习之Adaboost算法原理小结

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值