Adaboot

最新推荐文章于 2022-08-05 21:17:55 发布

張清扬

最新推荐文章于 2022-08-05 21:17:55 发布

阅读量598

点赞数 1

分类专栏：数据挖掘与机器学习算法文章标签：算法

本文链接：https://blog.csdn.net/u014593570/article/details/77648058

版权

数据挖掘与机器学习算法专栏收录该内容

22 篇文章 15 订阅

订阅专栏

AdaBoost，即英文”Adaptive Boosting”（自适应增强）的缩写。是一种流行的提升算法。

在Jiawei Han的书中对该算法是这样描述的：

我们着重关注画红线的关键字。
从上述的描述中，我们可以知道。该算法选取训练集是有放回的抽样。但是这个有放回的抽样不是随机的，而是看训练元组权重的。也就是说，每个元组被选中的机会是由他们的权重决定的。
如果一个元组被不正确的分类，则该元组的权重增加，后序被选中的机会也会加大；如果一个被正确的分类了，则该元组的权重降低，后序被选中的机会也会减少。
这比较像我们在学生时代的刷题一样，对于容易错的题就重点训练。实际上，现在的某些驾考APP里面，也能看到这种算法思想的应用。

在最后，对于组合分类器中的每个基分类器来说，它自身还会有一个权重，我们称之为基分类器的话语权。其实就是根据每个基分类器的分类情况（错误率），对每个分类的表决赋予一个权重。分类器的错误率越低，它的准确率就越高，因此它的表决权重就越高。

在最后，要判断一个元组到底是哪个类的，就让组合分类器对每个类别进行加权投票，最后具有最大权重和类即是元组的类预测。

OK，想法我们就说到这儿。下面我们来看一下这个算法具体的执行流程是怎么样的。

注：对于增大分类错误数据的权值和分类误差计算的说明：

整个算法的思路还是很清晰的。。
在这里，大家可能会在书上，或者说网上看到一些不同的写法。
这些写法的区别在于运算方法，集中体现在/代表分类器的话语权系数计算方法不同，各元组项的权值更新方法不同，训练集的选取策略不同，训练方式不同上。但是算法的思想和执行流程都是一样的，对于初学者来说，可以暂时忽略这些具体的计算上的区别。重点把握Adaboost算法的思想。
需要补充的一点是，标准的Adaboot算法只适用于二分类任务。要想让其处理多分类或回归任务，还需要对其修改（目前已经有变体算法产生）

参考文章：
浅谈AdaBoost算法–附有详细示例解析
数据挖掘（概念与技术）-第三版-Jiawei Han-P247
集成学习原理小结
 集成学习之Adaboost算法原理小结