提升算法--Adaboost

最新推荐文章于 2021-12-19 15:45:19 发布

【敛芳尊】

最新推荐文章于 2021-12-19 15:45:19 发布

阅读量474

点赞数

文章标签：算法分类机器学习

本文链接：https://blog.csdn.net/qq_39691463/article/details/118977007

版权

一：提升算法

历史凯尔斯和瓦里安特首先提出了“强可学习”和“弱可学习”的概念，指出在PAC学习框架下，一个概念如果存在一个多
项式的学习算法去学习它，并且正确率很高，那么就称这个概念为强可学习的，反之，若正确率仅比猜测的概率高一点，
那么就成这个概念是弱可学习的，在后面的发展过程中，Schapire证明了强可学习和弱可学习是等价的，在pac的学习
框架下，一个概念是强可学习的充要条件是这个概念是弱可学习的。提升方法就是从弱学习算法出发，反复学习，得到
一系列的弱分类器（仅对于分类问题而言），然后组合这些弱分类器，构成一个强分类器。大多数提升方法都是改变
训练数据的概率分步（训练数据的权值分步），针对不同的训练数据分步调用弱学习算法来学习一系列的弱分类器。

二：Adaboost算法

一：算法基本思想
Adaboost算法就是提升算法基本思想的典型例子。对于提升方法来说，有两个必须回答的问题，第一：如何改变训练数据的权值分步。第二：如何组合一系列的弱分类器形成一个强大的分类器。对于第一个问题，Adaboost的做法是提高上一轮被弱分类器错分样本的权值，降低正确分类的样本的权值，在后面的训练中，那些被错分的样本由于权值的加大会被下一轮的弱分类器重点关注，于是，分类问题就被一系列弱分类分而治之。对于第二个问题，Adaboost算法通常采用加权多数投标表决的方法，具体的，就是加大分类误差率小的弱分类器，减小分类误差率大的弱分类器的权值。
二：Adaboost算法的实现步骤
(1)假设训练数据集具有均匀的权值分步，使得每个训练样本在基分类器的学习过程中效果相同。这一假设能保证在原始数据集上学习得到基分类器Gm(x)
在这里插入图片描述

(2)Adaboost反复学习弱分类器，执行以下操作
（a）根据原始数据集及其假设的权值，学习得到基分类器Gm(x)
在这里插入图片描述

（b）计算基分类器Gm(x)在加权数据集上的分类误差率：
在这里插入图片描述

（c）计算基本分类器Gm(x)的系数αm
在这里插入图片描述

（d）更新数据的权值分步，为下一轮训练做准备
在这里插入图片描述

(3) 线性组合f(x)实现M个基分类器的加权投标表决。
在这里插入图片描述

三：Adaboost算法的训练误差分析

1，adaboost算法的基本性质是他能在学习的过程中减少训练误差，即可以减少训练数据集上的分类误差率。
2，adaboost算法的训率误差是以指数速率下降的，且没有下界
3，于其他的提升算法不同，adaboost算法是有适应性的，ada就是Adaptive的简写

四：AdaBoost算法与前向分步算法

1，关系：
Adaboost算法通常还有另一个解释，通过前面的算法实现步骤，我们可以看出，Adaboost的实现，最终是由一些列基分类器（弱分类器），线性相加得到一个最终分类器（强分类器），其损失函数是指数函数，如下：

因此，可以认为Adaboost算法是模型为加法模型，损失函数是指数函数，学习算法为前向分步算法时的二分类学习方法。也就是说Adaboost算法是前向分步加法算法的特例。ps：不懂前向分步算法的的小伙伴先自行了解一下前项分步算法。
2，证明上诉关系：
一：模型为加法模型，学习算法为前项分步算法的证明：前向分步算法学习的是加法模型，当基函数是基分类器时，该加法模型等价于adaboost算法的最终分类器：
在这里插入图片描述

前向分步算法逐一学习基函数，这与adaboost算法逐一学习基分类器的流程是一致的。
二：前向分步算法损失函数是指数函数的证明–略（可见《统计学习方法》）

五：AdaBoost算法的特点

1，不改变所给训练数据，不断改变训练数据的权值分布，使得训练数据在基分类器的学习过程中起到不同的作用。
2，线性组合f(x)实现M个基分类器的加权表决，系数αm表示了基分类器Gm(x)的重要性，这里，所有αm的和并不唯一。利用基分类器的线性组合构建最终的分类器是AdaBoost算法的另一个特点。

六：算法的优缺点

优点：
1，是一种高精度分类器
2，可以使用各种方法构建子分类器，adboost提供的是一种框架
3，基本分类器构建简单，易于理解
4，算法过程简单，不用做特征赛选
5，不易发生过拟合。
缺点：
1、AdaBoost迭代次数也就是弱分类器数目不太好设定，可以使用交叉验证来进行确定。
2、数据不平衡导致分类精度下降。
3、训练比较耗时，每次重新选择当前分类器最好切分点。
4，标准的adboost算法只适用于二分类任务。

【敛芳尊】

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
提升算法--Adaboost

一：提升算法历史凯尔斯和瓦里安特首先提出了“强可学习”和“弱可学习”的概念，指出在PAC学习框架下，一个概念如果存在一个多项式的学习算法去学习它，并且正确率很高，那么就称这个概念为强可学习的，反之，若正确率仅比猜测的概率高一点，那么就成这个概念是弱可学习的，在后面的发展过程中，Schapire证明了强可学习和弱可学习是等价的，在pac的学习框架下，一个概念是强可学习的充要条件是这个概念是弱可学习的。提升方法就是从弱学习算法出发，反复学习，得到一系列的弱分类器（仅对于分类问题而言），然后组合这些弱分
复制链接

扫一扫