AdaBoost算法详解
1. 提升方法的基本思想
提升方法基于这样一种思想:对于一个复杂任务来说,将多个专家的判断进行适当(按照一定权重)的综合(例如线性组合加法模型)所得出的判断,要比其中任何一个专家单独的判断好
历史上,Kearns和Valiant首先提出了“强可学习(strongly learnable)”和“弱可学习(weekly learnable)”的概念,指出在概率近似正确(probably approximately correct,PAC)学习的框架中:
- 一个概念(概率规律)如果存在一个多项式的学习算法能够学习它(通过建模抽象拟合),并且正确率很高,那么就称这个概念是强可学习的;
- 一个概念如果存在一个多项式的学习算法能够学习它,但是学习的正确率仅比随机猜测略好,那么就称这个概念是弱可学习的
同时,后来Schapire证明强在PAC学习的框架下,一个概念是强可学习的充分必要条件是这个概念是弱可学习的。这样一来,问题就转化为了,在算法训练建模中,如果已经发现了“弱可学习算法”(即当前分类效果并不优秀,甚至仅仅比随机预测效果要好),就有可能将其boosting(提升)为强可学习算法,这其中最具代表性的方法就是AdaBoosting(AdaBoosting algorithm)
提升方法就是从弱学习算法出发,反复学习,得到一系列弱分类器(基本分类器),然后组合这些弱分类器,构成一个强分类器。大多数的提升方法都是改变训练数据的概率分布(训练数据的权重分布)
2. 提升方法的两个关键要素
对于提升方法来说,有两个非常重要的问题
- 在每一轮如何改变训练数据的权值或概率分布,修改的策略是什么?
- 如何将弱分类器组合成一个强分类器?
这2个问题是所有Boosting方法都要考虑和解决的问题,这里以AdaBoost为例,讨论AdaBoost的策略
- 提高那些被前一轮弱分类器错误分类的样本的权值,而降低那些被正确分类样本的权值。这样一来,那些被分错的数据,在下一轮就会得到更大的关注。所以,分类问题被一系列的弱分类器“分而治之”
- 对弱分类器的组合,AdaBoost采取加权多数表决的方法。即加大分类误差率小的弱分类器的权值,使其在表决中起较大作用,减小分类误差率大的弱分类器的权值,使其在表决中起较小的作用。
3. 前向分步算法
在开始学习AdaBoost算法之前,我们需要先了解前向分步算法思想。实际上,AdaBoost算法是模型为加法模型、损失函数为指数函数、学习算法为前向分步算法时的二类分类学习算法
3.1 加法模型(aditive model)
加法模型是一种线型模型,
即同时考虑N个样本在整个线性模型组中的损失函数的极小值,通常这是一个十分复杂的优化问题(求极值问题),想要一步到位求出最优解特别困难。前向分步算法(forward stagewise algorithm)求解这一优化问题的思想是:
因为学习的是加法模型(线性模型),如果能够从前向后,每一步只学习一个基函数
那么就可以极大简化优化的复杂度。具体地,每步优化如下损失函数:
每次只要考虑一个基函数及其系数即可。
有一点要注意,前向分步的思想和贝叶斯估计有类似的地方:
- 它们都假设每一步之间的基函数和系数是独立不相关的(在贝叶斯估计中这叫独立同分布),也因为这一假设才可以把原始的全局最优解求解等价为分步的子项求解过程。
- 但是这种假设会丢失一部分精确度,即每一步之间的依赖关联会被丢弃。
而前向分步算法的思想就是不求一步到位,而是逐步逼近最优解,通过分步求得每一步的最优解来逼近全局最优解。我个人觉得这和SGD梯度下降的求最优思想是一样的
3.2 算法策略
和其他统计机器学习模型一样,前向分布算法的策略也同样是:经验风险最小化。如果在模型中加入了penalty惩罚项,则可以演进为结构风险最小化
3.3 前向分步算法
给定训练数据集
- 初始化
- 对
(M代表基函数个数)
- 在上一步得到的最有基函数的基础上,极小化本次单个基函数的损失函数:
,得到本轮最优基函数参数。
- 更新(线性累加基函数)
- 在上一步得到的最有基函数的基础上,极小化本次单个基函数的损失函数:
- 得到最终加法模型
。这样,前向分步算法将同时求解从m=1到M所有的参数的全局最优解问题简化为逐次求解各个的局部最优化问题。
4. AdaBoost算法
4.1 算法过程
假设给定一个二类分类的训练数据集(adaboost不限于二类分类)
其中,每个样本点由实例与标记组成。实例
- 初始化训练数据的权值分布(N代表样本数量):
注:(初始等概率分布体现了最大熵原理,在没有任何先验知识的前提下作等概率假设是最合理的)。这一步假设数据集具有均匀的权值分布,即每个训练样本在基本分类器的学习中作用相同,这一假设保证第一步能够在原始数据上学习基本分类器.
- 假设训练轮次为M(直到达到某个预定的足够小的错误率或达到预先指定的最大迭代次数),则对
- 使用具有权值分布
的训练数据集(对应本轮权值分布的数据集)学习,得到本轮次的基本分类器:
- 计算
在本轮训练数据集上的分类误差率(权重误差函数):注:在加权的训练数据集上的分类误差率是被误分类样本的权值之和,注意,权重误差函数关注的是本轮数据集的权重(概率)分布,而不关注弱分类器内部的参数。即我们对本轮高概率分布(重点关注的数据)的错误会给与更大的惩罚,这样就体现了模型Adding组合过程中根据权重误差进行模型组合选择的策略了.
- 根据本轮的弱分类器对数据集的分类误差计算
的模型系数:代表了本轮得到的弱分类器的重要程度。 由左式可知,当时,,并且随着的减小而增大,所以在本轮分类误差率越小的基本分类器在最终分类器中的作用越大。
- 更新下一轮训练数据集的权值分布
,.这里,是规范化因子:它使得成为一个概率分布(每一轮的权值总和都为1,)。注:更新训练数据的权值分布为下一轮作准备。式子可以写成:由此可知,被基本分类器误分类样本的权值得以扩大,而被正确分类样本的权值却在下一轮得以缩小。两相比较,误分类样本的权值被放大了倍,因此误分类样本在下一轮学习中起更大作用。不改变所给的训练数据本身,而不断改变训练数据权值的分布,使得训练数据在基本分类器的学习中起不同的作用,一次优化一个弱分类模型,或者理解为一次优化全局复杂问题中的一次子问题(分而治之)。
- 使用具有权值分布
- 构建基本分类器的线性组合:
得到最终分类器:线性组合实现M个基本分类器的加权表决。
系数表示了基本分类器的重要性。
注:可以看到,在每轮的训练中,训练样本的权值分布不断在变动,同时 1. 权值分布对本轮的弱分类器在最终线性分类器组合中重要程度起正比例作用; 2. 对下一轮的样本权值调整起反比例作用