一、强可学习与弱可学习
1.定义
在PAC(概率近似正确)学习框架下,一个概念(一个类),如果存在一个多项式的学习算法能够学习,并且正确率很高,则为强可。反之,如果存在一个多项式学习算法能够学习,但正确率仅仅比随机猜测略好,则为弱可。
2.定理
在PAC学习框架下,一个概念是强可学习的充要条件是这个概念是弱可学习的。
提升算法就是将一般的弱可学习模型构建组合而成强可学习模型。
二、Adaboost
对于提升算法来说,有两个问题,第一个是在每一轮如何改变训练数据的权值或概率分布;二是如何将弱分类器组合成强分类器。
Adaboost是弱化分类器错误分类样本的权值,降低正确分类样本的权值,从而改变训练数据的权值。
1.训练误差
能在学习中不断减少训练误差,训练误差以指数速率下降。
2.Adaboost特性
多数表决。可认为是模型为加法模型,损失函数为指数函数,学习算法为前向分步算法(每步只学习一个基函数及其系数)的二类分类学习方法。
3.实例——提升树
以分类树或回归树为基本分类器的提升方法。