集成方法主要包括:bagging和boosting思想
其中boosting的思想是:通过改变训练样本的权重(即改变训练数据的概率分布),学习多个分类器,并将这些分类器进行线性组合,提高分类的性能。
在概率近似正确(PAC)学习的框架下,一个概念是强可学习的充分必要条件是这个概念是弱可学习的。(不懂)
adaboost:
解决了两个问题:
- 每一轮,即每一个分类器,如何改变训练数据的权值或概率分布:提高前一轮被错误分类的样本权重,降低前一轮被正确分类的样本权重。
如何组合弱分类器成为强分类器:加大分类误差率小的弱分类器的权值,使其在表决中起较小的作用。
步骤:
f(x) 的符号决定实例x的类,[f(x)] 的绝对值表示分类的确信度
adaboost 算法的训练误差分析:
两个定理,一个推论:
所以adaboost的误差上届由分类器的个数,以及每个分类器的准确率决定。