提升方法是一个线性组合多个不同的弱分类器使其成为强分类器的方法(结合多个分类器的优势),训练过程主要通过不断加大误分类样本权重,减小正确样本数据权重(改变训练数据概率分布)来达到最终的分类器。其中最为典型的是AdaBoost算法。
补充概念:
- 强学习:通过一个多项式学习(分类器)就可以达到比较高的正确率
- 弱学习:通过一个多项式学习(分类器)仅能达到随机猜测相近的正确率
AdaBoost需解决的问题:
1、每次学习每轮中如何改变训练数据权重或概率分布
- 提高上一轮中被误分类数据的权重,因此在下一个分类器中这部分数据将被更加关注
2、如何线性组合多个不同分类器
- 采用加权多数表决方案,即增加正确率高的弱分类器的权重
AdaBoost算法流程:
输入:训练数据N,弱分类器算法
输出:最终分类器G(x)
1、初始化训练数据的权重(数据分布),初始化的数据服从均匀分布,每个数据更概率: