前言:集成学习(Ensemble Learning),广泛用于分类和回归任务。它最初的思想很简单:使用一些(不同的)方法改变原始训练样本的分布,从而构建多个不同的分类器,并将这些分类器线性组合得到一个更强大的分类器,来做最后的决策。也就是常说的“三个臭皮匠顶个诸葛亮”的想法。
集成学习的理论基础来自于Kearns和Valiant提出的基于PAC(probably approximately correct)的可学习性理论 ,PAC 定义了学习算法的强弱:
- 弱学习算法:识别错误率小于1/2(即准确率仅比随机猜测略高的算法)
- 强学习算法:识别准确率很高并能在多项式时间内完成的算法
根据这两个概念,后来产生了一个重要的结论:
强可学习与弱可学习是等价的,即:一个概念是强可学习的充要条件是这个概念是弱可学习的。
据此,为了得到一个优秀的强学习模型,我们可以将多个简单的弱学习模型“