1.概述
有监督学习任务中,对于一个相对复杂的任务而言,我们的目标是学习出一个稳定且在各个方面表现都较好的模型,但实际情况往往不会如此理想,有时只能得到多个有偏好的模型(弱监督模型或弱可学习weakly learnable模型)。集成学习就是组合这里的多个弱可学习模型得到一个更好更全面的强可学习 strongly learnable模型,集成学习潜在的思想是即便某一个弱学习器得到了错误的预测,其他的弱学习器也可以将错误纠正回来,实现的效果就是将多个“专家”的判断进行适当的综合,要比任何一个“专家”单独的判断好,实际上就是“三个臭皮匠顶个诸葛亮”的道理。
在PAC的学习框架中,强可学习与弱可学习是等价的,也就是一个概念是强可学习的充分条件是这个概念是弱可学习的。
集成学习可用于分类问题集成,回归问题集成,特征选取集成,异常点检测集成(isolated forest)等,可以说所有的单一机器学习模型经过集成都可以形成集成学习模型。本文对各类集成学习做一个比较全面的总结。
2.CART
分类和回归树或CART模型(Classification and regression tree),也称为决策树,通过递归地划分输入空间并在输入空间划分出的每个区域定义一个局部模型。整个模型可以用一棵树表示,每个区域对应一片叶子。
我们首先考虑如下图 a 所示回归树,其中所