集成学习通过将多个学习器进行结合,常可获得比单一学习器显著优越的泛化性能。
用一个简单的例子来进行说明:在一个二分类任务重,假设三个分类器在三个测试样本上的表现如下图所示。假设集成学习的结果通过三个个体学习器用投票发(voting)产生,即“少数服从多数”,那么当三个个体学习器分别对三个测试例有不同的判别优势时,集成的效果也会不一样。
目前集成学习的方法大致可以分成两大类:
1.个体学习器存在强依赖关系,必须串行生成的序列化方法(Boosting)
2.个体学习器不存在强依赖关系,可同时生成的并行化方法(Bagging和随机森林)
接下来打算用两章来分别介绍下Boosting和随机森林算法。