前言
集成学习是通过构建并结合多个学习器来完成学习任务,集成学习通过将多个基学习器结合,即便某一个弱分类器得到了错误的预测,其他的弱分类器也可以将错误纠正回来,通常都会获得比单一学习器显著优越的泛化性能,是评测任务中必不可少的一个方法。
目前集成学习可分为两大类,即个体学习器之间有依赖关系,必须串行生成的序列化方法;以及个体学习器不存在强依赖关系,可同时生成的并行化方法。前者的代表是Boosting,最著名的是代表有Adaboost, GBDT和XGBOOST;后者的代表是Bagging和随机森林。对于学习器的结合策略有三大类:投票法(分类),平均法(连续数