集成学习在机器学习算法中具有较高的准去率,不足之处就是模型的训练过程可能比较复杂,效率不是很高。其核心思想就是如何训练处多个弱分类器以及如何将这些弱分类器进行组合。主要分类如下:
Bagging:训练多个分类器取平均。如随机森林
Boosting:从弱学习器开始加强,通过加权来进行训练。Adaboost、GBDT、XGBOOST
Stacking:聚合多个分类或回归模型(可以分阶段来做)
1. Bagging
全称:bootstrap aggregating。
bagging 采用的是随机有放回的选择训练数据然后构造分类器,最后组合。因为 bagging 方法可以减小过拟合,所以通常在强分类器和复杂模型上使用时表现的很好(例如,完全决策树,fully developed decision trees),相比之下 boosting 方法则在弱模型上表现更好(例如,浅层决策树,shallow decision trees)。
预测
对于数值类的回归预测问题,通常使用的结合策略是平均法,也就是说,对于若干和弱学习器的输出进行平均得到最终的预测输出。
对于分类问题的预测,我们通常使用的是投票法。最简单的投票法是相对多数投票法,也就是我们常说的少数服从多数。稍微复杂的投票法是绝对多数投票法ÿ