概念
先产生一组”个体学习器“ ,再用某种策略将它们结合起来,加强模型效果
条件
Base Model 之间的相关性要尽可能的小
Base Model 之间的性能表现不能差距太大
分类
Boosting:个体学习器问存在强依赖关系、必须串行生成的序列化方法
优化bias(即模型的精确性)
数据权重
主流算法
- AdaBoost算法
- 梯度提升树(Gradient Boosting Tree)
Bagging :个体学习器间不存在强依赖关系、可同时生成的并行化方法
采用有放回的方式进行抽样,用抽样的样本建立子模型,对子模型进行训练,这个过程重复多次,最后进行融合。
优化variance(即模型的鲁棒性)
模型结合策略
平均法
投票法
学习法:将学习到的模型,通过另一个学习器来进行结合
Stacking :先从初始数据集训练出初级学习器,然后”生成”一个新数据集用于训练次级学习器。 在这个新数据集中,初级学习器的输出被当作样例输入特征,而初始样本的标记仍被当作样例标记。
分类器权重
Blending:训练集不是通过K-Fold的CV策略来获得预测值从而生成第二阶段模型的特征,而是建立一个Holdout集 把Stacking流程中的K-Fold CV 改成 HoldOut CV