模型集成(Model Ensemble)
模型集成是融合多个训练好的模型,基于某种方式实现测试数据的多模型融合,这样来使最终的结果能够“取长补短”,融合各个模型的学习能力,提高最终模型的泛化能力。近年来,model ensemble已成刷榜神器。它可以应用在图像分割、分类、检测等领域。
模型集成方法主要应用在几个模型差异性较大,相关性较小上。这样效果比较明显。
常用的model ensemble方法有:投票(voting), 平均(averaging), 堆叠(Stacking),非交叉堆叠(Blending)
投票法(Voting)
投票法即我们常见的“少数服从多数”原则,我们可以统计在多个模型的分类结果,哪个类别频数高,即选择哪个类别。假设有五个模型,则很难对某一数据的分类为1,1,1,2,2。则投票结果为1.
平均法(Averaging)
平均法在回归问题及含阈值调节的场景更多一些。它的主要操作是对于多个模型计算的结果求平均作为最终的结果
堆叠法(Stacking)
堆叠法可以总结内如下三个步骤:
- 模型内交叉验证(cross validation)
- 模型间特征组合
- 新的特征组合训练新的模型
堆叠法可以理解为级联网络,上面的第一、二个步骤组合成为第一阶段,上面的第三步骤为第二阶段
模型内交叉验证
每一个模型单独进行交叉验证训练,在每折测试集上进行infer,最终