模型集成(Model Ensemble)

模型集成(Model Ensemble)

模型集成是融合多个训练好的模型,基于某种方式实现测试数据的多模型融合,这样来使最终的结果能够“取长补短”,融合各个模型的学习能力,提高最终模型的泛化能力。近年来,model ensemble已成刷榜神器。它可以应用在图像分割、分类、检测等领域。
模型集成方法主要应用在几个模型差异性较大,相关性较小上。这样效果比较明显。
常用的model ensemble方法有:投票(voting), 平均(averaging), 堆叠(Stacking),非交叉堆叠(Blending)

1. 投票法(Voting)

投票法即我们常见的“少数服从多数”原则,我们可以统计在多个模型的分类结果,哪个类别频数高,即选择哪个类别。假设有五个模型,则很难对某一数据的分类为1,1,1,2,2。则投票结果为1.

2. 平均法(Averaging)

平均法在回归问题及含阈值调节的场景更多一些。它的主要操作是对于多个模型计算的结果求平均作为最终的结果

3. 堆叠法(Stacking)

堆叠法可以总结内如下三个步骤:

  1. 模型内交叉验证(cross validation)
  2. 模型间特征组合
  3. 新的特征组合训练新的模型
    堆叠法可以理解为级联网络,上面的第一、二个步骤组合成为第一阶段,上面的第三步骤为第二阶段

4. 模型内交叉验证

每一个模型单独进行交叉验证训练,在每折测试集上进行infer,最终得到整个数据集的概率图

5. 模型间特征平均

假设有N个模型,则上一步会得到N个概率图。求这N个概率的平均图

新的特征组合训练新的模型
以第二步得到的平均图作为训练数据,label用最开始标注好的label,重新进行训练

6. 非交叉堆叠(Blending)

Blending的出现是为了解决Stacking在交叉验证阶段出现的数据泄露,容易产生过拟合,Blending直接使用不相交的数据集用于不同层的训练,通俗的理解就是不做交叉验证,而是将训练集分成3:7两个部分,70%作为训练集,对30%验证集和测试集进行预测,第二层是对30%验证集的预测结果进行训练,不存在数据泄露的问题。但是存在30%验证集数量较少,容易过拟合的问题,所以在实际融合中,使用Stacking还是Blending是有很多Trick的。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Fighting_1997

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值