模型融合
Model ensembling
Creating ensembles from submission files
在这种方法中,你只需要测试集的预测结果,而不需要重新训练模型,优点是方便、快捷,尤其是在团队合作的时候体现较多。
Voting ensembles
使用多数投票原则,适用于二(多)分类问题。70% accuracy的模型经过3个分类器融合,准确率可以提高到78%。这种方法是随着数量增多,准确率可以一直提高的。
技巧:
在多种模型结果中,只取那些相互之间结果相关性较低的模型们(这样的模型准确率往往不会很好)的结果做平均融合,效果会很好,那些相关性较高的可以抛弃掉。
1111111100 = 80% accuracy
1111111100 = 80% accuracy
1011111100 = 70% accuracy
1111111100 = 80% accuracy
1111111100 = 80% accuracy
0111011101 = 70% accuracy
1000101111 = 60% accuracy
1111111101 = 90% accuracy
加权Weighing
好模型计数3次,差模型4个,各计数1次。
比较来说,加权>分数最高单模型>平均投票
但请记住,平均投票也可以取得很好的效果,它可以很好的减少过拟合,所以也要优先尝试。
- 平均除了单纯的算术平均之外,还有一种几何平均方法,而且一般由于算术平均。详见维基https://zh.wikipedia.org/wiki/%E5%87%A0%E4%BD%95%E5%B9%B3%E5%9D%87%E6%95%B0
- 排序平均 rank averaging:
如上图,求出每种结果的排名,然后求排名的平均,最后将平均归一化,得出最后的预测结果。
blending:
Blending的时候要注意,中间过程中,使用要保证有一部分数据的label是不参与训练的!
stacking:
二层stacking时分为线性和非线性。