- stacking
第一层:n个模型
数据量为M,首先把数据分为K份,一般为5,也就是5折;
为了方便理解,假设n=3, M=1000。测试集为300
对于第一个模型:
在里面进行五折交叉验证,利用其中四折训练,预测另外一折,得到维度为:(200,1)
同时预测测试集,维度(300,1)
五折交叉完后,可以得到维度为:(1000,1)的向量
测试集的预测值维度(300,5),取平均值得到(300,1)
对于其他模型也一样,最终可以得到(1000,3)的新训练集特征和(300,3)的测试集特征
第二层:LR或者其他模型
重新训练得到最终预测结果。
- blending
第一层:n个模型
数据量为M,首先把数据分为两部分,55开,一半训练,一半预测;
假设n=3, M=1000。测试集为300
对于第一个模型:
500个数据训练,然后预测500个验证集,得到(500,1)
同时预测测试集,得到(300,1)
对于其他模型也一样,最终可以得到(500,3)的新训练集特征和(300,3)的测试集特征
第二层:LR或者其他模型
重新训练得到最终预测结果。