Blending也是一种模型融合的方法,和Stacking过程很类似。
一、Blending流程图
二、算法步骤
1,原始训练数据集分割
将原始的训练数据集按照一定的比例分为训练数据集DT和验证(或者说测试)数据集DA。其中训练数据集的比例大概60-80%,如果这个比例太大的话,就会导致最终用于训练的数据样本数较少,因为最终用于训练的样本数就等于验证数据集的样本数数。预测数据集定义为DP。
2,构建模型阶段
假设要构建M个模型M1,M2,……MM。以模型Mi为例说明:对训练数据集DT进行学习,得到模型Mi。学习完毕后对验证数据DA的计算结果为DA_Mi,对预测数据集合的计算结果为DP_Mi。待M个模型全部建立完成后:
-
对验证数据得到的结果集合为DA_M1,DA_M2,……,DA_MM,其中每个结果序列都可看作一个新的特征