集成学习之优化基础模型
感谢Datawhale提供本次的学习机会。
在回归问题中,我们常用训练集去估计模型的参数,然后用测试集去预测。我们常会遇到的问题就是模型在训练集上的表现很好,但是在测试集上的表现却一般。我们所希望的是测试集与训练集的表现相近,或者说训练集优于测试集,这样我们所作的工作才是有意义的,我们可以从以下几个角度去考虑:
1.训练均方误差与测试均方误差:
在回归中,我们最常用的评价指标为均方误差,即:,其中是样本 Xi应用建立的模型f预测的结果。如果我们所用的数据是训练集上的数据,那么这个
误差为训练均方误差,如果我们使用测试集的数据计算的均方误差,我们称为测试均方误差。一般而言,我们并不关心模型在训练集上的训练均方误差,我们关心的是模型面对未知的样本集,即测试集上的测试误差,我们的目标是使得我们建立的模型在测试集上的测试误差最小。那我们如何选择一个测试误差最小的模型呢?这是个棘手的问题,因为在模型建立阶段,我们是不能得到测试数据的,比如:我们在模型未上线之前是不能拿到未知且真实的测试数据来验证我们的模型的。在这种情况下,为了简便起见,一些观点认为通过训练误差最小化来选择模型也是可行的。这种观点表面看上去是可行的,但是存在一个致命的缺点,那就是ÿ