机器学习任务中,最终目标是最小化模型在测试集(test dataset)上的错误(error)。在只有训练数据情况下,我们想模拟“训练”—>“测试”这一过程,即利用一部分数据集进行训练,再在另一部分数据集上进行假想测试。由于测试的数据集是属于训练数据的一部分,有label来验证测试结果,故能给建模调参提供依据,这部分带有label的测试数据叫做验证集(validation dataset)。每次按不同方式切分训练集和验证集,然后重复上述过程,称为交叉验证。cv原理与实现的参考链接如下:
Python scikit-learn机器学习工具包学习笔记:cross_validation模块 - yeting067的专栏 - CSDN博客