一文弄懂：训练集、测试集、验证集

最新推荐文章于 2025-02-23 12:49:44 发布

莱维贝贝、

最新推荐文章于 2025-02-23 12:49:44 发布

阅读量7.1k

点赞数 6

分类专栏：机器学习与深度学习算法文章标签：机器学习神经网络深度学习

本文链接：https://blog.csdn.net/A496608119/article/details/115856755

版权

机器学习与深度学习算法专栏收录该内容

30 篇文章

订阅专栏

训练集：训练集的数据来训练模型
测试集：用测试集的数据来测试模型，通过测试集来评估你的模型，就可以得到对这个误差的评估
验证集：当使用正则化等算法防止过拟合时，需要用验证集得到最佳的超参数和模型

了解一个模型对于新场景的泛化能力的唯一办法就是，让模型真实地去处理新场景。做法之一是将其部署在生产环境，然后监控它的输出。这个方法用起来不错，不过如果模型非常糟糕，你的用户就会抱怨——所以这显然不是最好的办法。
更好的选择是将你的数据分割成两部分：训练集和测试集。顾名思义，你可以用训练集的数据来训练模型，然后用测试集的数据来测试模型。应对新场景的误差率称为泛化误差（或者样例外误差），通过测试集来评估你的模型，就可以得到对这个误差的评估。这个估值可以告诉你，你的模型在处理新场景时的能力如何。 （通常使用80％的数据进行训练，保留另外的20％来做测试）
如果训练误差很低（模型对于训练集来说很少出错），但是泛化误差很高，那说明你的模型对于训练数据存在过度拟合。

验证集

所以评估一个模型很简单：用测试集就行了。现在假设你在两个模型（一个线性模型和一个多项式模型）之间犹豫不决：如何做出判断呢？做法是训练两个模型，然后对比它们对测试数据的泛化能力。
现在让我们假设线性模型的泛化能力更强，但是你想要应用一些正则化来避免过度拟合。问题又来了，你要如何选择正则化超参数的值呢？做法之一是使用100个不同的超参数值来训练100个不同的模型。然后假设你由此找到了最佳的超参数值，它生成的模型泛化误差最小，比如仅仅5%。然后你将这个模型运行在生产环境，可是很不幸，它并没有如预期那样工作，反而产生了15%的误差。这到底发生了什么？
问题出在你对测试集的泛化误差进行了多次度量，并且调整模型和超参数来得到拟合那个测试集的最佳模型。这意味着该模型对于新的数据不太可能有良好的表现。
常见的解决方案是再单独分出来一个保留集合，称为验证集。在训练集上，使用不同的超参数训练多个模型，然后通过验证集，选择最好的那个模型和对应的超参数，当你对模型基本满意之后，再用测试集运行最后一轮测试，并得到泛化误差的估值。

为了避免验证集“浪费”太多的训练数据，常见的技术是使用交叉验证：将训练集分成若干个互补子集，然后每个模型都通过这些子集的不同组合来进行训练，之后用剩余的子集进行验证。 一旦模型和超参数都被选定，最终的模型会带着这些超参数对整个训练集进行一次训练，最后再用测试集测量泛化误差。