验证集和测试集有什么区别？

最新推荐文章于 2024-03-30 16:29:35 发布

ZhangJingHuaJYO

最新推荐文章于 2024-03-30 16:29:35 发布

阅读量1.1w

点赞数 7

分类专栏：深度学习文章标签：神经网络深度学习机器学习

原文链接：https://mp.weixin.qq.com/s?__biz=MzkzODI1NzQyNA==&mid=2247485080&idx=1&sn=ae7fe71975e135d5cc64e3a24ee53593&chksm=c283bbe7f5f432f199858a0d3933c841a9ed214cd86e73dc7aabe71a04f912be8ed4755926a2&mpshare=1&scene=1&srcid=0112eEhTwyxcuaMZvvfK5KOm&sharer_sharetime

版权

深度学习专栏收录该内容

7 篇文章 5 订阅

订阅专栏

引言

在神经网络学习中，经常会很困惑：
我们需要将原始数据集拆分为三份：训练集、验证集和测试集.但是我也注意到在有些机器学习算法中，数据集往往被拆分为两份：训练集和测试集。
在这里插入图片描述

所以我们的问题归纳如下：
对于神经网络来说真的需要验证集嘛？验证集是可选的嘛？
进一步来说，在机器学习领域验证集和测试集的区别是什么？

解释一

训练集 （训练阶段）
用于构建我们的模型，我们的模型在训练集上进行学习，通常在这个阶段我们可以有多种方法进行训练

验证集 （模型挑选阶段）
用于挑选最优模型超参的样本集合：使用验证集可以得到反向传播什么时候结束以及超参怎么设置最合理。主要目的是为了挑选在验证集上表现最好的模型。

测试集 （验证阶段评估泛化误差）
在我们挑选好验证集上表现最好的模型之后，用于评估该模型泛化能力的数据集

一般来说，上述三个数据集的比例为60/20/20.

那么验证集和测试集到底有什么区别？
简单来说，模型在验证集上的表现是有偏估计，虽然训练模型的时候没有用到验证集上的数据，但是我们在挑选模型时，还是间接地泄露了验证集的相关信息：我们让模型知道怎么样的参数设置会让它在该数据集上表现良好或者表现差劲。此时和模型训练挑选过程完全独立的测试集此时就变得更加重要了，它往往代表着模型在真实世界应用场景下模型的泛化表现能力。

解释二

一般来说，在监督学习领域，您需要两种类型的数据集：
在第一个数据集中，我们拥有输入数据以及正确/预期的输出；该数据集通常由人工或通过以半自动方式收集而来。但是我们必须在此数据集上获得每个数据的预期输出，因为我们需要它来进行相关的监督学习。
我们预期要将模型应用到的数据集。在许多情况下，这是我们对模型输出感兴趣的数据，因此我们还没有任何“预期”的输出（即没有真值标注）。
在这里插入图片描述
但是在机器学习领域，我们往往这么做：
训练阶段：我们准备标注好的数据，通过输入数据比较预期输出正常训练模型
验证阶段：为了估计我们模型的训练效果（这取决于训练数据集的大小、我们想要的预测值等）并估计模型属性（回归模型的平均误差、分类模型的分类误差、召回率和准确率等）