在训练网络的时候,验证集误差是比测试集误差低还是高? | 社区问答

转载 2017年12月21日 00:00:00

?wxfrom=5&wx_lazy=1

这里是 AI 研习社,我们的社区已经正式推出了!欢迎大家来多多交流~

mooc.ai/bbs

(戳文末阅读原文直接进)

社长为你推荐来自 AI 研习社问答社区的精华问答。如有你也有问题,欢迎进社区提问。 

一个小介绍:

社区目前主要功能是问答博客,支持文字、图片、视频、代码、公式、超链接,这些功能可以让你在描述问题 / 回答问题 / 写文章的时候用最清晰的方式来表达,还需要什么你说,我改


  话不多说,直接上题  


问:在训练网络的时候,验证集误差是比测试集误差低还是高?

一个好的训练网络是不是验证集误差比训练集误差低?


来自社友的回答

▼▼▼  

@于建国 YJango  

一般而言,训练集 loss < 验证集 loss < 测试集 loss。

因为网络 [已见过] 所有训练集 samples,故最低。而网络用验证集作为反馈来调节参数,相当于参考了验证集 samples 中的信息(间接 [已见过])。又因为网络没有任何测试集的信息,所以测试结果一般而言最差。

不过这都不是绝对的,有不符合这个一般现象的 task,而我们不可以说哪种情况更 “好”

@MicoonZhang    

其实你这个问题就是个伪命题,如果我们刻意的去在训练集上拟合模型,使其准确率达到很高的高度,或者说尽量在验证集合上表现的好,都是相悖的

因为我们不能为了某一特定数据集来刻意拟合,因为模型预测数据是不一定就在这个训练或者验证集合的空间中

还有,如果这个 model 预测集合 acc20%  训练集合 acc19% ,那么这个模型肯定是不好的。

那么如何选取一个较为理想的 medel?

首先,要有一个期望的准确率,通过不同模型的实验,找到最能接近的

然后,选定模型后进行参数调优

 那么我们要尽可能的提高 model 的准确率,同时提高其泛化的能力,不能单一看某一指标,此时可参考 准确率、召回率、虚警率、F1Score 等指标综合评判。或者采用多重验证随机划分训练、预测、验证集合,多次随机后找到最优参数。

有时候训练集合误差很低,但是泛化能力极差,产生过拟合,

有时候验证集合误差很低,但是可能验证集合无法代表所有的样本,有特殊性或者其他异常点较多

所以模型问题不能单一从你这两点来评判。

@xiaoyangyang  

一个好的网络,二者的差距应该是很低的。但一般情况下因为网络不可避免地存在一定程度上的过拟合,所以肯定是 train_loss 低于 test_lost,但如果低太多,就得考虑是过拟合的问题还是因为样本的特征空间不统一的问题。

@Chernopolsky  


多数情况验证集上错误率更低一点。因为是选择在验证集上准确率最高的模型来进行测试。考虑到数据的随机性,在验证集上准确率最高的模型在测试集上不一定是最高的,所以算出来的指标通常验证集会比测试集上好一点。

但是实际情况下都有可能,特别是数据量不太大的时候。样本集合的数据也只是近似整体的分布,肯定会有波动。


?

bicdMLzImlibSysm7dE4CiaMAJYvKAWs2oCMdQu4D99SA8eAbf967UfBKb3IyJXuEm99Nq7hRiaE7aPD7jhwnJp8icg



新人福利



关注 AI 研习社(okweiwu),回复  1  领取

【超过 1000G 神经网络 / AI / 大数据,教程,论文】


如果你有更好的答案,点击阅读原文分享你的观点~

▼▼▼  

偏差,方差,训练误差,测试误差的区别

偏差,方差,训练误差,测试误差的区别
  • MosBest
  • MosBest
  • 2016年05月22日 23:23
  • 6178

(尤其是训练集验证集的生成)深度学习 tensorflow 实战(2) 实现简单神经网络以及随机梯度下降算法S.G.D

在之前的实战(1) 中,我们将数据清洗整理后,得到了'notMNIST.pickle'数据。 本文将阐述利用tensorflow创建一个简单的神经网络以及随机梯度下降算法。 [ja...
  • u010159842
  • u010159842
  • 2017年03月06日 11:15
  • 2239

机器学习中的训练集,验证集及测试集的关系

 机器学习中的训练集,验证集及测试集的关系                          作者同类文章X ...
  • starzhou
  • starzhou
  • 2016年08月23日 16:51
  • 3993

在训练网络的时候,验证集误差是比测试集误差低还是高? | 社区问答

这里是AI研习社,我们的社区已经正式推出了!欢迎大家来多多交流~ mooc.ai/bbs (戳文末阅读原文直接进) 社长为你推荐来自AI研习社问答社区的精华问答。如有你也有问题,欢迎...
  • Y0W1as5eg37urFdS
  • Y0W1as5eg37urFdS
  • 2017年12月11日 00:00
  • 153

神经网络-训练集 验证集 测试集

转载自:http://stackoverflow.com/questions/2976452/whats-is-the-difference-between-train-validation-and-...
  • Striker_V
  • Striker_V
  • 2016年09月18日 09:22
  • 1465

[DeeplearningAI笔记]改善深层神经网络1.1_1.3深度学习实用层面_偏差/方差/欠拟合/过拟合/训练集/验证集/测试集

觉得有用的话,欢迎一起讨论相互学习~Follow Me1.1 训练/开发/测试集对于一个数据集而言,可以将一个数据集分为三个部分,一部分作为训练集,一部分作为简单交叉验证集(dev)有时候也成为验证集...
  • u013555719
  • u013555719
  • 2017年10月18日 20:54
  • 207

训练集(train set) 验证集(validation set) 测试集(test set)

转载自http://www.cnblogs.com/xfzhang/archive/2013/05/24/3096412.html,仅用作学习。 在有监督(supervise)的机器学习中,数据集常...
  • qq_27245709
  • qq_27245709
  • 2016年09月23日 15:23
  • 556

训练集、验证集与测试集回顾总结

在 NG 的课程、西瓜书以及 Goodfellow 的 《DeepLearning》 书中都有提到:最佳的数据划分是将数据分为三部分,分别为训练集(trainning set),验证集(validat...
  • huangfei711
  • huangfei711
  • 2017年12月17日 13:09
  • 243

1.1 图像分类:数据驱动的方法,k-近邻,划分训练集/验证集/测试集

1.1 图像分类:数据驱动的方法,k-近邻,划分训练集/验证集/测试集本文是对斯坦福大学“CS231n:用于视觉识别的卷积神经网络”课程笔记的翻译。模块1:神经网络 第1部分:图像分类:数据驱动的方...
  • xsugus
  • xsugus
  • 2017年12月12日 14:04
  • 391

[数学理论]不同分布训练集、验证集、测试集处理

当训练集、验证集(开发集)、测试集来源不同,即分布不同时。需要对其进行处理。 如上图所示:测试集数据来源于网上清晰图像,而验证集、测试集数据来源于业余人士手机拍照照片。 假设网上下载的照片数据...
  • LuohenYJ
  • LuohenYJ
  • 2017年10月25日 22:27
  • 94
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:在训练网络的时候,验证集误差是比测试集误差低还是高? | 社区问答
举报原因:
原因补充:

(最多只允许输入30个字)