【学习笔记】验证集

这章与其他章不同,开头就给出了我们一个问题,并且称为“检查您的直觉”。与其说,谷歌在检查我们的直觉,不如说,谷歌在检查我们学习后有没有经过思考。如果只是一味的接收新的东西(机器学习概念以及一些代码的用法)。而不去思考这些结构问题的话,可能对我们并没有什么好处。

原文在这里提出了一个尖锐的问题,如果我们针对训练集修改超参数,如果迭代多次的话,我们会不会不经意见拟合了训练集。

虽然我们这里并没有直接用验证集去进行梯度计算,但是我们的修改方向却是降低验证集的loss。在不知不觉中,我们很可能拟合了训练集(因为训练集并没有参与训练,这里说拟合了训练集中的数据个人感觉不恰当,不如说我们的模型更适合训练集,因此对于未出现在训练集的数据可能表现并不好。不过原文说是拟合了训练集的特性,个人感觉这里是非常恰当的)。

既然过拟合可能不仅仅是过拟合了数据,还有可能对整个集合的特征过拟合,这样我们有没有办法排除这种过拟合呢?

 

原文这里给了我们一个思路:

将数据集划分为两个子集是个不错的想法,但不是万能良方。通过将数据集划分为三个子集(如下图所示),您可以大幅降低过拟合的发生几率”(降低几率并不代表不会发生)。

 

与之前的方法类似,经过测试集的反馈多次迭代后,用验证集验证模型。(文中用 验证集反馈,用测试集验证,这个顺序就是名字罢了)。

在这一经过改进的工作流程中:

  1. 选择在验证集上获得最佳效果的模型。
  2. 使用验证集再次检查该模型。

该工作流程之所以更好,原因在于它暴露给验证集的信息更少(因为我们只有将模型训练好后才会用到验证集的数据)。

下一篇又到了我们喜闻乐见的编程练习阶段,回想一下这已经是第四次读这篇教程了(前三次跳过了编程阶段),现在来看编程练习还是必不可少的,虽然我们写代码的方式可能与文中不一致(读别人的代码确实很烦)。但是文章中不仅给出了代码,更给出了每一步是想要做什么,我们也可以用自己的方式构建框架。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值