为什么会过拟合?判断依据?训练集验证集和测试集之间的关系?

在学深度学习的过程中,突然就蹦出这么个疑问,总提到过拟合过拟合,那什么是过拟合?又为什么会出现过拟合呢?

首先,给出官方的定义:
给定一个假设空间H,一个假设h属于H,如果存在其他的假设h’属于H,使得在训练样例上h的错误率比h’小,但在整个实例分布上h’比h的错误率小,那么就说假设h过度拟合训练数据。

如果你不知道你理解的是否正确,我通俗的给你讲下:
就是说在一个空间中,有一个假设h,和一个假设h’,在训练集上,h的错误率比h’低,这时候你就会认为h是比较好的。但实际上在整个实例分布中h’的错误率是比h低的,也就是说h’才是我们想要的,你以为的h并不是最好的,这种现象被称为过拟合。

可能你还会有疑问,训练集和整个实例之间是怎样的一种关系呢?
答:
对于一个模型,需要训练集(training set)、验证集(validation set)和测试集(test set)。
首先是训练集,如果将你的模型比作考生,那训练集就是你平时做的训练,像习题集、练习册等等。在这部分,你当然是希望做的越多越好,因为做的越多,理论上你学到的东西就会越多,在最后的考试中你就会表现得更好。
接着是验证集,所谓的验证集,可以理解为正式考试之前的模拟考试。在这部分通常做的工作就是确定最终的模型是什么样子的,换句话说,就是想要找到考生最好的一种状态去参加最后的考试。举个例子,我们可能之前训练了许多个模型,那哪个模型效果更好呢?在验证集上跑跑试试就知道了;或者是,一个模型中可能会存在许多的超参数,也就是我们无法实现确定的一些参数,像训练的轮数。我们在训练集上训练5轮或者训练8轮,可能跑出来是完全不同的两个模型。那怎么知道哪个更好呢?在验证集上试试就知道了。
最后是测试集,也就是我们打比方中的最后一张试卷,是好是坏都看这一张卷子了。那理论上来说,我们是希望测试集和训练集和验证集之间是完全没有重叠的。因为训练集是平时的训练,验证集呢是我们的模拟考试,模拟考试肯定不希望出训练里的原题给你,那样会让你产生你很强的一种错觉。那测试集呢,就更不希望又重复了。就像高考一样,肯定是你从未见过的题,这样得到的最后的分数才是有意义的、才是具有可比性的。
同样的,比较两个模型的好坏,在同一个测试集上才有意义。理论上说,两者的训练集验证集和测试集都一样是最有说服力的。

言归正传,为什么会出现过拟合呢?
通常的原因有以下几点:
(1)建模样本选取有误、样本标签错误等,导致样本数据不足以代表预定的分类规则;
(2)样本噪音干扰过大,使得机器将学习了噪音,并误以为是特征,从而使得预设的分类规则产生错误;
(3)假设的模型无法合理存在;
(4)参数太多,模型复杂度过高

那如何判断是否过拟合呢?
模型在验证集合上和训练集合上表现都很好,而在测试集合上变现很差。

  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值