为什么会过拟合？判断依据？训练集验证集和测试集之间的关系？

小飞猪Jay

已于 2022-09-15 19:19:32 修改

阅读量1.5k

点赞数 1

分类专栏：深度学习零碎知识点文章标签：深度学习机器学习 python

于 2022-09-15 19:12:15 首次发布

本文链接：https://blog.csdn.net/qq_43504141/article/details/126877344

版权

零碎知识点同时被 2 个专栏收录

70 篇文章 5 订阅

订阅专栏

深度学习

12 篇文章 4 订阅

订阅专栏

在学深度学习的过程中，突然就蹦出这么个疑问，总提到过拟合过拟合，那什么是过拟合？又为什么会出现过拟合呢？

首先，给出官方的定义：
给定一个假设空间H，一个假设h属于H，如果存在其他的假设h’属于H,使得在训练样例上h的错误率比h’小，但在整个实例分布上h’比h的错误率小，那么就说假设h过度拟合训练数据。

如果你不知道你理解的是否正确，我通俗的给你讲下：
就是说在一个空间中，有一个假设h，和一个假设h’，在训练集上，h的错误率比h’低，这时候你就会认为h是比较好的。但实际上在整个实例分布中h’的错误率是比h低的，也就是说h’才是我们想要的，你以为的h并不是最好的，这种现象被称为过拟合。

可能你还会有疑问，训练集和整个实例之间是怎样的一种关系呢？
答：
对于一个模型，需要训练集(training set)、验证集(validation set)和测试集(test set)。
首先是训练集，如果将你的模型比作考生，那训练集就是你平时做的训练，像习题集、练习册等等。在这部分，你当然是希望做的越多越好，因为做的越多，理论上你学到的东西就会越多，在最后的考试中你就会表现得更好。
接着是验证集，所谓的验证集，可以理解为正式考试之前的模拟考试。在这部分通常做的工作就是确定最终的模型是什么样子的，换句话说，就是想要找到考生最好的一种状态去参加最后的考试。举个例子，我们可能之前训练了许多个模型，那哪个模型效果更好呢？在验证集上跑跑试试就知道了；或者是，一个模型中可能会存在许多的超参数，也就是我们无法实现确定的一些参数，像训练的轮数。我们在训练集上训练5轮或者训练8轮，可能跑出来是完全不同的两个模型。那怎么知道哪个更好呢？在验证集上试试就知道了。
最后是测试集，也就是我们打比方中的最后一张试卷，是好是坏都看这一张卷子了。那理论上来说，我们是希望测试集和训练集和验证集之间是完全没有重叠的。因为训练集是平时的训练，验证集呢是我们的模拟考试，模拟考试肯定不希望出训练里的原题给你，那样会让你产生你很强的一种错觉。那测试集呢，就更不希望又重复了。就像高考一样，肯定是你从未见过的题，这样得到的最后的分数才是有意义的、才是具有可比性的。
同样的，比较两个模型的好坏，在同一个测试集上才有意义。理论上说，两者的训练集验证集和测试集都一样是最有说服力的。

言归正传，为什么会出现过拟合呢？
通常的原因有以下几点：
（1）建模样本选取有误、样本标签错误等，导致样本数据不足以代表预定的分类规则；
（2）样本噪音干扰过大，使得机器将学习了噪音，并误以为是特征，从而使得预设的分类规则产生错误；
（3）假设的模型无法合理存在；
（4）参数太多，模型复杂度过高

那如何判断是否过拟合呢？
模型在验证集合上和训练集合上表现都很好，而在测试集合上变现很差。