出现过拟合的根本原因是什么？

最新推荐文章于 2022-10-25 16:08:46 发布

往事如yan

最新推荐文章于 2022-10-25 16:08:46 发布

阅读量3k

点赞数 2

分类专栏：深度学习进阶深度学习概念

本文链接：https://blog.csdn.net/txpp520/article/details/105934234

版权

深度学习概念同时被 2 个专栏收录

27 篇文章 8 订阅

订阅专栏

深度学习进阶

24 篇文章 2 订阅

订阅专栏

数据层面：

我的两方面理解：
1 观察值与真实值存在偏差：
训练样本的获取，本身就是一种抽样。抽样操作就会存在误差，也就是你的训练样本取值 X，
X = x(真值) + u（随机误差)，
机器学习的优化函数多为 min Cost函数，自然就是尽可能的拟合 X，而不是真实的x,所以就称为过拟合了，实际上是学习到了真实规律以外的随机误差。
举个例子说，你想做人脸识别，人脸里有背景吧，要是你这批人脸背景A都相似，学出来的模型，见到背景A，就会认为是人脸。这个背景A就是你样本引入的误差。

2 数据太少，导致无法描述问题的真实分布
@greatmanqss 已经表述了
举个例子，投硬币问题是一个二项分布，但是如果你碰巧投了10次，都是正面。那么你根据这个数据学习，是无法揭示这个规律的，根据统计学的大数定律（通俗地说，这个定理就是，在试验不变的条件下，重复试验多次，随机事件的频率近似于它的概率），当样本多了，这个真实规律是必然出现的。

为什么说数据量大了以后就能防止过拟合，数据量大了，
问题2，不再存在，
问题1，在求解的时候因为数据量大了，求解min Cost函数时候，模型为了求解到最小值过程中，需要兼顾真实数据拟合和随机误差拟合，所有样本的真实分布是相同的（都是人脸），而随机误差会一定程度上抵消（背景），