过拟合与欠拟合简要总结

最新推荐文章于 2023-12-12 09:22:59 发布

打工人小飞

最新推荐文章于 2023-12-12 09:22:59 发布

阅读量9.4k

点赞数 5

分类专栏：深度学习数理统计 & 数据挖掘人工智能文章标签：深度学习机器学习过拟合欠拟合限制过拟合

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/huangfei711/article/details/72935333

版权

人工智能同时被 3 个专栏收录

42 篇文章 11 订阅

订阅专栏

33 篇文章 6 订阅

订阅专栏

数理统计 & 数据挖掘

25 篇文章 4 订阅

订阅专栏

在做深度学习实验时，有时候会出现实现结果令人寻味的现象，例如训练处的模型在训练集上的效果很好，而在测试集上效果较差等等。

过拟合

当某个模型过度的学习训练数据中的细节和噪音，以至于模型在新的数据上表现很差，我们称过拟合发生了。这意味着训练数据中的噪音或者随机波动也被当做概念被模型学习了。而问题就在于这些概念不适用于新的数据，从而导致模型泛化性能的变差。

简单理解就是训练样本的得到的输出和期望输出基本一致，但是测试样本输出和测试样本的期望输出相差却很大。为了得到一致假设而使假设变得过度复杂。

如下图所示：
这里写图片描述

想像某种学习算法产生了一个过拟合的分类器，这个分类器能够百分之百的正确分类样本数据（即再拿样本中的文档来给它，它绝对不会分错），但也就为了能够对样本完全正确的分类，使得它的构造如此精细复杂，规则如此严格，以至于任何与样本数据稍有不同的文档它全都认为不属于这个类别。

欠拟合

欠拟合指的是模型在训练和预测时表现都不好的情况。一个欠拟合的机器学习模型不是一个良好的模型并且由于在训练数据上表现不好这是显然的。

限制过拟合的方法

使用重采样来评价模型效能
保留一个验证数据集

最流行的重采样技术是 k 折交叉验证。指的是在训练数据的子集上训练和测试模型k次，同时建立对于机器学习模型在未知数据上表现的评估。

验证集只是训练数据的子集，你把它保留到你进行机器学习算法的最后才使用。在训练数据上选择和调谐机器学习算法之后，我们在验证集上在对于模型进行评估，以便得到一些关于模型在未知数据上的表现的认知。

对于机器学习，使用交叉验证在未知数据上进行验证模型效能是一种良好的标准。如果拥有数据，使用验证集也是一种良好的实践。

一句话概括：

过拟合：在训练数据上表现良好，在未知数据上表现差。
欠拟合：在训练数据和未知数据上表现都很差。

打工人小飞

关注

5
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。