过拟合的原因以及如何解决

最新推荐文章于 2022-10-25 16:08:46 发布

我对算法一无所知

最新推荐文章于 2022-10-25 16:08:46 发布

阅读量4.8k

点赞数 4

分类专栏：历程机器学习算法文章标签：机器学习深度学习神经网络正则化

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_31267769/article/details/106598608

版权

历程同时被 2 个专栏收录

21 篇文章 2 订阅

订阅专栏

机器学习算法

20 篇文章 4 订阅

订阅专栏

如何判断过拟合？

简单来说就是当模型在训练集上的表现效果非常好，并且远好于在测试集上的表现效果，那基本就是过拟合了。如果在训练集上表现都不好，很可能是欠拟合，，，

过拟合的原因？

1. 数据特征过多，而数据量不足。对于回归类的算法而言，特征越多意味着参数数量越多，模型也就越复杂，而相比之下如果数据量不足会导致过拟合，也就是模型复杂度与数据量不匹配。

2. 训练集和测试集的数据特征、分布不够相似，这一点根本原因也是训练集过小，在总体样本中，训练集和测试集只占很小一部分，这就导致很难保证训练集和测试集与总体的数据分布相似，更难保证训练集与测试集分布相似，这样会导致模型充分学习了训练集的特征而过拟合，这样模型的泛化能力肯定是不够的。

3.训练过度。当模型对训练集训练过度，模型充分学习这个数据集上的所有数据特征，这样会对噪声和离群值异常值过分敏感，从而导致过拟合。

如何解决？

1. 针对第一点，可以删去一些无用特征，这样可以减少模型的参数，降低模型复杂度。

2. 扩充数据集。比如某个训练集的数据全部为正数，而理论上数据集可以取到全体实数，并且正负分布相同，那我们可以对数据集取负，对于计算机视觉常见的手段就是对训练集的图像旋转，放缩，剪切等。

3. Early Stopping。针对第三点，当模型的准确度不发生变化的时候及时停止训练，可以有效防止过度训练。

4. 正则化。正则化相当于对模型的优化添加约束条件，可以看作是一个惩罚项，通过添加不同的正则项可以实现不同的效果。

5. dropout。dropout是一种在神经网络中常用的手段来防止模型过拟合，就是以一定的概率屏蔽到一部分神经元使他们在训练中跳过，从而降低模型复杂度。

如有错误联系更正。

我对算法一无所知

关注

4
点赞
踩
15

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。