过拟合的解决方法

最新推荐文章于 2024-01-04 00:01:46 发布

qq_32801595

最新推荐文章于 2024-01-04 00:01:46 发布

阅读量2.6k

点赞数

分类专栏：深度学习 Python tensorflow

本文链接：https://blog.csdn.net/qq_32801595/article/details/80539114

版权

深度学习 Python tensorflow 专栏收录该内容

10 篇文章 0 订阅

订阅专栏

一、 data augmentation
过拟合原因就是训练样本的缺乏和训练参数的增加。一般要想获得更好的模型，需要大量的训练参数，如果训练样本缺乏多样性，就造成了过拟合。data augmentation的手段一般有： 1）收集更多数据 2）对已有数据进行crop，flip，加光照等操作 3）利用生成模型（比如GAN）生成一些数据。
二、weight decay
常用的weight decay有L1和L2正则化
三、提前终止
提前停止其实是另一种正则化方法，就是在训练集和验证集上，一次迭代之后计算各自的错误率，当在验证集上的错误率最小，在没开始增大之前停止训练，因为如果接着训练，训练集上的错误率一般是会继续减小的，但验证集上的错误率会上升，这就说明模型的泛化能力开始变差了，出现过拟合问题，及时停止能获得泛化更好的模型。
四、dropout
CNN训练过程中使用dropout是在每次训练过程中随机将部分神经元的权重置为0，即让一些神经元失效，这样可以缩减参数量，避免过拟合，关于dropout为什么有效，有两种观点：1）每次迭代随机使部分神经元失效使得模型的多样性增强，获得了类似多个模型ensemble的效果，避免过拟合 2）dropout其实也是一个data augmentation的过程，它导致了稀疏性，使得局部数据簇差异性更加明显，这也是其能够防止过拟合的原因。
但是这种优化方法有很大的缺点。因为提前停止训练，也就是停止优化训练集的误差，通常情况下，在验证集误差达到最小值时，训练集误差还未处于一个足够小的值。从而使得该模型虽然没有出现过拟合现象，却是出现了欠拟合的情况。当然，这种优化方法还是有着表现优异的使用场景的。