《Dropout Reduces Underfifitting》

最新推荐文章于 2024-10-01 23:00:34 发布

小杨小杨1

最新推荐文章于 2024-10-01 23:00:34 发布

阅读量89

点赞数

分类专栏： # 非模型优化文章标签：机器学习神经网络深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_45745941/article/details/129356248

版权

非模型优化专栏收录该内容

26 篇文章 0 订阅

订阅专栏

本文探讨了Dropout如何在神经网络训练中减少欠拟合，发现dropout在早期能降低小批量梯度的方向方差，使模型在更一致的方向上更新。提出早期dropout和后期dropout策略，前者在训练初期使用dropout，后期不使用，后者相反，旨在平衡模型的欠拟合与过拟合问题。实验表明，这些策略可以改善模型的训练损失和泛化能力。

摘要由CSDN通过智能技术生成

《Dropout Reduces Underfifitting》

摘要：

dropout：一种防止神经网络过拟合的正则化器
在早期阶段，发现dropout减少了小批间梯度的方向方差，并有助于将小批梯度与整个数据集的梯度对齐，有助于抵消SGD的随机性
本文找到了一种改善欠拟合模型早期dropout的性能的解决方案：
- 在训练的初始阶段应用dropout，后面不使用
- 与没有dropout的模型相比，早期使用dropout模型的最终训练损失更低
- 探索了一种正则化过拟合模型的对称技术—— late dropout（早期迭代中不使用dropout，仅在训练后期激活）

引言：

Dropout已被广泛采用作为正则化来缓解神经网络中的过拟合。
以概率p随机停用每个神经元，防止不同的特征相互协同适应
应用dropout后，训练损失增加，测试误差减小，模型泛化差距缩小。

研究动机：

可用训练数据的爆炸式增长，这使得过拟合越来越困难
很快就会遇到更多欠拟合而不是过拟合的问题
通过对梯度规范进行观察:在训练的初始阶段，dropout减少了小批量的梯度方差并允许模型在更一致的方向上更新，这些方向也与整个数据集的梯度方向更一致

本文工作：

early dropout：dropout仅在早期训练中使用，以帮助欠拟合模型更好地拟合
late dropout：对于已经使用标准dropout的模型，建议在早期训练阶段去除dropout，以减轻过拟合

Dropout如何减少欠拟合

梯度准则

通过调查dropout对梯度g强度的影响来分析
通过L2范数||g||2来衡量。
对于dropout模型，测量整个模型的梯度，即使权重的子集可能由于dropout而失效。

带有dropout的模型具有较小的梯度幅度，但在参数空间中移动的距离较大。

模型的距离（Model distance）

作者举例：

让我们想象两个人在走路。一个人大步走，另一个人小步走。尽管如此，步幅较小的人在同一段时间内从起点走的距离更大。

为什么?这可能是因为这个人朝着一个更一致的方向走，而步伐较大的人可能是随机的、蜿蜒的步伐，在任何一个特定的方向上都没有取得太大的进展

梯度方向方差

假设：dropout模型在小批量中产生了更一致的梯度方向

测试方法;通过在随机选择的批次上训练模型检查点来收集一组小批梯度G。然后，通过计算平均成对余弦距离来测量梯度方向方差(GDV):

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

直到特定的迭代(大约1000次)，退出模型显示一个较低的梯度方差，并在一个更一致的方向移动

在这里插入图片描述

梯度方向误差

基本目标是最小化整个训练集的损失，而不仅仅是任何单个小批量的损失

方法：评估实际的小批量梯度g step与整个数据集“ground-truth”梯度g的距离

在大约1000次迭代之后，dropout模型产生的梯度更远。这可能是减少欠拟合向减少过拟合过渡的转折点

在这里插入图片描述

偏置方差权衡

对于无dropout模型，SGD mini-batch处理提供了对整个数据集梯度的无偏估计，因为mini-batch处理梯度的期望等于整个数据集梯度。
但是，在dropout的情况下，由于小批量梯度是由不同的子网络生成的，其期望梯度可能与整个网络的梯度不匹配，估计或多或少会产生偏差。
然而，梯度方差显著减小，导致梯度误差减小。
直观地说，方差和误差的减少有助于防止模型过度拟合到特定批次，特别是在训练的早期阶段，当模型发生重大变化时。

方法

欠拟合和过拟合

在这项工作中，我们使用以下标准，并发现它是有效的，

如果一个采用standard dropout模型的泛化更好，认为它是在一个过拟合的区域;
如果模型在没有dropout的情况下表现更好，我们认为它处于欠拟合状态。
模型所处的状态不仅取决于模型架构，还取决于所使用的数据集和其他训练参数

Early dropout

早期dropout:在某个迭代之前使用dropout，然后在剩余的训练中禁用它

Late dropout

在训练的早期阶段，dropout可能会无意中导致过拟合，这是不可取的。

为了减少过拟合，提出了延迟dropout:在某个迭代之前不使用dropout，然后在剩余的训练中使用它。

这是一种针对早期辍学的对称方法

Hyper-parameters

epochs开启dropout的位置，第几个epoch
drop rate

结果分析

Scheduling strategies

现有的dropout调度策略对于欠拟合是无效的

Early dropout scheduling

在早期阶段如何安排p仍然是一个问题。我们的实验默认使用从初始值p到0的线性递减时间表。
一个更简单的替代方法是使用常量。
考虑通常用于学习率计划的余弦递减计划也是有用的。
这表明早期退学并不依赖于一个特定的时间表。

Training curves

Dropout epochs

默认情况下，我们使用50个epoch。

结果如图所示，是基于使用不同随机种子的3次运行的平均值。

结果表明，少则5个，多则300个，总共有600个。这种鲁棒性使得早期退出在实际环境中易于采用。

在这里插入图片描述

Drop rates

在这里插入图片描述

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

小杨小杨1 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。