《Dropout Reduces Underfifitting》

本文探讨了Dropout如何在神经网络训练中减少欠拟合,发现dropout在早期能降低小批量梯度的方向方差,使模型在更一致的方向上更新。提出早期dropout和后期dropout策略,前者在训练初期使用dropout,后期不使用,后者相反,旨在平衡模型的欠拟合与过拟合问题。实验表明,这些策略可以改善模型的训练损失和泛化能力。
摘要由CSDN通过智能技术生成

《Dropout Reduces Underfifitting》

摘要:

  • dropout:一种防止神经网络过拟合的正则化器
  • 在早期阶段,发现dropout减少了小批间梯度的方向方差,并有助于将小批梯度与整个数据集的梯度对齐,有助于抵消SGD的随机性
  • 本文找到了一种改善欠拟合模型早期dropout的性能的解决方案:
    • 在训练的初始阶段应用dropout,后面不使用
    • 与没有dropout的模型相比,早期使用dropout模型的最终训练损失更低
    • 探索了一种正则化过拟合模型的对称技术—— late dropout(早期迭代中不使用dropout,仅在训练后期激活)

代码地址

引言:

  • Dropout已被广泛采用作为正则化来缓解神经网络中的过拟合。
  • 以概率p随机停用每个神经元,防止不同的特征相互协同适应
  • 应用dropout后,训练损失增加,测试误差减小,模型泛化差距缩小。
研究动机:
  • 可用训练数据的爆炸式增长,这使得过拟合越来越困难
  • 很快就会遇到更多欠拟合而不是过拟合的问题
  • 通过对梯度规范进行观察:在训练的初始阶段,dropout减少了小批量的梯度方差并允许模型在更一致的方向上更新,这些方向也与整个数据集的梯度方向更一致
    在这里插入图片描述
本文工作:
  • early dropout:dropout仅在早期训练中使用,以帮助欠拟合模型更好地拟合
  • late dropout:对于已经使用标准dropout的模型,建议在早期训练阶段去除dropout,以减轻过拟合

Dropout如何减少欠拟合

梯度准则
  • 通过调查dropout对梯度g强度的影响来分析
  • 通过L2范数||g||2来衡量。
  • 对于dropout模型,测量整个模型的梯度,即使权重的子集可能由于dropout而失效。


带有dropout的模型具有较小的梯度幅度,但在参数空间中移动的距离较大。

模型的距离(Model distance)

作者举例:

让我们想象两个人在走路。一个人大步走,另一个人小步走。尽管如此,步幅较小的人在同一段时间内从起点走的距离更大。

为什么?这可能是因为这个人朝着一个更一致的方向走,而步伐较大的人可能是随机的、蜿蜒的步伐,在任何一个特定的方向上都没有取得太大的进展

梯度方向方差

假设:dropout模型在小批量中产生了更一致的梯度方向

测试方法;通过在随机选择的批次上训练模型检查点来收集一组小批梯度G。然后,通过计算平均成对余弦距离来测量梯度方向方差(GDV):

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

直到特定的迭代(大约1000次),退出模型显示一个较低的梯度方差,并在一个更一致的方向移动

在这里插入图片描述

梯度方向误差

基本目标是最小化整个训练集的损失,而不仅仅是任何单个小批量的损失

方法:评估实际的小批量梯度g step与整个数据集“ground-truth”梯度g的距离

在大约1000次迭代之后,dropout模型产生的梯度更远。这可能是减少欠拟合向减少过拟合过渡的转折点

在这里插入图片描述

偏置方差权衡
  • 对于无dropout模型,SGD mini-batch处理提供了对整个数据集梯度的无偏估计,因为mini-batch处理梯度的期望等于整个数据集梯度。
  • 但是,在dropout的情况下,由于小批量梯度是由不同的子网络生成的,其期望梯度可能与整个网络的梯度不匹配,估计或多或少会产生偏差。
  • 然而,梯度方差显著减小,导致梯度误差减小。
  • 直观地说,方差和误差的减少有助于防止模型过度拟合到特定批次,特别是在训练的早期阶段,当模型发生重大变化时。

方法

欠拟合和过拟合

在这项工作中,我们使用以下标准,并发现它是有效的,

  • 如果一个采用standard dropout模型的泛化更好,认为它是在一个过拟合的区域;
  • 如果模型在没有dropout的情况下表现更好,我们认为它处于欠拟合状态。
  • 模型所处的状态不仅取决于模型架构,还取决于所使用的数据集和其他训练参数
Early dropout

早期dropout:在某个迭代之前使用dropout,然后在剩余的训练中禁用它

Late dropout

在训练的早期阶段,dropout可能会无意中导致过拟合,这是不可取的。

为了减少过拟合,提出了延迟dropout:在某个迭代之前不使用dropout,然后在剩余的训练中使用它。

这是一种针对早期辍学的对称方法

Hyper-parameters
  • epochs开启dropout的位置,第几个epoch
  • drop rate

结果分析

Scheduling strategies

现有的dropout调度策略对于欠拟合是无效的

Early dropout scheduling
  • 在早期阶段如何安排p仍然是一个问题。我们的实验默认使用从初始值p到0的线性递减时间表。
  • 一个更简单的替代方法是使用常量。
  • 考虑通常用于学习率计划的余弦递减计划也是有用的。
  • 这表明早期退学并不依赖于一个特定的时间表。
Training curves

Dropout epochs

默认情况下,我们使用50个epoch。

结果如图所示,是基于使用不同随机种子的3次运行的平均值。

结果表明,少则5个,多则300个,总共有600个。这种鲁棒性使得早期退出在实际环境中易于采用。

在这里插入图片描述

Drop rates

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

小杨小杨1

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值