深度学习基础21（Dropout）

NDNPOMDFLR

已于 2024-03-14 11:01:10 修改

阅读量2.4k

点赞数 2

分类专栏：深度学习文章标签： python 深度学习 pytorch 经验分享神经网络

于 2022-04-02 16:56:48 首次发布

本文链接：https://blog.csdn.net/lj_FLR/article/details/123924414

版权

丢弃法（Dropout）是一种防止深度学习模型过拟合的策略，通过在训练过程中随机关闭神经元来增加模型的泛化能力。本文详细介绍了丢弃法的工作原理、在神经网络中的应用以及如何从零开始实现丢弃层，同时探讨了在实际模型训练中的经验和技巧。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

丢弃法（Dropout）

我们为什么要使用丢弃法？

一个好的模型需要对输入数据的扰动鲁棒

丢弃法：在层之间加入噪音

无偏差加入噪音

对x加入噪音得到x’ 我们希望E[x’]=x，x的期望不变
丢弃法对每个元素进行如下扰动

在这里插入图片描述

这样可以保证x的期望不变

使用丢弃法

通常将丢弃法作用在隐藏全连接层的输出上

正则项只在训练中使用：只影响模型参数的更新

重新审视过拟合

当面对更多的特征而样本不足时，线性模型往往会过拟合。相反，当给出更多样本而不是特征，通常线性模型不会过拟合。

但线性模型泛化的可靠性是有代价的。线性模型没有考虑到特征之间的交互作用。

对于每个特征，线性模型必须指定正的或负的权重，而忽略其他特征。

泛化性和灵活性之间的这种基本权衡被描述为偏差-方差权衡（bias-variance tradeoff）。

线性模型有很高的偏差：它们只能表示一小类函数。然而，这些模型的方差很低：它们在不同的随机数据样本上可以得出相似的结果。

深度神经网络位于偏差-方差谱的另一端。

与线性模型不同，神经网络并不局限于单独查看每个特征，而是学习特征之间的交互。

例如，神经网络可能推断“尼日利亚”和“西联汇款”一起出现在电子邮件中表示垃圾邮件，但单独出现则不表示垃圾邮件。

扰动的稳健性

我们期待“好”的预测模型能在未知的数据上有很好的表现：经典泛化理论认为，为了缩小训练和测试性能之间的差距，应该以简单的模型为目标。简单性以较小维度的形式展现，比如在权重衰减（𝐿2正则化）时看到的那样， 参数的范数也代表了一种有用的简单性度量。

简单性的另一个角度是平滑性，即函数不应该对其输入的微小变化敏感。

研究者发现，当训练一个有多层的深层网络时，注入噪声只会在输入-输出映射上增强平滑性。

这个想法被称为丢弃法（dropout）。丢弃法在前向传播过程中，计算每一内部层的同时注入噪声，这已经成为训练神经网络的常用技术。

因为我们从表面上看是在训练过程中丢弃（drop out）一些神经元。

在整个训练过程的每一次迭代中，标准丢弃法包括在计算下一层之前将当前层中的一些节点置零。

需要说明的是，暂退法的原始论文提到了一个关于有性繁殖的类比：神经网络过拟合与每一层都依赖于前一层激活值相关，称这种情况为“共适应性”。作者认为，暂退法会破坏共适应性，就像有性生殖会破坏共适应的基因一样。

注入这种噪声以一种无偏向（unbiased）的方式。这样在固定住其他层时，每一层的期望值等于没有噪音时的值。

实践中的暂退法

通常，我们在测试时不用暂退法。给定一个训练好的模型和一个新的样本，我们不会丢弃任何节点，因此不需要标准化。

然而也有一些例外：一些研究人员在测试时使用暂退法， 用于估计神经网络预测的“不确定性”：如果通过许多不同的暂退法遮盖后得到的预测结果都是一致的，那么我们可以说网络发挥更稳定。

从零开始实现

要实现单层的暂退法函数，我们从均匀分布𝑈[0,1]中抽取样本，样本数与这层神经网络的维度一致。

然后保留那些对应样本大于𝑝的节点，把剩下的丢弃。

在下面的代码中，实现 dropout_layer 函数，该函数以dropout的概率丢弃张量输入X中的元素

如上所述重新缩放剩余部分：将剩余部分除以1.0-dropout。

import torch
from torch import nn
from d2l import torch as d2l


def dropout_layer(X, dropout):
    assert 0 <= dropout <= 1
    # 在本情况中，所有元素都被丢弃
    if dropout == 1:
        return torch.zeros_like(X)
    # 在本情况中，所有元素都被保留
    if dropout == 0:
        return X
    mask