TPAMI 2024 | 上交团队提出Dropout的隐式正则化，轻松提高网络模型泛化性

最新推荐文章于 2025-04-20 09:30:00 发布

小白学视觉

最新推荐文章于 2025-04-20 09:30:00 发布

阅读量636

点赞数

原文链接：https://mp.weixin.qq.com/s?__biz=MzU0NjgzMDIxMQ==&mid=2247623330&idx=1&sn=6ee59952ad1395c909e78f1c1ceb81cb&chksm=fa534f983d53827312aafea314385d1ae4f2ebdcf8385c57631788b4cf4151beeebd4723f71b&scene=126&sessionid=0

版权

点击上方“小白学视觉”，选择加"星标"或“置顶”

重磅干货，第一时间送达

Implicit Regularization of Dropout

题目：Dropout的隐式正则化

作者：Zhongwang Zhang and Zhi-Qin John Xu源码：https://github.com/sjtuzzw/torch_code_frame

摘要

在神经网络训练过程中，了解如何通过使用流行的正则化方法——dropout，来实现良好的泛化解决方案是非常重要的。在这项工作中，我们提出了dropout的隐式正则化的理论推导，并通过一系列实验进行了验证。此外，我们从数值上研究了隐式正则化的两个含义，这些直观地解释了为什么dropout有助于泛化。首先，我们发现使用dropout训练的隐藏神经元的输入权重倾向于凝聚在孤立的方向上。凝聚是非线性学习过程中的一个特征，它使网络复杂度降低。其次，我们发现使用dropout进行训练会导致神经网络达到比标准梯度下降训练更平坦的最小值，而隐式正则化是找到平坦解的关键。尽管我们的理论主要关注在最后隐藏层中使用的dropout，但我们的实验适用于训练神经网络中的一般dropout。这项工作指出了dropout与随机梯度下降相比的一个独特特征，并为全面理解dropout提供了重要的基础。

关键词

神经网络
dropout
凝聚
平坦性
隐式正则化

I. 引言

Dropout 是一种用于基于梯度下降的算法训练神经网络（NNs）的方法，它可以改善深度学习中的泛化能力。例如，像 PyTorch 这样的常见神经网络框架在训练 transformer 模型时默认使用 dropout。Dropout 的工作原理是在训练期间将每个神经元的输出乘以一个随机变量，该变量以概率 p 为 1/p，以概率 1-p 为零。注意，每次进行前馈操作时，该变量都会被随机采样。

一系列研究从不同角度探讨了dropout的显式和隐式正则化，例如复杂性分析、矩阵补全的低秩偏差等。详细讨论见第二节。在这项工作中，我们的目标是通过分析神经网络权重的属性来研究dropout的隐式正则化，而不是直接将dropout与泛化联系起来。本工作中使用的方法，包括现象驱动分析和理论驱动分析，揭示了dropout的更多细节，并为未来的研究提供了更多的视角。

Dropout的效果等同于在梯度下降训练中添加特定的噪声。从理论上讲，基于修改后的梯度流方法，我们为在最后隐藏层使用dropout的网络导出了dropout训练的隐式正则化项。Dropout的隐式正则化可以导致两个重要的含义，即权重凝聚和平坦解，这通过一系列实验在一般设置下得到了验证。

首先，我们研究了dropout训练中的权重特征学习。先前的工作发现，在非线性训练过程中，隐藏神经元的输入权重（一个隐藏神经元的输入权重是由从输入层到隐藏层的权重和其偏置项组成的向量）在梯度流训练下会聚集成几组。每组中的权重具有相似的方向，这被称为凝聚。通过分析隐式正则化项，我们从理论上发现dropout倾向于找到具有权重凝聚的解。为了验证dropout对凝聚的影响，我们在线性情况下进行了实验，例如神经切线核初始化，在这里权重接近于随机初始值，而在常见的梯度下降训练中不会发生凝聚。我们发现即使在线性情况下，dropout在实验中也显示出明显的凝聚，为了简化，我们这里只展示了输出（图1(a)）。由于凝聚减少了神经网络的复杂性，dropout可能通过限制模型的复杂性来帮助泛化。

其次，我们研究了dropout训练中解的平坦性。我们从理论上展示了dropout的隐式正则化项会导致平坦的最小值。我们通过实验验证了隐式正则化项对平坦性的影响（图1(b)）。许多现有研究表明，更平坦的最小值有更好的泛化和稳定性的概率。

这项工作全面调查了dropout的隐式正则化及其相关含义。虽然我们的理论分析主要集中在最后一个隐藏层中使用的辍学，但我们的实验结果扩展到辍学在训练神经网络中的一般使用。我们的结果表明，我们的退出有一个明显的隐式正则化，这可能共同提高神经网络的泛化性能。

III. 预备知识

A. 深度神经网络

考虑一个L层（L ≥ 2）的全连接神经网络（FNN）。我们将输入视为第0层，输出视为第L层。设表示第l层的神经元数量。特别地，和。对于任何且，我们记。特别地，我们记。

给定权重和偏置，对于，我们定义参数集合为一个2L元组（有序的2L元素列表），其元素是矩阵或向量：

其中的第l层参数是有序对，。我们可能会误用符号，将与其向量化形式等同，其中。

给定，FNN函数是递归定义的。首先，我们记对于所有。然后，对于，递归定义为：

其中是一个非线性激活函数。最后，我们记：

为简化记号，我们记：

其中，是的第j列，而是向量的第j个元素。在这项工作中，我们为了方便记l2范数为。

B. 损失函数

训练数据集表示为，其中，。为简化，我们假设一个未知函数满足对于，。经验风险读作：

其中损失函数是可微的，并且对其第一个参数的导数记作。关于数据样本的误差定义为：

为简化记号，我们记。

C. Dropout

对于，我们随机采样一个缩放向量，其坐标是独立同分布的，使得：

其中，索引的坐标。重要的是要注意是一个零均值随机变量。然后我们通过计算：

应用dropout，并使用代替。这里我们用表示两个相同维度矩阵的哈达玛（Hadamard）积。为简化记号，我们让表示所有层的这类向量集合。我们记使用dropout噪声的模型的输出为。与dropout层相关联的经验风险由表示，给定为：

D. Condensation

对于给定的NN，第l层的第j个神经元的输入权重（）向量化为。在这项工作中，同一层中任意两个神经元的凝聚定义如下。

定义1（Condensation）: 如果与平行，则称第l层的神经元i和神经元j是凝聚的。

为了表征神经网络的凝聚程度，我们为每一层定义有效比率。

定义2（有效比率）: 令是集合，使得对于任何输入权重，存在一个元素满足。第l层的有效神经元数定义为所有可能的的最小大小。有效比率定义为。

在我们的实验中，我们使用余弦相似度来表征凝聚。

定义3（余弦相似度）: 两个向量和之间的余弦相似度定义为：

在这项工作中，我们承认如果，则。请注意，选择超参数0.95并不敏感。

IV. 修改后的梯度流

在本节中，我们从理论上分析了dropout的隐式正则化效果。我们推导了dropout的期望意义下的修改后的梯度流。首先，我们总结了设置并提供了我们理论结果所需的必要定义。注意，我们的实验设置比理论结果更一般化。

设置 1 (dropout结构)：

考虑一个L层（L ≥ 2）的全连接神经网络（FNN），在网络的（L − 1）层之后只有一个dropout层，定义为：

设置 2 (损失函数)：

取均方误差（MSE）作为我们的损失函数：

设置 3 (网络结构)：

为方便起见，我们将模型输出维度设为一，即。

接下来，我们介绍两个在理论结果中扮演重要角色的关键术语：

（公式 4）
（公式 5）

其中是的第j列，是的第j个元素，是关于的期望，是学习率。

基于上述设置，我们得到了基于dropout梯度流的修改方程。

引理 1 (dropout损失的期望)：

给定一个L层FNN，带有dropout ，在设置1-3下，我们有dropout MSE的期望：

基于上述引理，我们继续研究dropout的离散迭代训练，得到了dropout训练的修改后的梯度流。

Dropout的修改后的梯度流：

在设置1-3下，θ的均值迭代，在很小的学习率下，接近于在修改后的损失上的梯度流路径，其中修改后的损失满足：

（公式 6）与SGD[33]不同，项与学习率无关，因此即使学习率接近零，dropout的隐式正则化仍然影响梯度流。在第六节中，我们展示了项使网络趋向于找到具有更低复杂度的解，即具有权重凝聚的解，这也通过数值得到了说明和支持。在第七节中，我们展示了项在提高模型的泛化性和平坦性方面比项起着更重要的作用。 # V. 数值验证隐式正则化项在本节中，我们数值上验证了两个隐式正则化项，即定义在（4）中的和定义在（5）中的，在比我们理论结果更一般化的设置下的有效性。详细的实验设置可以在附录A中找到，附录A可在线获取。 ## A. 验证R1(θ)的效果由于R1(θ)与学习率无关，且R2(θ)在学习率趋于零的极限下消失，我们选择一个小的学习率来验证R1(θ)的有效性。根据（6），当学习率ε足够小的时候，dropout训练动态的修改方程可以用RS(θ) + R1(θ)近似。因此，我们通过在小学习率下训练的两个损失函数，即Rdrop_S(θ, η)和RS(θ) + R1(θ)的神经网络（NN）的相似性来验证R1(θ)的有效性。图2(a)为在不同辍学率下训练的两种损失的测试精度。对于使用RS(θ) + R1(θ)训练的网络，不存在辍学层，辍学率影响损失函数中R1(θ)的权重。对于不同的辍学率，由上述两种损失得到的网络表现出相似的测试精度。值得一提的是，对于使用RS(θ)训练的网络，得到的准确率仅为79%，明显低于通过上述两个损失函数训练的网络的准确率（在图2(a)中超过88%）。在图2(b)中，我们显示了两个网络在不同辍学率下的RS(θ)和R1(θ)的值。请注意，对于通过RS drop（θ，η）训练获得的网络，我们可以通过网络的参数来计算出这两项。可以看出，对于不同的辍学率，两个网络的RS(θ)和R1(θ)的值几乎无法区分。 ![](https://img-blog.csdnimg.cn/direct/49437756ff2f40e5b08c5f13697d8dc8.png) ## B. 验证R2(θ)的效果如IV定理所示，修改后的损失满足以下等式：

为了验证R2(θ)在训练过程中的效果，我们验证以下两种训练方法的等价性：(i) 使用带有dropout层的MSE Rdrop_S(θ, η)训练网络，采用不同的学习率ε；(ii) 使用带有dropout层的MSE通过显式正则化Rregu_S(θ, η)进行训练，定义为：

其中采用不同的λ值和固定且远小于ε的学习率。R2(θ)的确切形式涉及对η的期望，但在本小节的实验中，为了方便，我们忽略了这个期望。

如文中图3所示，我们使用不同的学习率ε（蓝色）和不同的λ值（橙色）训练NNs。在图3(a)中，学习率ε和正则化系数λ在达到相应的最大测试准确率（红点）时非常接近。此外，如图3(b)所示，我们研究了在不同学习率ε或正则化系数λ下，产生的模型的$$\frac{\mathbb{E}\eta \left| R^{\text{drop}}S (\theta, \eta) \right|}{\mathbb{E}\eta \left| \nabla\theta R^{\text{drop}}_S (\theta, \eta) \right|^2}$$的值。实验结果表明，相同的学习率ε和正则化系数λ会导致类似的比率。

由于全批量梯度下降（GD）的计算成本，我们只使用了少量训练样本进行上述实验。我们在附录D-A中详细说明了使用SGD在不同学习率和正则化系数下进行dropout训练的类似实验。

VI. Dropout促进凝聚现象

凝聚网络，即具有对齐输入权重的神经元的网络，等同于具有减少宽度的另一个网络[9]，[10]。因此，网络的有效复杂度小于其表面现象。这样的低有效复杂度可能是良好泛化的根本原因。此外，嵌入原理[36]，[37]，[40]表明，尽管凝聚网络在近似意义上等同于较小的网络，但它具有更多的简并性和更多的下降方向，这可能导致更简单的训练过程。

在本节中，我们实验和理论上研究了dropout对凝聚现象的影响。

A. 实验结果

为了实证验证dropout对凝聚现象的影响，我们在一维和高维的拟合问题以及图像分类问题中考察了ReLU和tanh激活函数。由于篇幅限制，详细的实验设置和部分实验结果放在了在线附录A和D中。

一维输入网络：我们训练了一个具有1000个隐藏神经元的tanh神经网络，用于拟合图4所示的数据集，使用均方误差(MSE)作为损失函数。额外的ReLU神经网络实验验证请参见在线附录D。在相同初始化条件下，有无dropout的实验都能很好地拟合训练数据。为了清晰研究dropout对凝聚的影响，我们采用了线性化参数初始化分布，在没有额外约束的情况下，通常梯度下降训练不会产生凝聚。我们在两层网络的隐藏层后使用dropout层（上图行），以及在三层网络的两个隐藏层之间和最后一个隐藏层后使用dropout层（下图行）。仔细观察拟合过程，我们发现未使用dropout训练的NNs输出在图4(a)和(e)中比使用dropout训练的NNs在图4(b)和(f)中的输出有更多的振荡。为了更好地理解dropout的潜在影响，我们研究了参数的特性。

每个神经元的参数对()可以被分解为单位方向特征和表示其对输出贡献的幅度，即(）。对于一维输入，由于偏置的加入，是二维的。因此，我们使用与x轴的角度[−π, π)来表示每个的方向。为了简化，对于一维输入的三层网络，我们只考虑第一层隐藏层的输入权重。tanh激活的{(}和{(}的散点图在附录D-C中展示，以消除tanh激活非均匀性的影响。

神经网络的的散点图如图4(c)所示。为了方便起见，我们对每个模型参数的特征分布进行了归一化处理，使得每个模型中神经元的最大幅度为1。与初始权重分布（蓝色）相比，未经dropout训练的权重（橙色）接近其初始值。然而，对于使用dropout训练的神经网络，训练后的参数与初始化状态显著不同，非零参数倾向于凝聚在几个离散的方向上，表现出凝聚的趋势。

此外，我们研究了使用损失函数训练的模型在两种损失函数和下的稳定性。如图5的左侧面板所示，我们使用作为损失函数来训练模型，在虚线之前的迭代中，当很小时，然后我们用或替换损失函数。这三种损失函数训练的模型的输出和特征分别在图5的中间和右侧面板中展示。结果揭示了dropout（R1(θ)项）有助于训练过程从训练获得的极小值中逃逸，并找到凝聚解。

人们可能会想，在训练过程中注入的噪音是否会导致凝结。我们也对SGD进行了类似的实验。如图6所示，在训练过程中，即使存在噪声，也没有发生明显的凝结。因此，本节的实验揭示了辍学的有利于凝结的特殊特性。

高维输入网络：我们在教师-学生设置下，进一步研究了dropout对高维两层tanh NNs的影响。具体来说，我们使用了一个只有一隐藏神经元和10维输入的两层tanh NN作为目标函数。通过计算两个神经元的归一化权重的内积来计算两个神经元的方向相似性。如图7(a)和(b)所示，对于使用dropout的NN，网络中的神经元只有两个方向，表明发生了凝聚，而没有使用dropout的NN没有表现出这种现象。

为了在训练过程中可视化凝聚，我们定义了有效神经元的比率如下。我们研究了使用ResNet-18学习CIFAR-10的过程。如图7(c)所示，使用dropout的NNs倾向于拥有更低的有效比率，因此倾向于表现出凝聚。

Dropout改善泛化：由于凝聚网络的有效神经元数量远小于其实际神经元数量，预计它会有较好的泛化能力。为了验证这一点，我们使用一个具有1000个神经元的两层tanh网络来学习具有两个神经元的目标两层tanh网络。教师网络中的自由参数数量为6。如图8所示，当采样数量大于6时，使用dropout的模型泛化得很好，而未使用dropout的模型泛化效果差。这一结果与非线性模型的秩分析一致。

Dropout是诱导凝聚的理想方式：现有文献表明，凝聚是神经网络非线性训练过程中的一个重要且普遍现象。凝聚的神经元具有高度相似的输出。因此，具有大量凝聚神经元的网络具有相当小的有效复杂度，可以控制模型的泛化。然而，以往的研究需要非常小的网络参数初始化来实现凝聚，其中学习轨迹会经历非常接近鞍点的区域，导致训练时间极长。例如，在图9(a)中，使用小初始化的模型被鞍点困住，需要9×10^5个周期才能通过梯度下降训练逃脱。

Dropout提供了一种理想的训练方法，在不遭受漫长训练过程的情况下诱导凝聚现象。例如，在图9(a)中，使用与图4相同的设置，通过带有dropout的梯度下降训练的模型在大约个周期内达到了较小的损失，这远少于使用小初始化训练的模型。与此同时，使用dropout的模型展现出了平坦的输出函数，如图9(b)所示。相比之下，如图4所示，没有dropout且初始化较大的模型产生了没有凝聚的振荡输出函数。

B. R1(θ)对凝聚的影响

正如从隐式正则化项R1(θ)中看到的，dropout正则化对每个神经元的输出施加了额外的范数约束。这种约束对凝聚有影响。我们通过一个两层ReLU网络的玩具示例来说明R1(θ)的效果。

我们使用以下两层ReLU网络来拟合一维函数：

其中是两层网络的可训练参数，。为简化起见，我们设，并假设网络可以完美拟合由目标函数生成的两个数据点的训练数据集，记为。我们进一步假设。记第个神经元在样本上的输出为

网络输出应在足够长的拟合后等于训练数据点上的目标，即

存在无限多对和可以很好地拟合。然而，R1(θ)项导致训练走向一个特定的对。R1(θ)可以写为

并且在良好训练阶段，oj的与o垂直的分量需要相互抵消，以最小化R1(θ)。因此，o1和o2需要与o平行，即，这是凝聚现象。

接下来，我们展示在几种设置下，最小化R1(θ)项可以导致凝聚。我们首先给出一些定义，这些定义捕捉了ReLU神经元的特征（也显示在图10中）。

定义4（ReLU NNs的凸性变化）:

考虑分段线性函数f(t), t ∈ R, 及其线性区间集合。对于任何两个区间, , 如果在一个区间上，f是凸的，而在另一个区间上f是凹的，则我们称存在凸性变化。

定义5（ReLU神经元的方向和截距点）:

对于一维ReLU神经元, 其方向定义为，其截距点定义为。

受到用于建立标签噪声SGD正则化效果的方法的启发，我们展示了在两层ReLU NN和一维输入数据的设置下，R1(θ)项的隐式偏差对应于满足两个条件的“简单”函数：(i) 它们具有适应训练点所需的最小凸性变化数量，以及 (ii) 如果神经元的截距点在同一内区间，并且神经元具有相同的方向，则它们的截距点是相同的。

定理1（R1(θ)对促进凝聚的效果）.

考虑以下两层ReLU NN，

用数据集训练，其中。当训练数据的MSE ，如果发生以下两种情况之一：

(i) 在中，NN的凸性变化数量可以减少，同时；

(ii) 存在两个具有不同索引的神经元，使得它们具有相同的符号，即，并且在相同的区间内具有不同的截距点，即，并且对于某个，；

那么存在参数，是的一个无穷小扰动，使得：(i) ；(ii) 。

备注1:

定理1意味着对于具有许多全局最小值的过度参数化网络，如果上述两种情况之一发生，将存在一个全局最小值，其R1的值比当前的更小。换句话说，如果一个全局最小值在所有最小值中最小化R1，则定理中的两种情况都不会发生，也就是说，在中，NN的凸性变化数量是最小的，并且模型在任何区间之间最多只有2个截距点，对于任何。

备注2:

定理1中额外的线性函数ax + b是为了在研究情况(i)中的某些情况时保持零损失而添加的。在这个定理中，我们通过同时向不同方向移动两个神经元的截距点来减少R1。由于两种情况下神经元的输入权重可能符号相反，即方向相反，两个神经元的截距点的移动将全局影响网络输出（一个神经元将影响一边）。为了取消这种全局效应以保持零损失，人们不得不添加一个全局函数。我们通过构造证明一个线性函数可以做到这一点。由于线性函数的可加性，用于减少多个凸性变化所需的线性函数可以等价于一个线性函数。应当注意，这个线性函数可以由两个ReLUs组成，这意味着原始网络本质上仍然是一个两层ReLU神经网络。然而，为了方便证明，我们在输出中使用了带有ax + b的网络。关于定理条件的更多讨论可以在在线附录B中找到。

图11中左侧曲线的例子显示了定理1的情况(i)，即当损失保持在零时，凸性变化可以减少。图11中右曲线的例子说明了定理1的情况（ii），即在第三个和第四个点之间有两个以上的截距点没有凸变。左右曲线都可以减少到中间曲线，r1较小，训练损失为零。因此，在两种情况(i)和情况（ii）均不发生的情况下，可以促进冷凝。同样值得注意的是，在这两种情况下都可能发生凝结。然而，当任何一种情况降低到中间情况时，有效比可以进一步降低（更浓缩）。同时，并非所有经过退出训练的函数都表现出明显的凝结。例如，当只使用一个数据点进行训练时，一个具有辍学的函数没有显示凝结。然而，对于一般的数据集，如图中所示的例子。在1和4中，由于凸性变化和截距点的约束，NNs达到凝聚解（如图11所示）。

虽然目前的研究仅证明了ReLU NNs的结果，但预计对于一般的激活函数，如tanh，θ项也对促进冷凝有一定的作用，这有待于未来的工作。这也是经上述数值的实验结果证实。此外，我们认为，在某些情况下，用于确保θ的线性项ax + b并不是一个基本要求。我们的实验表明，没有线性项的神经网络也表现出凝结现象。

VII. Dropout对解的平坦性的隐式正则化

理解dropout如何改进神经网络泛化能力是一个极具兴趣和意义的课题。在本节中，我们研究了dropout发现的最小值的平坦性，这受到SGD对泛化影响研究的启发。我们主要关注R1(θ)和R2(θ)对损失景观平坦性和网络泛化的影响。

A. Dropout发现更平坦的最小值

我们首先研究了dropout对模型平坦性和泛化的影响。为了在不同模型之间公平比较平坦性，我们采用了Li等人[43]使用的方法。为了获得具有参数θ的网络的方向，我们首先生成一个与θ维度兼容的随机高斯方向向量d。然后，我们标准化d中的每个滤波器，使其具有与θ中相应滤波器相同的范数。对于全连接网络(FNNs)，每层可以看作一个滤波器，标准化过程等同于标准化层，而对于卷积神经网络(CNNs)，每个卷积核可能具有多个滤波器，每个滤波器分别标准化。因此，我们通过将di,j替换为di,j ∥di,j∥∥θi,j∥来获得标准化方向向量d，其中di,j和θi,j分别表示随机方向d的第i层的第j个滤波器和网络参数θ。这里，∥ · ∥表示Frobenius范数。需要注意的是j指的是滤波器索引。我们使用函数L(α) = RS(θ + αd)来描述在有无dropout层的情况下，所获得的最小值周围的损失景观。

在图12中显示的所有网络结构中，dropout都改善了网络的泛化并发现了更平坦的最小值。在图12(a)和(b)中，无论是否训练有dropout层的网络，训练损失值都非常接近零，但它们的平坦性和泛化仍然不同。在图12(c)和(d)中，由于数据集的复杂性，即CIFAR-100和Multi30k，以及网络结构，即ResNet-20和transformer，有dropout的网络没有实现零训练误差，但使用dropout的网络发现了更平坦的最小值并且泛化得更好。不同网络结构的准确率显示在表I中。

B. R1(θ)对平坦性的影响

在这一小节中，我们在两层ReLU NN设置下研究R1(θ)对平坦性的影响。与上述通过损失插值描述的平坦性不同，我们在这一部分将最小值的平坦性定义为Hessian矩阵H的特征值之和，即Tr(H)。注意当RS(θ) = 0时，我们有，

因此，上述平坦性的定义等同于。

定理2（R1(θ)对促进平坦性的影响）

考虑一个两层ReLU NN，

用数据集S = {(xi, yi)}ni=1训练，MSE损失。在带有损失函数RS(θ) + R1(θ)的梯度流训练下，如果θ0满足RS(θ0) = 0且，我们有

R2(θ)的正则化效果也通过限制梯度的范数对平坦性有积极影响。在下一个子节中，我们比较这两个正则化项对泛化和平坦性的影响。

C. 两个隐式正则化项对泛化和平坦性的影响

尽管在训练过程中修改后的梯度流是无噪声的，但通过修改后的梯度流训练的模型也可以找到泛化良好的平坦最小值，这得益于R1(θ)和R2(θ)的效果。然而，它们对平坦性的影响程度尚未完全理解。在这一小节中，我们通过使用以下四种损失函数训练网络来研究每个正则化项的效果：

其中定义为以方便起见，我们有。对于每个，我们明确地添加或减去R1(θ)或的惩罚项，以研究它们对dropout正则化的影响。因此，L1(θ)和L3(θ, η)用于研究R1(θ)的效果，而L2(θ, η)和L4(θ, η)用于研究R2(θ)。

我们首先研究两种正则化项对NNs泛化的影响。如图13所示，我们在不同的dropout率下比较使用上述四种不同损失函数训练得到的测试准确率，并使用RS(θ)和Rdrop_S(θ, η)的结果作为参考基准。考虑了两种不同的学习率，实线和虚线分别对应ε = 0.05和ε = 0.005。如图13(a)所示，两种方法都表明使用R1(θ)正则化项的训练找到了与使用dropout训练几乎相同的测试准确率的解。对于，如图13(b)所示，的效果仅使全批量梯度下降训练的泛化能力略优于使用R1(θ)。

然后我们研究两种正则化项对平坦性的影响。为此，我们展示了通过两种不同损失函数训练找到的两个最小值之间的损失RS(θ)的一维截面插值。对于R1(θ)或，我们使用加法或减法来研究其效果。如图14(a)所示，对于R1(θ)，通过加法方法（L1）和减法方法（L3）找到的最小值之间的插值损失值保持在零附近，对于在图14(b)中也类似，表明修改方程中的高阶项ε对训练过程影响较小。然后我们比较了使用R1(θ)和训练找到的最小值的平坦性，如图14(c)–(f)所示。结果表明，通过使用R1(θ)训练获得的最小值比通过使用训练获得的最小值展现出更大的平坦性。

本节的实验表明，与SGD相比，dropout的独特隐式正则化R1(θ)在改进泛化和寻找平坦最小值方面发挥了重要作用。

VIII. 结论与讨论

在这项工作中，我们从理论上研究了dropout的隐式正则化及其在提高神经网络泛化性能方面的作用。具体来说，我们推导了dropout的两个隐式正则化项，和，并通过数值实验验证了它们的有效性。这项工作的一个重要发现是，与SGD不同，dropout中独特的隐式正则化项是提高dropout解决方案泛化性和平坦性的关键因素。我们还发现可以在训练过程中促进权重凝聚，这可能为进一步研究权重凝聚、平坦性和泛化之间的联系奠定基础。这项工作揭示了dropout的丰富和独特的属性，这对于全面理解dropout至关重要。

我们的研究还揭示了深度学习中简单性偏差的更广泛问题。我们观察到，dropout正则化倾向于在训练过程中施加简单解的偏差，这一点通过权重凝聚和平坦性效应得到了证实。这与深度学习中简单性偏差的其他观点一致，例如频率原则[44]，[45]，[46]，[47]，[48]，[49]，[50]，[51]，它揭示了神经网络通常从低频到高频学习数据。我们对dropout正则化的分析提供了对简单性偏差在实践中如何工作的详细理解，这对于理解过度参数化神经网络如何能够很好地拟合训练数据并在新数据上有效泛化至关重要。到目前为止，我们没有任何具体证据来建立这两种隐式偏差之间的联系。然而，我们相信研究它们之间的联系将是一个有趣的话题。我们有一些线索表明它们的联系可能并不简单。例如，已经观察到SGD可以找到平坦的解[13]。然而，正如在线附录中的图18所示，这个解似乎并不是凝聚的。

最后，我们的工作强调了dropout正则化在训练神经网络，特别是在线性状态下的潜在好处。正如我们所展示的，dropout正则化可以诱导权重凝聚，并避免在高度非线性网络中由于训练轨迹接近静止点而经常遇到的慢速训练[36]，[37]。这对于开发更有效和有效的深度学习算法可能具有重要意义。

声明

本文内容为论文学习收获分享，受限于知识能力，本文对原文的理解可能存在偏差，最终内容以原论文为准。本文信息旨在传播和学术交流，其内容由作者负责，不代表本号观点。文中作品文字、图片等如涉及内容、版权和其他问题，请及时与我们联系，我们将在第一时间回复并处理。

下载1：OpenCV-Contrib扩展模块中文版教程

在「小白学视觉」公众号后台回复：扩展模块中文教程，即可下载全网第一份OpenCV扩展模块教程中文版，涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。


下载2：Python视觉实战项目52讲
在「小白学视觉」公众号后台回复：Python视觉实战项目，即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目，助力快速学校计算机视觉。


下载3：OpenCV实战项目20讲
在「小白学视觉」公众号后台回复：OpenCV实战项目20讲，即可下载含有20个基于OpenCV实现20个实战项目，实现OpenCV学习进阶。


交流群

欢迎加入公众号读者群一起和同行交流，目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群（以后会逐渐细分），请扫描下面微信号加群，备注：”昵称+学校/公司+研究方向“，例如：”张三 + 上海交大 + 视觉SLAM“。请按照格式备注，否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告，否则会请出群，谢谢理解~