Dropout（一）《Improving neural networks by preventing co-adaptation of feature detectors》

最新推荐文章于 2022-04-10 19:28:45 发布

better_zoe_chang

最新推荐文章于 2022-04-10 19:28:45 发布

阅读量975

点赞数 2

文章标签：神经网络深度学习机器学习

本文链接：https://blog.csdn.net/better_zoe_chang/article/details/112776458

版权

本文深入探讨了Dropout技术的提出背景及其如何解决神经网络中特征共适应问题，详细解析了Dropout背后的缓解过拟合原理及集成方法思想，并介绍了Dropout在网络训练与预测阶段的具体实现细节。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1、Why — Dropout提出原因

(1) 特征之间具有共适应性(co- adaptation)

由于神经网络强大的非线性拟合能力，只要增加隐藏层神经元节点个数，那么就会达到拟合输入与输出之间复杂关系的能力。

(2) 对co-adaptation怎样理解

（个人理解）比如一个简单的MLP中间层具有50个单元，当我第一次对它训练，训练结果显示前20的节点与输入之间的连接被赋予较大的权重，而其他30个节点权重相对较小(方便理解，假设我们给它从头到尾按顺序编个号)。
也就是说前面20个节点训练出的参数已经能够粗糙对输入输出进行拟合，但是还不够精准，必须有其他30个神经元的帮助才能完成这一目的。更形象点就是说：一个军队去打仗，大将上来就把对方几个领头的杀的精光，大势虽已定，但还需要小兵对小兵把对方完全消灭。当然，这是第一次训练的情况，那么当我们再去训练这个神经网络，可能就会得出另一种结果，比如这次后20个神经元起的作用比较大，权值也较大，而前30个神经元权值小。这是有可能的，因为参数多，又受初始化权重的影响。
而再次训练这个模型时，可能又会得出另外一种权值结果。那么当这些模型分别在测试集上进行预测或分类就会发现：原来在训练集上表现都很好的模型，会有一部分表现得很差。也就是说，在训练集上我们无法判定哪些神经元应该起着什么样的作用。
与此同时也会产生问题：即当输入输出的关系复杂时，势必会有许多不同的权制设置可以在训练集上达到较好的效果（其实经验上是可以理解的：当参数多，模型选择空间大，能更好拟合训练集数据的模型选择也增多）。为此，Dropout被提出。

2、How — 怎样去理解Dropout背后思想

(1) 缓解过拟合

只要学过深度学习的同学都知道，缓解过拟合的dropout方法。主要思想还是：神经元多了，参数空间变大，对训练数据拟合能力变强使得模型强行模拟输出 $y$ ，最终引起过拟合。当神经元进行dropout，参数减少了就达到了缓解过拟合的目的。
紧接上面1的直观理解：对神经元dropout后就相当于小兵没了，打仗全靠自己，那就得展示真正的水平了。那么这么多神经元，每次训练都会随机dropout，那么也迫使每个神经元连接权重必须朝向真正有意义的数值移动。那么最终结果就是，每一次训练，每个神经元都会得出“正确的”权重。

(2) 集成方法——平均

原论文中对这部分也有一段描写，前前后后读了好几遍，意思大概懂了，但总觉得云里雾里，说不出来哪不对，一种似懂非懂的感觉，好像是平均那没说明白？
大意就是，如果利用没有dropout的神经网络训练多次，最后将多个神经网络预测结果平均得到的效果和dropout效果相同。这句话能理解：就相当于集成学习中的bagging，如果对输入也dropout就和random forest差不多的思想，因为对特征也进行采样了。

但是有些疑惑：
多次dropout之间的权制更新咋设计的，一次dropout的权重保留作为下次训练的初始值，还是重新初始化，最后把每个epoch权制平均。（先放这，回头查一下文献回来说）

There is almost certainly a different network for each presentation of each training case but all of these networks share the same weights for the hidden units that are present.

3、How — Dropout训练及预测设计

(这里就引用原文吧，总觉得自己翻译的不精确)

(1) SGD on Mini- batches

We use the standard, stochastic gradient descent procedure for training the dropout neural networks on mini-batches of training cases……

刚开始读这段话有些疑惑，因为记得之前读Gradient Descent文章，SGD与Mini-Batch SGD是两种优化方法，前者每次用一个样本更新权重，后者则是用一个小批次。
想来想去，觉得应该是这样：在一个Epoch上，会sample多个mini- batch，每个mini- batch使用一个dropout网络，而在同一网络上使用SGD对权重更新。
举个例子：假设预设超参Epoch=80, batch_size=50, 样本数N=500，那么每个Epoch需要训练10轮（= 500/50）。那么就意味着：每个Epoch有10个dropout神经网络，在这10个神经网络上用SGD训练。

(2) Set Upper bound on the L2 of vector weight

这个还是容易理解的，传统的使用方法是计算权重的L2作为惩罚加入Loss中，现在对其改进，对L2设置上界，避免某一神经元权重过大，同时扩大参数的搜索空间。

(3) 测试使用“mean network”

我觉得这个基本上是回答了之前的疑惑，前面读了好几遍这段话一直没太懂表达的意思：
（不知道这个‘mean network’指的什么，心里一直还想着那个ensemble，后来发现这么理解不通，反应过来这里是说：对多个dropout网络的权重取了均值）

Using the mean network is exactly equivalent to taking the geometric mean of the probability distributions over labels predicted by all $2^N$ possible networks.

这样的话，那一切都可以理解了，紧接前面的例子：每个Epoch训练10次，每次一个dropout网络，那么最终训练了800（=80*10）个dropout网络。那我么怎么测试呢？1）一种是对800个网络所有权重取平均，作为一个网络执行最终的预测；2）第二种是用800个网络预测800次，将结果平均。显然第一种方法更省时，同时作者也提到对回归任务来说，前者的MSE小于后者。