【深度学习】Dropout

最新推荐文章于 2020-05-26 18:44:44 发布

sdbhewfoqi

最新推荐文章于 2020-05-26 18:44:44 发布

阅读量309

点赞数

分类专栏：深度学习文章标签：神经网络

本文链接：https://blog.csdn.net/weixin_31866177/article/details/89174565

版权

深度学习专栏收录该内容

66 篇文章 14 订阅

订阅专栏

Dropout是通过修改神经网络本身来解决过拟合问题。

为什么dropout对于过拟合有效果？

dropout的训练过程，相当于训练了很多个只有半数隐层单元的神经网络（后面简称为“半数网络”），每一个这样的半数网络，都可以给出一个分类结果，这些结果有的是正确的，有的是错误的。随着训练的进行，大部分半数网络都可以给出正确的分类结果，那么少数的错误分类结果就不会对最终结果造成大的影响。

Hintion的直观解释和理由如下：

　　1. 由于每次用输入网络的样本进行权值更新时，隐含节点都是以一定概率随机出现，因此不能保证每2个隐含节点每次都同时出现，这样权值的更新不再依赖于有固定关系隐含节点的共同作用，阻止了某些特征仅仅在其它特定特征下才有效果的情况。

　　2. 可以将dropout看作是模型平均的一种。对于每次输入到网络中的样本（可能是一个样本，也可能是一个batch的样本），其对应的网络结构都是不同的，但所有的这些不同的网络结构又同时share隐含节点的权值。这样不同的样本就对应不同的模型，是bagging的一种极端情况。个人感觉这个解释稍微靠谱些，和bagging，boosting理论有点像，但又不完全相同。

　　3. native bayes是dropout的一个特例。Native bayes有个错误的前提，即假设各个特征之间相互独立，这样在训练样本比较少的情况下，单独对每个特征进行学习，测试时将所有的特征都相乘，且在实际应用时效果还不错。而Dropout每次不是训练一个特征，而是一部分隐含层特征。

　　4. 还有一个比较有意思的解释是，Dropout类似于性别在生物进化中的角色，物种为了使适应不断变化的环境，性别的出现有效的阻止了过拟合，即避免环境改变时物种可能面临的灭亡。

dropout为什么可以防止过拟合

dropout的解决方案，在每一次迭代的过程中，我们会随机dropout掉一些神经元（至于在那一层做dropout，需要看不同的情况），如果设置的dropout的值为0.8，则表示每个神经元有80%的概率被留下来，20%的概率被”抹去“。这就相当于我们从原来的神经网络中随机采样了80%的节点，组成了一个新的神经网络，这个是原来的神经网络的一个子网络，但是规模要比原来的神经网络小很多，并且训练代价也比较小。我们多次迭代优化，每次迭代优化都会做这样的”随机采样“，从原来的网络中构造一个子网络(sub-network)，而每次构造的网络也都不尽相同，这样每个神经元对另一个特定神经元的激活很不敏感。这样参数就不会过分依赖于训练数据，增加了模型的泛化能力。

只在训练过程中使用dropout，在测试期间不使用dropout。因为在测试阶段，我们不期望输出结果是随机的，如果测试阶段应用了dropout，预测会受到干扰。

train 和 test 的时候，dropout的概率怎么设置：按照原始的论文中，假设dropout的值是 p％，原始神经网络的神经元个数是Ｎ，因为在训练的过程中只有 p% 的神经元被保留下来，相应也只有p%的需要被优化的权值保留下来，这导致dropout后sub-network的输出也是整个原始神经网络的输出值的p%。所以，在测试的是时候使用的整个神经网络，我们只需要将每一层的权值矩阵乘以p%就可以保证测试网络的输出期望和训练网络的输出期望值大小一致了。

注意，如果你使用了tensorflow，则在测试的时候要保持dropout的值为1，即不”抹去“任何神经元。

为什么很少见CNN层加dropout: 这种情况确实不多见，典型的TextCNN模型，就是没有在卷积层加dropout。但是原始论文中确实又指出可以在卷积层做dropout ，只是收益并不是太明显。另外，dropout对于具有大量参数的全连接效果最好，而CNＮ的卷积层不是全连接，参数不是很多，所以效果不明显。论文还建议如果在CNN中加，最好是在开始的层加dropout，越往后的层，越是要小心加dropout。

神经网络加上dropout后，test loss 比 train loss还要小：正常，在不考虑测试集采样偏差的情况下，这种情况的解释是：每次train loss是在一个batch上计算的，而单个batch又是在一个通过dropout得到的sub-network计算得到的，即相当于在单颗树上得到的train loss；而测试的时候，用的整个神经网络，即相当于在整个”森林“上做预测，结果当然会好一下。

参考：

dropout理解

Dropout

sdbhewfoqi

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【深度学习】Dropout

Dropout是通过修改神经网络本身来解决过拟合问题。为什么dropout对于过拟合有效果？dropout的训练过程，相当于训练了很多个只有半数隐层单元的神经网络（后面简称为“半数网络”），每一个这样的半数网络，都可以给出一个分类结果，这些结果有的是正确的，有的是错误的。随着训练的进行，大部分半数网络都可以给出正确的分类结果，那么少数的错误分类结果就不会对最终结果造成大的影响。Hintion的直观解释和理由如下：　　1. 由于每次用输入网络的样本进行权值更新时，隐含节点都是以一定概率随机出.
复制链接

扫一扫

专栏目录