Dropout: A Simple Way to Prevent Neural Networks from Overtting 论文阅读

最新推荐文章于 2022-04-13 21:39:50 发布

Icoding_F2014

最新推荐文章于 2022-04-13 21:39:50 发布

阅读量430

点赞数

分类专栏：机器学习-理论文章标签： dropout

本文链接：https://blog.csdn.net/jmh1996/article/details/78689757

版权

机器学习-理论专栏收录该内容

37 篇文章 10 订阅

订阅专栏

Dropout: A Simple Way to Prevent Neural Networks from Over tting

基本原理

这里写图片描述

结果

这里写图片描述

敏感性分析

对特征图谱的影响：

这里写图片描述
可以看到使用dropout后cnn计算出来的特征图谱要平滑的很多

稀疏性的影响

这里写图片描述
可以看出，使用droupout后很多隐层单元的activation 激活值都接近与0，只有少部分的神经元的激活值特别大。

p的影响

这里写图片描述
左图表示隐层节点不变的情况下，当p增加时，测试误差先下降，然后再在[0.4,0.8]中平滑，最后在0.8~1时误差又上升，使用底部很宽的”U”形曲线，所以一般我们让隐层的p取0.5就是最优的。

数据集大小的影响

这里写图片描述

可以看到，从数据集较小的时候（ $10^{2}到10^{3}$ ）左右，不带dropout的标准神经网络表现较好，当数据集再( $10^{3}$ ）以上时，使用dropout的优势就开始凸显了。
虽然上面使用的是MMIST数据集做的测试，但是它基本可以反映在数据集较小时 dropout优势不明显甚至没有什么优势。当数据集增大时就很厉害了。
但是 dropout 技术也抵不上使用大数据集的效果明显。
所以说，增强数据集才是硬道理啊！

读后感：

dropout是一个近似化的集成学习方法。它通过依某概率关闭神经网络里面的某些单元来生成一同的小神经网络模型，这个过程就是有点像从神经网络的所有节点中采样出来一些样本形成一个tiny neural network.然后通过对不同这个network的学习来完成不同小模型的训练。在预测过程中无须再像集成学习那样显式滴计算每个模型的输出，然后取平均。直接将使用模型进行预测即可，在计算的过程中就会隐式的进行集成决策。隐式的结果和进行显式的集成预测是一致的。

dropout的优势：
1.可以在神经网络上进行集成学习，它相当于 $2^{n}$ 个小型神经网络的集成学习,其中n是网络的除输出层的节点个数。这个 $2^{n}$ 个网络实际上只有很少的几个被训练到，但是因为权值共享，导致这个 $2^{n}$ 个网络可以共享参数，所以即使大部分小网络都没被训练过，但是它们可以使用其他小模型已经训练好的参数。
2.训练速度快，实现方便。