深度学习基础系列（九）| Dropout VS Batch Normalization? 是时候放弃Dropout了

最新推荐文章于 2023-01-20 20:20:14 发布

qq_43713668

最新推荐文章于 2023-01-20 20:20:14 发布

阅读量848

点赞数

分类专栏：网络代码文章标签：网络

本文链接：https://blog.csdn.net/qq_43713668/article/details/84190964

版权

Dropout是过去几年非常流行的正则化技术，可有效防止过拟合的发生。但从深度学习的发展趋势看，Batch Normalizaton(简称BN)正在逐步取代Dropout技术，特别是在卷积层。本文将首先引入Dropout的原理和实现，然后观察现代深度模型Dropout的使用情况，并与BN进行实验比对，从原理和实测上来说明Dropout已是过去式，大家应尽可能使用BN技术。
　　
　　一、Dropout原理
　　
　　根据wikipedia定义，dropout是指在神经网络中丢弃掉一些隐藏或可见单元。通常来说，是在神经网络的训练阶段，每一次迭代时，都会随机选择一批单元，让其被暂时忽略掉，所谓的忽略是不让这些单元参与前向推理和后向传播。
　在这里插入图片描述　
　　上图是标准的神经网络，经过dropout后，则变成如下图：
　　
　　一般来说，我们在可能发生过拟合的情况下才会使用dropout等正则化技术。那什么时候可能会发生呢？比如神经网络过深，或训练时间过长，或没有足够多的数据时。那为什么dropout能有效防止过拟合呢？可以理解为，我们每次训练迭代时，随机选择一批单元不参与训练，这使得每个单元不会依赖于特定的前缀单元，因此具有一定的独立性；同样可以看成我们拿同样的数据在训练不同的网络，每个网络都有可能过拟合，但迭代多次后，这种过拟合会被抵消掉。
　　
　　要注意的是，dropout是体现在训练环节，训练完成后，我们认为所有的单元都被训练好了，在验证或测试阶段，我们是拿完整的神经网络去验证或测试。
　　
　　二、Dropout具体实现
　　
　　以keras为例，其代码为：keras.backend.dropout(x, level, noise_shape=None, seed=None)，其中x指的是输入参数，level则是keep-prob，也就是这个单元有多少概率会被设置为0。
　　
　　复制代码
　　
　　import tensorflow.keras.backend as K
　　
　　input = K.random_uniform_variable(shape=(3, 3), low=0, high=1)
　　
　　print(“dropout with keep-prob 0.5:”, K.eval(K.dropout(input, 0.5)))
　　
　　print(“dropout with keep-prob 0.2:”, K.eval(K.dropout(input, 0.2)))
　　
　　print(“dropout with keep-prob 0.8:”, K.eval(K.dropout(input, 0.8)))
　　
　　复制代码
　　
　　看看输出结果：
　　
　　复制代码
　　
　　dropout with keep-prob 0.5:
　　
　　[[1.190095 0. 1.2999489]
　　
　　[0. 0.3164637 0. ]
　　
　　[0. 0. 0. ]]
　　
　　dropout with keep-prob 0.2:
　　
　　[0.74380934 0.67237484 0.8

最低0.47元/天解锁文章

qq_43713668

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
深度学习基础系列（九）| Dropout VS Batch Normalization? 是时候放弃Dropout了

Dropout是过去几年非常流行的正则化技术，可有效防止过拟合的发生。但从深度学习的发展趋势看，Batch Normalizaton(简称BN)正在逐步取代Dropout技术，特别是在卷积层。本文将首先引入Dropout的原理和实现，然后观察现代深度模型Dropout的使用情况，并与BN进行实验比对，从原理和实测上来说明Dropout已是过去式，大家应尽可能使用BN技术。　　　　一、Dropo...
复制链接

扫一扫