Dropout是过去几年非常流行的正则化技术,可有效防止过拟合的发生。但从深度学习的发展趋势看,Batch Normalizaton(简称BN)正在逐步取代Dropout技术,特别是在卷积层。本文将首先引入Dropout的原理和实现,然后观察现代深度模型Dropout的使用情况,并与BN进行实验比对,从原理和实测上来说明Dropout已是过去式,大家应尽可能使用BN技术。
一、Dropout原理
根据wikipedia定义,dropout是指在神经网络中丢弃掉一些隐藏或可见单元。通常来说,是在神经网络的训练阶段,每一次迭代时,都会随机选择一批单元,让其被暂时忽略掉,所谓的忽略是不让这些单元参与前向推理和后向传播。
上图是标准的神经网络,经过dropout后,则变成如下图:
一般来说,我们在可能发生过拟合的情况下才会使用dropout等正则化技术。那什么时候可能会发生呢?比如神经网络过深,或训练时间过长,或没有足够多的数据时。那为什么dropout能有效防止过拟合呢?可以理解为,我们每次训练迭代时,随机选择一批单元不参与训练,这使得每个单元不会依赖于特定的前缀单元,因此具有一定的独立性;同样可以看成我们拿同样的数据在训练不同的网络,每个网络都有可能过拟合,但迭代多次后,这种过拟合会被抵消掉。
要注意的是,dropout是体现在训练环节,训练完成后,我们认为所有的单元都被训练好了,在验证或测试阶段,我们是拿完整的神经网络去验证或测试。
二、Dropout具体实现
以keras为例,其代码为:keras.backend.dropout(x, level, noise_shape=None, seed=None),其中x指的是输入参数,level则是keep-prob,也就是这个单元有多少概率会被设置为0。
复制代码
import tensorflow.keras.backend as K
input = K.random_uniform_variable(shape=(3, 3), low=0, high=1)
print(“dropout with keep-prob 0.5:”, K.eval(K.dropout(input, 0.5)))
print(“dropout with keep-prob 0.2:”, K.eval(K.dropout(input, 0.2)))
print(“dropout with keep-prob 0.8:”, K.eval(K.dropout(input, 0.8)))
复制代码
看看输出结果:
复制代码
dropout with keep-prob 0.5:
[[1.190095 0. 1.2999489]
[0. 0.3164637 0. ]
深度学习基础系列(九)| Dropout VS Batch Normalization? 是时候放弃Dropout了
最新推荐文章于 2024-06-01 13:53:21 发布