详解梯度消失和梯度爆炸以及解决方案

产生原因

从深度网络角度理解梯度消失和爆炸产生的原因

以上图的三层神经网络为例,可以将其视为一个非线性多层复合函数 f = f 3 ( f 2 ( f 1 ( x ) ) ) f=f_3(f_2(f_1(x))) f=f3(f2(f1(x)))

  1. 如果后层计算出的梯度大于1,经过层层传递,则梯度传到了前部则梯度会呈现指数增长,即梯度爆炸,
  2. 相反如果后层计算出的梯度小于1,则梯度传到了前部则梯度会呈现指数衰减,即梯度消失。
从激活函数角度理解梯度消失和爆炸产生的原因

Sigmoid函数的一阶导数是恒小于等于0.25的且在大部分取值范围内接近0,因此使用sigmoid激活函数很容易导致梯度消失,同理适用Tanh激活函数也很容易导致梯度消失。

梯度消失和爆炸产生的原因可以总结如下:

  1. 神经网络层数过深
  2. 使用Sigmoid和作为激活函数

解决方案

预训练加微调

此方法来自Hinton在2006年发表的一篇论文,Hinton为了解决梯度的问题,提出采取无监督逐层训练方法,其基本思想是每次训练一层隐节点,训练时将上一层隐节点的输出作为输入,而本层隐节点的输出作为下一层隐节点的输入,此过程就是逐层“预训练”(pre-training);在预训练完成后,再对整个网络进行“微调”(fine-tunning)。Hinton在训练深度信念网络(Deep Belief Networks中,使用了这个方法,在各层预训练完成后,再利用BP算法对整个网络进行训练。此思想相当于是先寻找局部最优,然后整合起来寻找全局最优,此方法有一定的好处,但是目前应用的不是很多了。

使用Batch Normalization解决梯度消失

详见本人关于Batch Normalization的博客,提出BN的原本表示通过实验证明了BN可以缓解梯度消失

使用Relu、LeakyRelu、elu等激活函数解决梯度消失

relu函数的导数在正数部分是恒等于1的,因此在深层网络中使用relu激活函数就不会导致梯度消失和爆炸的问题。
同时Relu也存在一些缺点:

  1. 由于负数部分恒为0,会导致一些神经元无法激活(可通过设置小学习率部分解决)
  2. 输出不是以0为中心的

LeakyRelu和elu是改进版的Relu,主要改进负数横为0的问题,同时包含Relu的所有优点

梯度剪切解决梯度爆炸

设置一个梯度剪切阈值,更新梯度的时候,如果梯度超过这个阈值,那么就将其强制限制在这个范围之内,以防止梯度爆炸。
具体可以用如下tensorflow代码实现

optimizer = tf.train.AdamOptimizer(learning_rate, beta1=0.5)
grads = optimizer.compute_gradients(cost)
for i, (g, v) in enumerate(grads):
    if g is not None:
        grads[i] = (tf.clip_by_norm(g, 5), v)  # clip gradients
train_op = optimizer.apply_gradients(grads)

此处将阈值设置为5

正则化解决梯度爆炸

在添加L1或者L2正则化后,当权重过大时,正则化损失也会增大,因此添加正则化可以解决梯度爆炸

残差网络

ResNet

LSTM解决RNN中的梯度消失
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值