产生原因
从深度网络角度理解梯度消失和爆炸产生的原因
以上图的三层神经网络为例,可以将其视为一个非线性多层复合函数 f = f 3 ( f 2 ( f 1 ( x ) ) ) f=f_3(f_2(f_1(x))) f=f3(f2(f1(x)))
- 如果后层计算出的梯度大于1,经过层层传递,则梯度传到了前部则梯度会呈现指数增长,即梯度爆炸,
- 相反如果后层计算出的梯度小于1,则梯度传到了前部则梯度会呈现指数衰减,即梯度消失。
从激活函数角度理解梯度消失和爆炸产生的原因
Sigmoid函数的一阶导数是恒小于等于0.25的且在大部分取值范围内接近0,因此使用sigmoid激活函数很容易导致梯度消失,同理适用Tanh激活函数也很容易导致梯度消失。
梯度消失和爆炸产生的原因可以总结如下:
- 神经网络层数过深
- 使用Sigmoid和作为激活函数
解决方案
预训练加微调
此方法来自Hinton在2006年发表的一篇论文,Hinton为了解决梯度的问题,提出采取无监督逐层训练方法,其基本思想是每次训练一层隐节点,训练时将上一层隐节点的输出作为输入,而本层隐节点的输出作为下一层隐节点的输入,此过程就是逐层“预训练”(pre-training);在预训练完成后,再对整个网络进行“微调”(fine-tunning)。Hinton在训练深度信念网络(Deep Belief Networks中,使用了这个方法,在各层预训练完成后,再利用BP算法对整个网络进行训练。此思想相当于是先寻找局部最优,然后整合起来寻找全局最优,此方法有一定的好处,但是目前应用的不是很多了。
使用Batch Normalization解决梯度消失
详见本人关于Batch Normalization的博客,提出BN的原本表示通过实验证明了BN可以缓解梯度消失
使用Relu、LeakyRelu、elu等激活函数解决梯度消失
relu函数的导数在正数部分是恒等于1的,因此在深层网络中使用relu激活函数就不会导致梯度消失和爆炸的问题。
同时Relu也存在一些缺点:
- 由于负数部分恒为0,会导致一些神经元无法激活(可通过设置小学习率部分解决)
- 输出不是以0为中心的
LeakyRelu和elu是改进版的Relu,主要改进负数横为0的问题,同时包含Relu的所有优点
梯度剪切解决梯度爆炸
设置一个梯度剪切阈值,更新梯度的时候,如果梯度超过这个阈值,那么就将其强制限制在这个范围之内,以防止梯度爆炸。
具体可以用如下tensorflow代码实现
optimizer = tf.train.AdamOptimizer(learning_rate, beta1=0.5)
grads = optimizer.compute_gradients(cost)
for i, (g, v) in enumerate(grads):
if g is not None:
grads[i] = (tf.clip_by_norm(g, 5), v) # clip gradients
train_op = optimizer.apply_gradients(grads)
此处将阈值设置为5
正则化解决梯度爆炸
在添加L1或者L2正则化后,当权重过大时,正则化损失也会增大,因此添加正则化可以解决梯度爆炸
残差网络
ResNet