深度学习－－采用ReLU解决消失的梯度问题(vanishing gradient problem)

最新推荐文章于 2024-07-28 16:01:05 发布

阿卡蒂奥

最新推荐文章于 2024-07-28 16:01:05 发布

阅读量1.6w

点赞数 11

分类专栏：深度学习文章标签：深度学习

本文链接：https://blog.csdn.net/akadiao/article/details/78247449

版权

深度学习专栏收录该内容

10 篇文章 4 订阅

订阅专栏

消失的梯度问题(vanishing gradient problem)：

更深层的神经网络可以学到不同抽象程度的概念，但随着深度的增加不同层的学习速率会显著不同，接近输出层的学习速率比较合适时前面的层学习太慢，有时被困住．

产生vanishing gradient problem的原因

假设每层只有一个神经元：

这里写图片描述
激活函数选sigmoid函数
神经元j输入输出分别为：

$\ z_{j}=w_{j}a_{j-1}+b_{j}$

$\ a_{j} =\sigma(z_{j})$

则，对 $b_{1}$ 的一个小变化引起C的变化为：

$\frac{\partial C}{\partial b_{1}}\approx \frac{\Delta C}{\Delta b_{1}}$

$b_{1}$ 的变化引起 $a_{1}$ 的变化为：

$\ a_{1}=\sigma (z_{1})=\sigma(w_{1}a_{0}+b_{1})$

$\ \Delta a_{1}\approx \frac{\partial w_{1}a_{0}+b_{1}}{\partial b_{1}}\Delta b_{1}=\sigma '(z_{1})\Delta b_{1}$

$a_{1}$ 的变化引起 $z_{2}$ 的变化为：

$\ z_{2}=w_{2}a_{1}+b_{2}$

$\ \Delta z_{2}\approx \frac{\partial z_{2}}{\partial a_{1}}\Delta a_{1}=w_{2}\Delta a_{1}$

把以上 $a_{1}$ 的变化代入 $z_{2}$ 的变坏：

$\ \Delta a_{1}\approx \sigma '(z_{1})w_{2}\Delta b_{1}$

依次类推至 $z_{3}$ 　 $z_{4}$ 的变化一直到输出层，得到：

$\ \Delta C\approx \sigma '(z_{1})w_{2} \sigma '(z_{2})w_{3} \sigma '(z_{3})w_{4}\sigma '(z_{4}) \frac{\partial C}{\partial a_{4}}\Delta b_{1}$

等式两边同时除以 $b_{1}$ 的变化，得到：

$\ \frac{\partial C}{\partial b_{1}}\approx \sigma '(z_{1})w_{2} \sigma '(z_{2})w_{3} \sigma '(z_{3})w_{4}\sigma '(z_{4}) \frac{\partial C}{\partial a_{4}}$

由sigmoid函数的导数 $\ \sigma'$ 的图像可以看出，函数的最大值 $\ \sigma'(0)=0.25$ ;

$\ \sigma'$ 的图像:
这里写图片描述

import matplotlib.pyplot as plt
import numpy as np
x = np.arange(-4, 4, 0.01)
y = np.exp(-x)/((1+np.exp(-x))**2)
plt.plot(x, y, 'b')
plt.title('derivative of sigmoid function')
plt.show()

按平时随机从高斯分布N(0,1)中随机产生权重的方法，大部分 $\ |w|<1$ ， $\ |w_{j}\sigma '(z_{j})|< \frac{1}{4}$ ；

则由

$\ \frac{\partial C}{\partial b_{1}}\approx \sigma '(z_{1})w_{2} \sigma '(z_{2})w_{3} \sigma '(z_{3})w_{4}\sigma '(z_{4}) \frac{\partial C}{\partial a_{4}}$

以及

$\ \frac{\partial C}{\partial b_{3}}\approx \sigma '(z_{3})w_{4}\sigma '(z_{4}) \frac{\partial C}{\partial a_{4}}$

可以看出层数越多连续乘积越小．

采用ReLU解决vanishing gradient problem

若要克服vanishing gradient 问题需要 $\ |w_{j}\sigma '(z_{j})|> 1$ .我们可以对w赋较大的值，但是 $\ \sigma '(z_{})$ 也取决于w： $\ \sigma '(z)＝\sigma '(wa+b)$ ．所以让w大的时候还不能让 $\ \sigma '(wa+b)$ 变小．因此只要是sigmoid函数的神经网络都会造成gradient更新的时候极其不稳定，造成vanishing gradient 问题．

采用修正线性单元ReLU（rectified linear unit）：max(0,x+N(0,1))
ReLU图像为：

这里写图片描述

import matplotlib.pyplot as plt
import numpy as np
fig = plt.figure()
x = np.arange(-10,10,0.1)
y = [max(0,i) for i in x]
plt.plot(x, y,'g')
plt.grid()
plt.title('ReLU')
plt.axis('equal')
plt.show()