从反向传播过程看激活函数与权重初始化的选择对深度神经网络稳定性的影响

Axlsss

已于 2024-07-04 11:23:29 修改

阅读量894

点赞数 20

分类专栏：深度学习文章标签：深度学习神经网络

于 2024-06-09 22:28:38 首次发布

本文链接：https://blog.csdn.net/weixin_41878387/article/details/139567194

版权

深度学习专栏收录该内容

15 篇文章 1 订阅

订阅专栏

之前使用深度学习时一直对各种激活函数和权重初始化策略信手拈用，然而不能只知其表不知其里。若想深入理解为何选择某种激活函数和权重初始化方法卓有成效还是得回归本源，本文就从反向传播的计算过程来按图索骥。

为了更好地演示深度学习中的前向传播和反向传播，有必要图文结合，先按下面这个计算图造些数据。

在这里插入图片描述

这是一个输入只有单个样本、包含两个特征，两个隐藏层、分别带有2个神经元，以及一个输出的三层全连接神经网络。

输入和权重

输入 $I n p u t$ (每行表示一个样本，每列表示一个特征)

$X=[x_1,x_2]=[1,-1]$

标签 $y = [1]$

权重 $W$ (每列对应一个神经元，行数等于样本特征数)

$\begin{align} W_1 & = \begin{bmatrix} w_1 & w_3 \\ w_2 & w_4 \\ \end{bmatrix} \hspace{100cm} \\ & = \begin{bmatrix} 1 & -1 \\ -2 & 1 \\ \end{bmatrix} \end{align}$

$\begin{align} W_2 & = \begin{bmatrix} w_5 & w_7 \\ w_6 & w_8 \\ \end{bmatrix} \hspace{100cm} \\ & = \begin{bmatrix} 2 & -2 \\ -1 & -1 \\ \end{bmatrix} \end{align}$

$\begin{align} W_3 & = \begin{bmatrix} w_9 & w_{11} \\ w_{10} & w_{12} \\ \end{bmatrix} \hspace{100cm} \\ & = \begin{bmatrix} 3 & -1 \\ -1 & 4 \\ \end{bmatrix} \end{align}$

偏置 $b$ (长度等于神经元数量)

$b_1=[b_{11},b_{12}]=[1,0]$

$b_2=[b_{21},b_{22}]=[0,0]$

$b_3=[-2]$

前向传播过程

前向传播就是从输入经隐藏层到输出层的计算过程。

从输入到第一个隐藏层的计算

$z_1=w_1 · x_1 + w_2 · x_2 + b_{11}=4$

$z_2=w_3 · x_1 + w_4 · x_2 + b_{12}=-2$

$a_{11}=\sigma(z_1)=0.9820$

$a_{12}=\sigma(z_2)=0.1192$

其中， $\sigma=sigmoid={1 \over{1+e^{-x}}}$ ，其导数为 $\sigma'=sigmoid * (1 - sigmoid)={1 \over{1+e^{-x}}}-{1 \over{(1+e^{-x}})^2}$

隐藏层 $H_1=[a_{11},a_{12}]$ ，作为第二个隐藏层的输入。

从第一个隐藏层到第二个隐藏层的计算

$z_3=w_5 · a_{11} + w_6 · a_{12} + b_{21}=1.8448$

$z_4=w_7 · a_{11} + w_8 · a_{12} + b_{22}=-2.0832$

$a_{21}=\sigma(z_3)=0.8635$

$a_{22}=\sigma(z_4)=0.1107$

隐藏层 $H_2=[a_{21},a_{22}]$ ，作为输出层的输入。

从第二个隐藏层到输出层的计算

$\hat{y}=w_9 · a_{21} + w_{10} · a_{22} + b_{3}=0.4798$

一个样本的损失： $L=(\hat{y}-y)^2=\hat{y}^2+y^2-2\hat{y}y=0.2706$

计算结果如下：

在这里插入图片描述

反向传播过程

以求 $w_1$ 的偏导数为例，其他可仿照之，利用链式法则计算梯度。
$\begin{align} {\partial L \over \partial w_1} & = {\partial z_1 \over \partial w_1} {\partial L \over \partial z_1} \hspace{100cm} \\ &=x_1 {\partial L \over \partial z_1} \ \ \ \ \ (1) \end{align}$

$\begin{align} {\partial L \over \partial w_1} & = {\partial z_1 \over \partial w_1} {\partial a_{11} \over \partial z_1} {\partial L \over \partial a_{11}} \hspace{100cm} \\ &=x_1 \sigma'(z_1) {\partial L \over \partial a_{11}} \ \ \ \ \ (2) \end{align}$

$\begin{align} {\partial L \over \partial w_1} & = {\partial z_1 \over \partial w_1} {\partial a_{11} \over \partial z_1} ({\partial z_3 \over \partial a_{11}} {\partial L \over \partial z_{3}} + {\partial z_4 \over \partial a_{11}} {\partial L \over \partial z_{4}}) \hspace{100cm} \\ &=x_1 \sigma'(z_1) [w_5 {\partial L \over \partial z_{3}} + w_7 {\partial L \over \partial z_{4}}] \ \ \ \ \ (3) \end{align}$

$\begin{align} {\partial L \over \partial w_1} & = {\partial z_1 \over \partial w_1} {\partial a_{11} \over \partial z_1} ({\partial z_3 \over \partial a_{11}} {\partial a_{21} \over \partial z_{3}} {\partial L \over \partial a_{21}} + {\partial z_4 \over \partial a_{11}} {\partial a_{22} \over \partial z_{4}} {\partial L \over \partial a_{22}}) \hspace{100cm} \\ &=x_1 \sigma'(z_1) [w_5 \sigma'(z_3) {\partial L \over \partial a_{21}} + w_7 \sigma'(z_4) {\partial L \over \partial a_{22}}] \ \ \ \ \ (4) \end{align}$

$\begin{align} {\partial L \over \partial w_1} & = {\partial z_1 \over \partial w_1} {\partial a_{11} \over \partial z_1} ({\partial z_3 \over \partial a_{11}} {\partial a_{21} \over \partial z_{3}} {\partial \hat{y} \over \partial a_{21}} {\partial L \over \partial \hat{y}} + {\partial z_4 \over \partial a_{11}} {\partial a_{22} \over \partial z_{4}} {\partial \hat{y} \over \partial a_{22}} {\partial L \over \partial \hat{y}}) \hspace{100cm} \\ &=x_1 \sigma'(z_1) [w_5 \sigma'(z_3) w_9 {\partial L \over \partial \hat{y}} + w_7 \sigma'(z_4) w_{10} {\partial L \over \partial \hat{y}}] \ \ \ \ \ (5) \end{align}$

$\begin{align} {\partial L \over \partial w_1} & = x_1 \sigma'(z_1) [w_5 \sigma'(z_3) w_9 {\partial L \over \partial \hat{y}} + w_7 \sigma'(z_4) w_{10} {\partial L \over \partial \hat{y}}] \hspace{100cm} \\ &=1*0.0177*[2*0.1179*3*(2 \hat{y}-2y) + (-2*0.0985*-1*(2 \hat{y}-2y))] \\ &=-0.0166 \ \ \ \ \ (6) \end{align}$

与pytorch计算结果相同。

import torch
from torch import nn

#输入与权重
X=torch.tensor([[1.0,-1.0]])
y=torch.tensor([1.0])
W1=torch.tensor([[1.0,-1.0],[-2.0,1.0]],requires_grad=True)
b1=torch.tensor([1.0,0.0],requires_grad=True)
W2=torch.tensor([[2.0,-2.0],[-1.0,-1.0]],requires_grad=True)
b2=torch.tensor([0.0,0.0],requires_grad=True)
W3=torch.tensor([[3.0],[-1.0]],requires_grad=True)
b3=torch.tensor([-2.0],requires_grad=True)

#隐藏层1
z1=torch.matmul(X,W1)+b1
a1=torch.sigmoid(z1) 

#隐藏层2
z2=torch.matmul(a1,W2)+b2
a2=torch.sigmoid(z2) 

#输出层
y_hat=torch.matmul(a2,W3)+b3

#损失函数
loss=nn.MSELoss(reduction='none')

#计算损失
L=loss(y_hat,y).sum()
L.backward()
print(W1.grad)

在这里插入图片描述

要想求 ${\partial L \over \partial w_1}$ ，我们先看式 $(1)$ ， ${\partial z_1 \over \partial w_1}$ 是可以立刻得出的，因为它就是 $w_1$ 前面连接的输入的值。实际上对于任何权重，其偏导数 ${\partial w}$ 表达式的第一项都是可以通过其连接的输入立刻获得(即利用前向传播过程中存储的每个神经元的中间结果)，比如对于靠后的 $w_9$ ，其输入为 $a_{21}$ ，展开得：

$a_{21}=\sigma[w_5 · \sigma(w_1 · x_1 + w_2 · x_2 + b_{11}) + w_6 · \sigma(w_3 · x_1 + w_4 · x_2 + b_{12}) + b_{21}]$

$a_{21}$ 是 $\sigma(W_2 \sigma(W_1X+b1)+b2) \ \ \ \ \ (7)$ 的结果元素之一，考虑到偏置可以委身于权重里面， $\sigma$ 对矩阵是元素级操作得到的还是矩阵，因此实际上 ${\partial L \over \partial w_1}={\partial z_1 \over \partial w_1} {\partial L \over \partial z_1}$ 中的第一项 ${\partial z_1 \over \partial w_1}$ 就是多个矩阵相乘。

另外，每一部分都会经激活函数，而对于 $s i g m o i d$ 激活函数来说，第一项的计算可能会是无穷小，因此可能会引发梯度消失问题，而使用Relu则可以减轻困扰以往神经网络的梯度消失问题。

在这里插入图片描述

sigmoid图像

在这里插入图片描述

Relu图像

继续回到对 ${\partial L \over \partial w_1}$ 的讨论上。现在还要求 ${\partial L \over \partial z_1}$ ，那么 ${\partial L \over \partial z_1}$ 如何求解呢？这就是反向传播要解决的问题了。

我们再回看一下式 $(2) - (5)$ 中的 ${\partial L \over \partial z_1}$ ，列示如下：

${\partial L \over \partial z_1} = \sigma'(z_1) {\partial L \over \partial a_{11}}$

${\partial L \over \partial z_1} = \sigma'(z_1) [w_5 {\partial L \over \partial z_{3}} + w_7 {\partial L \over \partial z_{4}}]$

${\partial L \over \partial z_1} = \sigma'(z_1) [w_5 \sigma'(z_3) {\partial L \over \partial a_{21}} + w_7 \sigma'(z_4) {\partial L \over \partial a_{22}}]$

${\partial L \over \partial z_1} = \sigma'(z_1) [w_5 \sigma'(z_3) w_9 {\partial L \over \partial \hat{y}} + w_7 \sigma'(z_4) w_{10} {\partial L \over \partial \hat{y}}]$

可以看出，从前往后计算 ${\partial L \over \partial z_1}$ 会不太容易，因为前面项总会依赖后面项的计算结果，所以得一直计算出后面的结果才能反推前面的结果。

但反过来就简单多了，我们可以从最后一项出发，对于最初的计算图，最后一项是输出值关于损失的导数 ${\partial L \over \partial \hat{y}}$ ，这个可以由确定的损失函数求得。

有了 ${\partial L \over \partial \hat{y}}$ ，可以通过 $w_9、w_{10}$ 求得 ${\partial L \over \partial a_{21}}、 {\partial L \over \partial a_{22}}$

有了 ${\partial L \over \partial a_{21}}、 {\partial L \over \partial a_{22}}$ ，可以通过 $w_5、w_7$ 求得 ${\partial L \over \partial a_{11}}$ (别忘了中间还要乘以一个 $\sigma'(z)$ ， $z$ 只是一个常量，也可以从前向传播存储的中间结果获得) 。

再回味一下上面这个从后往前的计算过程，是不是跟前向传播很相似？这就是梯度的反向传播！与前向传播的图示比对如下：

在这里插入图片描述

反向传播

在这里插入图片描述

前向传播

其中：

${\partial L \over \partial a_{21}}=w_9 {\partial L \over \partial \hat{y}} \ \ \ \ \ (8)$

${\partial L \over \partial a_{22}}=w_{10} {\partial L \over \partial \hat{y}} \ \ \ \ \ (9)$

${\partial L \over \partial a_{11}}=w_5 {\partial L \over \partial z_{3}} + w_7 {\partial L \over \partial z_{4}} \ \ \ \ \ (10)$

${\partial L \over \partial z_{3}}=\sigma'(z_3) {\partial L \over \partial a_{21}}$

${\partial L \over \partial z_{4}}=\sigma'(z_4) {\partial L \over \partial a_{22}}$

${\partial L \over \partial z_{1}}=\sigma'(z_1) {\partial L \over \partial a_{11}}$

${\partial L \over \partial z_{1}}$ 是 $\sigma'(\sigma' \partial \hat{y} W_3) W_2 \ \ \ \ \ (11)$ 的结果元素之一， $\sigma'$ 对矩阵是元素级操作得到的还是矩阵，因此实际上 ${\partial L \over \partial w_1}={\partial z_1 \over \partial w_1} {\partial L \over \partial z_1}$ 中的第二项 ${\partial L \over \partial z_1}$ 也是多个矩阵相乘。

这个计算过程和前向传播很类似，所以称之为反向传播。

从式 $(7) 、 (11)$ 可以看出，每个权重的偏导数都会涉及到一连串输入、权重与激活函数之间的乘积，试想，如果没有一个良好初始化的权重，这种多个矩阵相乘与经 $\sigma'$ 很可能会引起梯度爆炸或梯度消失等参数不稳定问题，我们再看下 $s i g m o i d 、 R e l u$ 的导数图像：

在这里插入图片描述

sigmoid导数图像

在这里插入图片描述

Relu导数图像

举个例子，初始输入矩阵 $X$ 是从均值为0、标准差为1的高斯随机分布抽样的；每次循环与输入相乘的权重也是从均值为0、标准差为1的高斯随机分布抽样的：

#输入流
X = torch.normal(0, 1, size=(5, 5))
print('初始输入矩阵均值：', X.mean())
print('初始输入矩阵标准差：', X.std())
print('初始输入矩阵 \n', X)
for i in range(10):
    #这里每轮的权重都是均值为0、标准差为1的高斯随机分布
    X = torch.matmul(X, torch.normal(0., 1., size=(5, 5)))

print('输出矩阵均值：', X.mean())
print('输出矩阵标准差：', X.std())
print('10个矩阵相乘后的输出 \n', X)

h = torch.sigmoid(X)
print('激活值：',h)

从输出与激活值可以看出，仅相乘10次，就会出现数值不稳定的结果，可能会引发梯度消失或梯度爆炸。

在这里插入图片描述

当权重采用Xavier方法来初始化时，数据就稳定得多了，可以缓解梯度消失和梯度爆炸问题。

#输入流
X = torch.normal(0, 1, size=(5, 5))
print('初始输入矩阵均值：', X.mean())
print('初始输入矩阵标准差：', X.std())
print('初始输入矩阵 \n', X)
for i in range(10):
    #这里每轮的权重都是按Xavier高斯随机分布策略抽样的数据
    X = torch.matmul(X, torch.normal(0., torch.sqrt(torch.tensor([1 / 5])).item(), size=(5, 5)))

print('输出矩阵均值：', X.mean())
print('输出矩阵标准差：', X.std())
print('10个矩阵相乘后的输出 \n', X)

h = torch.sigmoid(X)
print('激活值：',h)