神经网络的梯度消失和梯度爆炸问题（一）：反向传播——公式推导+示例说明

最新推荐文章于 2024-09-12 10:51:22 发布

ypfzhao

最新推荐文章于 2024-09-12 10:51:22 发布

阅读量8.8k

点赞数 1

本文链接：https://blog.csdn.net/weixin_41481113/article/details/83277522

版权

本文主要为大家解释一下神经网络的反向传播，为神经网络的梯度消失和梯度爆炸问题做一个铺垫。

一、Sigmoid函数

本文后面所用的神经网络激活函数全部将会是sigmoid函数，它可以将变量映射到0，1之间。它的表达式为：

以及sigmoid的导函数为：

曲线为

二、反向传播

首先声明一下，为了简化公式的推导，所有的神经元会省略掉截距b。

已知：输入 $X=\begin{bmatrix} 0.05\\ 0.15\end{bmatrix}$ 输出 $Y=\begin{bmatrix} 0.1\\ 0.9\end{bmatrix}$ 第一层的权重 $W_{1}=\begin{bmatrix} \omega_{1} & \omega_{3}\\ \omega_{2} & \omega_{4} \end{bmatrix}=\begin{bmatrix} 0.13 & 0.15\\ 0.12& 0.20\end{bmatrix}$

第二层的权重为 $W_{2}=\begin{bmatrix} \omega_{5} & \omega_{7}\\ \omega_{6} & \omega_{8} \end{bmatrix}=\begin{bmatrix} 0.40 & 0.25\\ 0.30& 0.20\end{bmatrix}$ ，损失函数为 $L=\frac{1}{2}\begin{Vmatrix} Y-S(W_{2}*S(W_{1}*X)) \end{Vmatrix}^{2}$

注：损失函数的中后面减的一部分是神经网络的输出（省略了常数项b）,S(.)表示激活函数sigmoid

2.1前向传播

$S(W_{2}*S(W_{1}*X))=S(W_{2}*S(\begin{bmatrix} 0.13 &0.15 \\ 0.12&0.20 \end{bmatrix}\begin{bmatrix} 0.05 \\ 0.15 \end{bmatrix}))=S(W_{2}*S(\begin{bmatrix} 0.029 \\ 0.036 \end{bmatrix}))=S(W_{2}*\begin{bmatrix} 0.50725 \\ 0.50900 \end{bmatrix})=S(\begin{bmatrix} 0.33015 \\ 0.25397 \end{bmatrix})=\begin{bmatrix} 0.581796 \\ 0.563155 \end{bmatrix}$

上面的结果就是前向传播输出的结果，可能有人会问向量是怎么激活的，其实很简单，比如最后一步：S(0.33015)=0.581796

S(0.25397)=0.563155,就是这样个算个的就可以了。

2.2误差计算

本例中损失函数采用均方误差。

$L=\frac{1}{2}\begin{Vmatrix} Y-S(W_{2}*S(W_{1}*X)) \end{Vmatrix}^{2}=\frac{1}{2}\begin{Vmatrix} \begin{bmatrix} 0.1\\ 0.9 \end{bmatrix}- \begin{bmatrix} 0.581796\\ 0.563155 \end{bmatrix} \end{Vmatrix}^{2}=0.274635$

2.3反向传播

对 $W_{2}$ 更新权重：

$\frac{\partial L}{\partial W_{2}}$

$\tiny =\frac{\partial \frac{1}{2}\begin{Vmatrix} Y-S(W_{2}*S(W_{1}*X)) \end{Vmatrix}^{2}}{\partial W_{2}}$

$\tiny = 2*\frac{1}{2}*(Y-S(W_{2}*S(W_{1}*X)))*(-1)*\frac{\partial S(W_{2}*S(W_{1}*X))}{\partial W_{2}}$

$\tiny = 2*\frac{1}{2}*(Y-S(W_{2}*S(W_{1}*X)))*(-1)*\frac{\partial S(W_{2}*S(W_{1}*X))}{\partial W_{2}*S(W_{1}*X)}*\frac{\partial W_{2}*S(W_{1}*X)}{\partial W_{2}}$

$\tiny = 2*\frac{1}{2}*(Y-S(W_{2}*S(W_{1}*X)))*(-1)*\frac{\partial S(W_{2}*S(W_{1}*X))}{\partial W_{2}*S(W_{1}*X)}*(S(W_{1}*X))T$

$\tiny = 2*\frac{1}{2}*(Y-S(W_{2}*S(W_{1}*X)))*(-1)*(S(W_{2}*S(W_{1}*X)))^T*(I-S(W_{2}*S(W_{1}*X)))*(S(W_{1}*X))^T$

$\tiny = -(Y-S(W_{2}*S(W_{1}*X)))*S(W_{2}*(S(W_{1}*X)))^T*(I-S(W_{2}*S(W_{1}*X)))*(S(W_{1}*X))^T$

上面的公式推导看上去十分的庞大，但是千万别被它给吓倒，其实就是很简单的链式求导，另外在最后一步直接使用了前面sigmoid的导函数，可以参见第一部分， $I$ 是一个元素全为‘1’的向量。

同理可以得到：

$\frac{\partial L}{\partial W_{1}}$

$\tiny =\frac{\partial \frac{1}{2}\begin{Vmatrix} Y-S(W_{2}*S(W_{1}*X)) \end{Vmatrix}^{2}}{\partial W_{1}}$

$\tiny =-W_{2}*(Y-S(W_{2}*S(W_{1}*X)))*(S(W_{2}*S(W_{1}*X)))^T*(I-S(W_{2}*S(W_{1}*X)))*(S(W_{1}*X))^T*(I-S(W_{1}*X))*X^T$

$\tiny =W_{2}*\frac{\partial L}{\partial W_{2}}*(I-S(W_{1}*X))*X^T$

我们将我们的所有数值代进去可得

$\frac{\partial L}{\partial W_{2}}=\begin{bmatrix} 0.11958562 &0.11999819 \\ -0.08360763&-0.08389607 \end{bmatrix}$

$\frac{\partial L}{\partial W_{1}}=\begin{bmatrix} 0.00132702 &0.00398105 \\ 0.00094377&0.0028313 \end{bmatrix}$

注：所有的运算中间过程省略，由于本人在运算时存在位数保留问题，所以结果可能会存在偏差。

2.4权重更新

本例中学习率采用 $\eta$ =0.5，梯度下降法。更新公式为：

$W=W-\eta \frac{\partial L}{\partial W}$

那么有：

$W_{2}=W_{2}-\eta \frac{\partial L}{\partial W_{2}}=\begin{bmatrix} 0.34020719 &0.190009 \\ 0.34180382 &0.24194804 \end{bmatrix}$

$W_{1}=W_{1}-\eta \frac{\partial L}{\partial W_{1}}=\begin{bmatrix} 0.12933649 &0.14800948 \\ 0.11952812&0.19858435 \end{bmatrix}$

2.5误差再次计算

$L=\frac{1}{2}\begin{Vmatrix} Y-S(W_{2}*S(W_{1}*X)) \end{Vmatrix}^{2}=0.16227459<0.274635$

通过一次反向传播之后，误差顺利减小。

2.6权重更新的标量计算方法

在这里就不再一步一步推导公式，推公式确实比较麻烦，给大家一个用标量计算的链接：https://www.cnblogs.com/charlotte77/p/5629865.html

三、总结

反向传播其实就是一个以减小误差为目的，以各种梯度优化方法为手段的不断迭代的一个过程。本文只是一个非常简单的例子，希望可以帮助大家理解它，有了这个基础，接下来，我会为大家介绍梯度消失和梯度爆炸，下篇见。

ypfzhao

关注

1
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫