前向与反向传播推导

最新推荐文章于 2021-08-18 20:13:25 发布

zpethan

最新推荐文章于 2021-08-18 20:13:25 发布

阅读量370

点赞数

分类专栏： Machine Learning 文章标签：人工智能算法

本文链接：https://blog.csdn.net/HIVAN1/article/details/116306237

版权

Machine Learning 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

本文详细介绍了三层神经网络的前向传播和反向传播过程。前向传播通过矩阵运算计算网络输出，反向传播则利用误差反向传播原则更新权重，以减少均方误差。在此过程中，利用链式法则计算每个权重的梯度，并使用随机梯度下降法更新权重。

摘要由CSDN通过智能技术生成

本文简单地以下图所示的三层神经网络为例（没有偏置节点），介绍神经网络的前向和反向传播过程：

图中参数含义如下：

$X_1,X_2$ ：网络输入参数。

$W_{X_11}, W_{X_12}, W_{X_13}, W_{X_21}, W_{X_22}, W_{X_23}$ ：输入层权重参数。

$H_1, H_2, H_3$ ：隐含层对输入参数的线性响应。

$Y_1, Y_2, Y_3$ ：经过非线性激活的隐层输出。

$W_{Y_11}, W_{Y_12}, W_{Y_21}, W_{Y_22}, W_{Y_31}, W_{Y_32}$ ：输出层权重参数。

$R_1, R_2$ ：输出层对隐层的线性响应。

$O_1, O_2$ ：经过非线性激活的网络输出。

前向传播

前向传播计算相对简单，按照如下公式逐步计算即可：
在这里插入图片描述

注：上式中的 $s i g m o i d$ 为激活函数，本文假设全部使用 $s i g m o i d$ 作为激活函数。

为了更加直观，同时方便计算，我们用矩阵表示上述过程：
在这里插入图片描述

反向传播

误差及其反向传播

误差的衡量：本文选取 $M S E$ (均方误差)来衡量网络误差：
误差的反向传播：误差的反向传播遵循按权重分配原则，因此， $E_{O_1},E_{O_2}$ 误差全部分别由 $R_1, R_2$ 产生，即 $E_{O_1}$ 也是神经元 $F$ 的误差。各神经元的误差计算如下：

$E_{X_1}$ 和 $E_{X_2}$ 的计算和上述方法相同，这里不再赘述。
上述计算过程用矩阵表示为：

上述计算较为繁琐，可以在不破坏权重比例的情况下，将其简化为如下形式：

可以发现，上述权重矩阵，就是前向传播时权重矩阵的转置，即反向误差传播形式如下：

$W^T\times{E}$

反向权重更新

链式求导

由前向传播的计算式和上面的误差计算式 $(1), (2), (3)$ 可得：

依次类推，可以计算 $E_O$ 对所有权重 $W$ 的偏导。
权重更新

从链式求导过程可以看到，求导过程中，大量计算是重复的，因此，在更新 $W_{Y_11}$ 和 $W_{X_11}$ 的过程中，可以将重复计算进行折叠，只计算一次，简化后如下：

其中 $\sigma{'}$ 是当前神经元的输出对输入的偏导(梯度)。按照上述过程，可以逐层计算出误差对各个权重 $W$ 的偏导。上述过程在《神经网络与深度学习》中总结为反向传播4大公式：

图中符号含义如下：

最后是权重更新，权重更新首先需要选择一个更新算法，这里简单使用随机梯度下降法(SGD)。将上述偏导代入SGD得到：

$\begin{aligned} & W_{Y_11} = W_{Y_11} - \eta \frac{\partial E_O}{\partial W_{Y_11}} = W_{Y_11} - \eta \nabla{_{O_1}E_O}\odot \sigma{'(R_1)}*Y_1\\ & W_{X_11} = W_{X_11} - \eta \frac{\partial E_O}{\partial W_{X_11}} = W_{X_11} - \eta ((W_{Y_11})^T\delta{_{F_{1}}})\odot \sigma{'(H_1)}*X_1 \end{aligned}$