杂记：神经网络BP反向传播公式推导【前馈神经网络篇】

最新推荐文章于 2024-08-05 16:04:18 发布

CURIOUS_BOMB

最新推荐文章于 2024-08-05 16:04:18 发布

阅读量321

点赞数

文章标签：神经网络深度学习机器学习

本文链接：https://blog.csdn.net/CURIOUS_BOMB/article/details/121657294

版权

杂记：神经网络BP反向传播公式推导【前馈神经网络篇】

本篇文章是在学习了邱锡鹏老师的《神经网络与深度学习》之后写得。邱老师写的很好，本篇文章主要是对反向传播这块的公式进行整理与推导。

前馈神经网络的简单模型：

他的基本结构是：前一层的神经元输出，经过激活函数后，成为后一层神经网络的输入。
用公式来表达上述关系就是：
$\begin{aligned} \boldsymbol{ z}^{(l+1)}&=\boldsymbol{W}^{(l+1)}\boldsymbol{a}^{(l)}+\boldsymbol{b}^{(l+1)} \\ \boldsymbol{ a}^{(l)}&=f_l(\boldsymbol{z}^{(l)}) \end{aligned}$ 上述模型揭示了两个关系：
（1）全连接网络的网络结构是：由输入经过一个权重矩阵 $\boldsymbol{W}$ 和偏置 $\boldsymbol{b}$ ，得到全连接层的输出。
（2） $\boldsymbol{ z}^{(l)}$ 是第 $l$ 层全连接层的直接输出，经过激活函数 $f_l(\boldsymbol ·)$ 得到本层的输出 $\boldsymbol{ a}^{(l)}$ ，它也是下一层的输入。

模型优化简述：

在前馈神经网络的模型上，多层的神经网络已经能够完成由给定输入得到输出，为了让神经网络更好的表示输入和输出的关系，我们需要逐步更改权重矩阵 $W$ ,使得给定输入、尽可能的得到期望的正确输出。
这种更改模型的参数 $\boldsymbol W$ 使得模型结果变优的过程，可以说是训练过程，它的常用的方法是梯度下降法：它的核心是在量化预测结果和输出结果的误差的基础上，以梯度下降的方法使得预测误差下降以达到可接受的范围内。
梯度下降法在网络训练中存在的问题：
$\begin{aligned} \boldsymbol{W}^{(l)} & \leftarrow \boldsymbol{W}^{(l)}-\alpha \frac{\partial \mathcal{R}(\boldsymbol{W}, \boldsymbol{b})}{\partial \boldsymbol{W}^{(l)}} \\ &=\boldsymbol{W}^{(l)}-\alpha\left(\frac{1}{N} \sum_{n=1}^{N}\left(\frac{\partial \mathcal{L}\left(\boldsymbol{y}^{(n)}, \hat{\boldsymbol{y}}^{(n)}\right)}{\partial \boldsymbol{W}^{(l)}}\right)+\lambda \boldsymbol{W}^{(l)}\right) \\ \boldsymbol{b}^{(l)} & \leftarrow \boldsymbol{b}^{(l)}-\alpha \frac{\partial \mathcal{R}(\boldsymbol{W}, \boldsymbol{b})}{\partial \boldsymbol{b}^{(l)}} \\ &=\boldsymbol{b}^{(l)}-\alpha\left(\frac{1}{N} \sum_{n=1}^{N} \frac{\partial \mathcal{L}\left(\boldsymbol{y}^{(n)}, \hat{\boldsymbol{y}}^{(n)}\right)}{\partial \boldsymbol{b}^{(l)}}\right) \end{aligned}$ 参数迭代需要计算大量的计算，非常复杂。

参数优化的解决方案：反向传播算法

先把握核心概念：仍然是梯度下降，但是是利用后一层的“误差”去更新前一层的“误差”。我觉得这是反向传播的内涵，抓住了这一点就不会在复杂的公式中迷失了。
再把握优化目标：
参数1：权重矩阵 $\boldsymbol W$ 参数2：偏置向量 $\boldsymbol b$
明确直接目的：
根据梯度下降法的内涵，参数的更新过程应为：
$\begin{aligned} \boldsymbol{W}^{(l)} & \leftarrow \boldsymbol{W}^{(l)}-\alpha \frac{\partial \mathcal{L}\left(\boldsymbol{y}^{(n)}, \hat{\boldsymbol{y}}^{(n)}\right)}{\partial \boldsymbol{W}^{(l)}} \\ \boldsymbol{b}^{(l)} & \leftarrow \boldsymbol{b}^{(l)}-\alpha \frac{\partial \mathcal{L}\left(\boldsymbol{y}^{(n)}, \hat{\boldsymbol{y}}^{(n)}\right)}{\partial \boldsymbol{b}^{(l)}} \\ \end{aligned}$ 也就是说我们只需要考虑两个指标：
$\frac{\partial \mathcal{L}\left(\boldsymbol{y}^{(n)}, \hat{\boldsymbol{y}}^{(n)}\right)}{\partial \boldsymbol{W}^{(l)}} ,\frac{\partial \mathcal{L}\left(\boldsymbol{y}^{(n)}, \hat{\boldsymbol{y}}^{(n)}\right)}{\partial \boldsymbol{b}^{(l)}}$ $\mathcal{L}\left(\boldsymbol{y}^{(n)}, \hat{\boldsymbol{y}}^{(n)}\right)$ 表示的是经过一种损失函数比如平方、交叉熵等量化的 $\boldsymbol{y}^{(n)},\hat{\boldsymbol{y}}^{(n)}$ 的偏差。

反向传播算法推导之权重矩阵：

明确一个概念：讨论 $\frac{\partial \mathcal{L}\left(\boldsymbol{y}^{(n)}, \hat{\boldsymbol{y}}^{(n)}\right)}{\partial \boldsymbol{W}^{(l)}}$ 和讨论 $\frac{\partial \mathcal{L}\left(\boldsymbol{y}^{(n)}, \hat{\boldsymbol{y}}^{(n)}\right)}{\partial \boldsymbol{w_{ij}}^{(l)}}$ 是等价的，进一步是 $\left[\frac{\partial \mathcal{L}\left(\boldsymbol{y}^{(n)}, \hat{\boldsymbol{y}}^{(n)}\right)}{\partial \boldsymbol{W}^{(l)}}\right ]_{ij} =\frac{\partial \mathcal{L}\left(\boldsymbol{y}^{(n)}, \hat{\boldsymbol{y}}^{(n)}\right)}{\partial \boldsymbol{w_{ij}}^{(l)}}$
所以只讨论:
$\frac{\partial \mathcal{L}\left(\boldsymbol{y}, \hat{\boldsymbol{y}}\right)}{\partial {w_{ij}}^{(l)}} =\frac{\partial \boldsymbol z^{(l)}}{{w_{ij}}^{(l)}}\frac{\partial \mathcal{L}\left(\boldsymbol{y}, \hat{\boldsymbol{y}}\right)}{\partial \boldsymbol { z}^{(l)}}$

第一部分：证明 $\frac{\partial\boldsymbol z^{(l)}}{{w_{ij}}^{(l)}}=\left[ 0...,a_{j}^{(l-1)},0... \right ]$

因为： $\boldsymbol{ z}^{(l)}=\boldsymbol{W}^{(l)}\boldsymbol{a}^{(l-1)}+\boldsymbol{b}^{(l)}$ ，写成每一项的形式的话有： $z^{(l)}_{i}=\sum_{k}w_{ik}^{(l)}a_k^{(l-1)}+b_j^{(l)}$ (矩阵乘法展开）
所以唯一能出现 $w_{ij}^{(l)}$ 项只有 $k = j$ 的情况，根据求导法则，其余项与 $w_{ij}^{(l)}$ 无关，偏导为0，则有：
$\begin{aligned} \frac{\partial\boldsymbol z^{(l)}}{{w_{ij}}^{(l)}}&=\left[ \frac{\partial z_1^{(l)}}{{w_{ij}}^{(l)}} , ...\frac{\partial z_M^{(l)}}{{w_{ij}}^{(l)}} \right] \\&=\left[ 0...,\frac{\partial z_{j}^{(l)}}{{w_{ij}}^{(l)}},0... \right ] =\left[ 0...,a_{j}^{(l-1)},0... \right ] \end{aligned}$

第二部分：记 $\frac{\partial \mathcal{L}\left(\boldsymbol{y}, \hat{\boldsymbol{y}}\right)}{\partial { z}^{(l)}}$ 为 $\delta^{(l)}$ ,表示第 $l$ 层的误差项，推导反向传播公式，即用 $\delta^{(l+1)}$ 来计算 $\delta^{(l)}$

根据模型：
$\begin{aligned} \boldsymbol{ z}^{(l+1)}&=\boldsymbol{W}^{(l+1)}\boldsymbol{a}^{(l)}+\boldsymbol{b}^{(l+1)} \\ \boldsymbol{ a}^{(l)}&=f_l(\boldsymbol{z}^{(l)}) \end{aligned}$ 可以看出，公式（1）中蕴含着“传播递推规律”，公式（2）作为联系两个变量的桥梁。
所以核心公式推导为(利用链式法则）：
$\begin{aligned} \delta^{(l)} &\triangleq \frac{\partial \mathcal{L}(\boldsymbol{y}, \hat{\boldsymbol{y}})}{\partial \boldsymbol{z}^{(l)}} \\ &= \frac{\partial \boldsymbol a^{(l)}}{{\partial \boldsymbol z^{(l)}}}\frac{\partial \boldsymbol{z}^{(l+1)}}{\partial \boldsymbol a^{(l)}}\frac{\partial \mathcal{L}(\boldsymbol{y}, \hat{\boldsymbol{y}})}{\partial \boldsymbol{z}^{(l+1)}} \\ &=\frac{\partial \boldsymbol a^{(l)}}{{\partial \boldsymbol z^{(l)}}}\frac{\partial \boldsymbol{z}^{(l+1)}}{\partial \boldsymbol a^{(l)}}\delta^{(l+1)} \end{aligned}$
因为 $\boldsymbol{ z}^{(l+1)}=\boldsymbol{W}^{(l+1)}\boldsymbol{a}^{(l)}+\boldsymbol{b}^{(l+1)}$ ,和矩阵的微分法则： $\frac{\partial \boldsymbol{A} \boldsymbol{x}}{\partial \boldsymbol{x}}=\boldsymbol{A}^{\top},\frac{\partial(\boldsymbol{y}+\boldsymbol{z})}{\partial \boldsymbol{x}}=\frac{\partial \boldsymbol{y}}{\partial \boldsymbol{x}}+\frac{\partial \boldsymbol{z}}{\partial \boldsymbol{x}}$ ,得到：
$\frac{\partial \boldsymbol{z}^{(l+1)}}{\partial \boldsymbol a^{(l)}}=\left [\boldsymbol{W}^{(l+1)}\right ]^{\top}$
由于激活函数具有按位计算的性质： $a_{k}=f_l\left(z_{k}\right), \quad \forall k=1, \cdots, K$ ,也就是说 $\begin{aligned} &\frac{\partial a_m}{\partial z_n}=0,m\ne n\\ &\frac{\partial a_m}{\partial z_n}=f_l'(z_m),m= n \end{aligned}$ 所以： $\frac{\partial \boldsymbol a^{(l)}}{{\partial \boldsymbol z^{(l)}}}=diag(f'(\boldsymbol z^{(l)}))$ 结论是：
$\delta^{(l)}=diag(f'(\boldsymbol z^{(l)}))\left [\boldsymbol{W}^{(l+1)}\right ]^{\top}\delta^{(l+1)}$

第三部分：结合前两个部分总结：

$\begin{aligned} \frac{\partial \mathcal{L}\left(\boldsymbol{y}, \hat{\boldsymbol{y}}\right)}{\partial {w_{ij}}^{(l)}} &=\frac{\partial z^{(l)}}{{w_{ij}}^{(l)}}\frac{\partial \mathcal{L}\left(\boldsymbol{y}, \hat{\boldsymbol{y}}\right)}{\partial { z}^{(l)}}\\ &=\left[ 0...,a_{j}^{(l-1)},0... \right ]\left[ \delta_1^{(l)},...\delta_i^{(l)},...\right]^{\top}\\ &=\delta_i^{(l)}a_{j}^{(l-1)} \end{aligned}$ 注解： $\frac{\partial\boldsymbol z^{(l)}}{{w_{ij}}^{(l)}}$ 只有第 $z_i^{(l)}$ 的项目的偏导不为0
更新过程：利用第二部分反向传播计算 $\delta^{(l)}$ ,再结合第一部分，利用第三部分的公式，更新权重矩阵

反向传播算法推导之偏置矩阵：

$\frac{\partial \mathcal{L}\left(\boldsymbol{y}, \hat{\boldsymbol{y}}\right)}{\partial {\boldsymbol b}^{(l)}} =\frac{\partial \boldsymbol z^{(l)}}{{\boldsymbol b}^{(l)}}\frac{\partial \mathcal{L}\left(\boldsymbol{y}, \hat{\boldsymbol{y}}\right)}{\partial \boldsymbol { z}^{(l)}}$ 由于前面已经推导过： $\begin{aligned} \delta^{(l)} &\triangleq \frac{\partial \mathcal{L}(\boldsymbol{y}, \hat{\boldsymbol{y}})}{\partial \boldsymbol{z}^{(l)}} \\ &= \frac{\partial \boldsymbol a^{(l)}}{{\partial \boldsymbol z^{(l)}}}\frac{\partial \boldsymbol{z}^{(l+1)}}{\partial \boldsymbol a^{(l)}}\frac{\partial \mathcal{L}(\boldsymbol{y}, \hat{\boldsymbol{y}})}{\partial \boldsymbol{z}^{(l+1)}} \\ &=\frac{\partial \boldsymbol a^{(l)}}{{\partial \boldsymbol z^{(l)}}}\frac{\partial \boldsymbol{z}^{(l+1)}}{\partial \boldsymbol a^{(l)}}\delta^{(l+1)} \end{aligned}$ 只需要考虑 $\frac{\partial \boldsymbol z^{(l)}}{{\boldsymbol b}^{(l)}}$ ,由于 $\boldsymbol{ z}^{(l+1)}=\boldsymbol{W}^{(l+1)}\boldsymbol{a}^{(l)}+\boldsymbol{b}^{(l+1)}$ ,可知
$\frac{\partial \mathcal{L}\left(\boldsymbol{y}, \hat{\boldsymbol{y}}\right)}{\partial {\boldsymbol b}^{(l)}}= \frac{\partial \boldsymbol z^{(l)}}{{\boldsymbol b}^{(l)}}\delta^{(l)} =\delta^{(l)}$ 更新过程：利用反向传播计算 $\delta^{(l)}$ ,直接更新偏置矩阵
本文的算法公式主要参考邱锡鹏老师的《神经网络与深度学习》

CURIOUS_BOMB

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
杂记：神经网络BP反向传播公式推导【前馈神经网络篇】

杂记：神经网络BP反向传播公式推导【前馈神经网络篇】本篇文章是在学习了邱锡鹏老师的《神经网络与深度学习》之后写得。邱老师写的很好，本篇文章想从初学者的角度对反向传播这块的公式进行整理与推导，省去没有基础的初学者翻阅公式的大量时间。前馈神经网络的简单模型：他的基本结构是：前一层的神经元输出，经过激活函数后，成为后一层神经网络的输入。用公式来表达上述关系就是：z(l+1)=W(l+1)a(l)+b(l+1)a(l)=fl(z(l))\begin{aligned}\boldsymbol{ z}^{(l
复制链接

扫一扫