深度神经网络中的反向传播算法以及对softmax函数求导

最新推荐文章于 2022-10-20 22:28:05 发布

wowotou1998

最新推荐文章于 2022-10-20 22:28:05 发布

阅读量169

点赞数 1

分类专栏：机器学习文章标签：深度学习线性代数

本文链接：https://blog.csdn.net/qq_26071603/article/details/116743401

版权

机器学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

神经网络的模型结构

在这里插入图片描述

$\begin{gathered} a_1^{(2)} = \sigma(\mathbf{W} _{10}^{(1)}{x_0} + \mathbf{W} _{11}^{(1)}{x_1} + \mathbf{W} _{12}^{(1)}{x_2} + \mathbf{W} _{13}^{(1)}{x_3}) \\ a_2^{(2)} = \sigma(\mathbf{W} _{20}^{(1)}{x_0} + \mathbf{W} _{21}^{(1)}{x_1} + \mathbf{W} _{22}^{(1)}{x_2} + \mathbf{W} _{23}^{(1)}{x_3}) \\ a_3^{(2)} = \sigma(\mathbf{W} _{30}^{(1)}{x_0} + \mathbf{W} _{31}^{(1)}{x_1} + \mathbf{W} _{32}^{(1)}{x_2} + \mathbf{W} _{33}^{(1)}{x_3}) \\ \end{gathered}$

在这里插入图片描述

$\begin{gathered} a_0^{(3)} = \sigma(\mathbf{W} _{10}^{(2)}a_0^{(2)} + \mathbf{W} _{11}^{(2)}a_1^{(2)} + \mathbf{W} _{12}^{(2)}a_2^{(2)} + \mathbf{W} _{13}^{(2)}a_3^{(2)}) \\ \end{gathered}$

基本符号

$\boldsymbol{W}^{(l)}$ 表示第 $l$ 层的参数矩阵,

$\boldsymbol{z}^{(l)}$ 表示第 $l$ 层在激活函数之前的输入,

$\sigma$ 表示激活函数,

$\boldsymbol{a}^{(l)}$ 表示第 $l$ 层的输出, $\boldsymbol{a}^{(l)} = \sigma(\boldsymbol{z}^{(l)})$ ,也可以看成第 $l + 1$ 层的输入,

$\boldsymbol{a}^{L}$ 表示最终神经网络的输出结果.

$\boldsymbol{a}^{L}$ 一般在计算 $\text{Loss}$ 时,还需要经过 $\text{softmax}$ 操作才可以计算损失.

数据在神经网络中的流动路线

$\begin{aligned} {\boldsymbol{a}^{(1)}} &= \boldsymbol{x} \\ {\boldsymbol{z}^{(2)}} &= {\mathbf{W} ^{(1)}}{\boldsymbol{a}^{(1)}} \\ {\boldsymbol{a}^{(2)}} &= \sigma({\boldsymbol{z}^{(2)}}) \\ {\boldsymbol{z}^{(3)}} &= {\mathbf{W} ^{(2)}}{\boldsymbol{a}^{(2)}} \\ {\boldsymbol{a}^{(3)}} &= \sigma({\boldsymbol{z}^{(3)}}) \\ {\boldsymbol{z}^{(4)}} &= {\mathbf{W} ^{(3)}}{\boldsymbol{a}^{(3)}} \\ & \cdots\\ {\boldsymbol{z}^{(L)}} &= {\mathbf{W} ^{(L)}}{\boldsymbol{a}^{(L-1)}} \\ {\boldsymbol{a}^{(L)}} &= \sigma({\boldsymbol{z}^{(L)}}) \\ \end{aligned}$

损失函数

$\begin{aligned} \text{Loss} &=- \boldsymbol{y}^{T} \ln \hat{\boldsymbol{y}} \\ &=− \sum_{i=1}^{\text{K}} y_i \ln \hat{y}_i \end{aligned}$
其中 $\boldsymbol{y} \in\{0,1\}^{C}$ 为标签, $\boldsymbol{\hat{y}}$ 为神经网络的预测值.

$\text{softmax}$ 函数

$\hat{y}_k = \text{softmax}(\boldsymbol{a}^{(L)})_k = \frac{e^{a_k^{(L)}}} {\sum_{i = 1}^{K} e^{a_i^{(L)}}}$

分子布局与分母布局

矩阵微积分的表示通常有两种符号约定: 分子布局 ( Numerator Layout) 和分母布局 ( Denominator Layout). 两者的区别是一个标量关于一个向量的导数是写成列向量还是行向量.标量关于向量的偏导数, 对于 $M$ 维向量 $\boldsymbol{x} \in \mathbb{R}^{M}$ 和函数 $y=f(\boldsymbol{x}) \in \mathbb{R}$ , 则 $y$ 关于 $\boldsymbol{x}$ 的偏导数为

$\begin{aligned} \text{分母布局 }\frac{\partial y}{\partial x} & =\left[\frac{\partial y}{\partial x_{1}}, \cdots, \frac{\partial y}{\partial x_{M}}\right]^{T} & \in \mathbb{R}^{M \times 1}, \\ \text{分子布局 }\frac{\partial y}{\partial x} & =\left[\frac{\partial y}{\partial x_{1}}, \cdots, \frac{\partial y}{\partial x_{M}}\right] & \in \mathbb{R}^{1 \times M} . \end{aligned}$

在分母布局中, $\frac{\partial y}{\partial x}$ 为列向量;而在分子布局中, $\frac{\partial y}{\partial x}$ 为行向量. 向量关于标量的偏导数, 对于标量 $\in \mathbb{R}$ 和函数 $\boldsymbol{y}=f(x) \in \mathbb{R}^{N}$ , 则 $\boldsymbol{y}$ 关于 $x$ 的偏导数为

$\text{分母布局 }\frac{\partial \boldsymbol{y}}{\partial x}=\left[\frac{\partial y_{1}}{\partial x}, \cdots, \frac{\partial y_{N}}{\partial x}\right] \quad \in \mathbb{R}^{1 \times N} \\ \text{分子布局 } \frac{\partial \boldsymbol{y}}{\partial x}=\left[\frac{\partial y_{1}}{\partial x}, \cdots, \frac{\partial y_{N}}{\partial x}\right]^{T} \quad \in \mathbb{R}^{N \times 1}$
在分母布局中, $\frac{\partial y}{\partial x}$ 为行向量;而在分子布局中, $\frac{\partial y}{\partial}$ 为列向量.

因为 $\frac{\partial \mathcal{L}(\boldsymbol{y} \hat{\boldsymbol{y}})}{\partial \boldsymbol{W}^{(l)}}$ 的计算涉及向量对矩阵的微分, 十分繁琐, 因此我们先计算 $\mathcal{L}(\boldsymbol{y}, \hat{\boldsymbol{y}})$ 关于参数矩阵中每
个元素的偏导数.

反向传播算法

不失一般性，对第𝑙 层中的参数 $\boldsymbol{W}^{(l)}$ 和 $\boldsymbol{b}^{(l)}$ 计算偏导数．这里使用向量或矩阵来表示多变量函数的偏导数，并使用分子布局表示，根据链式法则，
$\begin{array}{l} \frac{\partial \mathcal{L}(\boldsymbol{y}, \hat{\boldsymbol{y}})}{\partial w_{i j}^{(l)}}=\frac{\partial \mathcal{L}(\boldsymbol{y}, \hat{\boldsymbol{y}})}{\partial \mathbf{z}^{(l)}}\frac{\partial \boldsymbol{z}^{(l)}}{\partial w_{i j}^{(l)}}, \\ \frac{\partial \mathcal{L}(\boldsymbol{y}, \hat{\boldsymbol{y}})}{\partial \boldsymbol{b}^{(l)}} =\frac{\partial \mathcal{L}(\boldsymbol{y}, \hat{\boldsymbol{y}})}{\partial \boldsymbol{z}^{(l)}} \frac{\partial \boldsymbol{z}^{(l)}}{\partial \boldsymbol{b}^{(l)}}, \end{array}$

上述两个公式中的第二项都是目标函数关于第 $l$ 层的神经元 $\boldsymbol{z}^{(l)}$
的偏导数，称为误差项，可以一次计算得到．这样我们只需要计算三个偏导数，分别为 $\frac{\partial \boldsymbol{z}^{(l)}}{\partial w_{i j}^{(l)}}, \frac{\partial \boldsymbol{z}^{(l)}}{\partial \boldsymbol{b}^{(l)}}$ 和 $\frac{\partial \mathcal{L}(\boldsymbol{y}, \hat{\boldsymbol{y}})}{\partial \boldsymbol{z}^{(l)}}$

$(1)$ 计算偏导数 $\frac{\partial \boldsymbol{z}^{(l)}}{\partial w_{i j}^{(l)}} \quad$ 因 $z^{(l)}=\boldsymbol{W}^{(l)} \boldsymbol{a}^{(l-1)}+\boldsymbol{b}^{(l)}$ , 偏导数

$\begin{aligned} \frac{\partial \boldsymbol{z}^{(l)}}{\partial w_{i j}^{(l)}} &=\Big [\frac{\partial z_{1}^{(l)}}{\partial w_{i j}^{(l)}}, \cdots, {\frac{\partial z_{i}^{(l)}}{\partial w_{i j}^{(l)}}}, \cdots, \frac{\partial z_{M_{l}}^{(l)}}{\partial w_{i j}^{(l)}} \Big] \\ &=\Big[0, \cdots, \frac{(\boldsymbol{w}_{i:}^{(l)} \boldsymbol{a}^{(l-1)}+ b_i^{(l)} )} {\partial{w_{ij}^{(l)}}} \cdots, 0 \Big] \\ & = \Big[0,\ldots,a_{j}^{(l-1)},\ldots,0 \Big]^{T} \end{aligned}$

其中 $\boldsymbol{w}_{i:}^{(l)}$ 为权重矩阵 $\boldsymbol{W}^{(l)}$ 的第 $i$ 行.

$(2)$ 计算偏导数 $\frac{\partial \boldsymbol{z}^{(l)}}{\partial b^{(l)}} \quad$ 因为 $\boldsymbol{z}^{(l)}$ 和 $\boldsymbol{b}^{(l)}$ 的函数关系为 $\boldsymbol{z}^{(l)}=W^{(l)} \boldsymbol{a}^{(l-1)}+$
$\boldsymbol{b}^{(l)}$ , 因此偏导数

$\frac{\partial \boldsymbol{z}^{(l)}}{\partial \boldsymbol{b}^{(l)}}=\boldsymbol{I}_{M_{l}} \in \mathbb{R}^{M_{l} \times M_{l}}$

为 $M_{l} \times M_{l}$ 的单位矩阵.

$(3)$ 计算偏导数 $\frac{\partial \mathcal{L}(\boldsymbol{y}, \hat{\boldsymbol{y}})}{\partial \boldsymbol{z}^{(l)}}$ 偏导数 $\frac{\partial \mathcal{L}(\boldsymbol{y}, \hat{\boldsymbol{y}})}{\partial \boldsymbol{z}^{(l)}}$ 表示第 $l$ 层神经元对最终损失
的影响,也反映了最终损失对第 $l$ 层神经元的敏感程度, 因此一般称为第 $l$ 层神经
元的误差项,用 $\delta^{(l)}$ 来表示.

$\delta^{(l)} \triangleq \frac{\partial \mathcal{L}(\boldsymbol{y}, \hat{\boldsymbol{y}})}{\partial \boldsymbol{z}^{(l)}} \in \mathbb{R}^{M_{l}}$

误差项 $\delta^{(l)}$ 也间接反映了不同神经元对网络能力的贡献程度, 从而比较好地解决
了贡献度分配问题 ( Credit Assignment Problem, CAP ).
根据 $\boldsymbol{z}^{(l+1)}=\boldsymbol{W}^{(l+1)} \boldsymbol{a}^{(l)}+\boldsymbol{b}^{(l+1)}$ , 有(这里采用的是分母布局)

$\frac{\partial \boldsymbol{z}^{(l+1)}}{\partial \boldsymbol{a}^{(l)}}= \boldsymbol{W}^{(l+1)} \in \mathbb{R}^{M_{l} \times M_{l+1}}$

根据 $\boldsymbol{a}^{(l)}=\sigma_{l}\left(\boldsymbol{z}^{(l)}\right)$ ,其中 $\sigma_{l}(\cdot)$ 为第 $l$ 层神经网络中按位计算的激活函数, 因此有

$\begin{aligned} \frac{\partial \boldsymbol{a}^{(l)}}{\partial \boldsymbol{z}^{(l)}} &=\frac{\partial \sigma_{l}\left(\boldsymbol{z}^{(l)}\right)}{\partial \boldsymbol{z}^{(l)}} \\ &= \left[ \begin{aligned} \frac{\partial \sigma_{l}\left({z}^{(l)}\right)_{1}}{\partial {z}_{1}^{(l)}} \frac{\partial \sigma_{l}\left({z}^{(l)}\right)_{1}}{\partial {z}_{2}^{(l)}} \ldots \frac{\partial \sigma_{l}\left({z}^{(l)}\right)_{1}}{\partial {z}_{m^l}^{(l)}} \\ \frac{\partial \sigma_{l}\left({z}^{(l)}\right)_{2}}{\partial {z}_{1}^{(l)}} \frac{\partial \sigma_{l}\left({z}^{(l)}\right)_{2}}{\partial {z}_{2}^{(l)}} \ldots \frac{\partial \sigma_{l}\left({z}^{(l)}\right)_{2}}{\partial {z}_{m^l}^{(l)}} \\ \quad \vdots \qquad \quad \vdots \qquad \quad \ddots \quad \quad \vdots \qquad \\ \frac{\partial \sigma_{l}\left({z}^{(l)}\right)_{m^l}}{\partial {z}_{1}^{(l)}} \frac{\partial \sigma_{l}\left({z}^{(l)}\right)_{m^l}}{\partial {z}_{2}^{(l)}} \ldots \frac{\partial \sigma_{l}\left({z}^{(l)}\right)_{m^l}}{\partial {z}_{m^l}^{(l)}} \\ \end{aligned}\right] \\ &=\left[ \begin{aligned} \frac{\partial \sigma_{l}\left({z}^{(l)}\right)_{1}}{\partial {z}_{1}^{(l)}} \qquad 0 \qquad \ldots \qquad 0 \qquad \\ \qquad 0 \qquad \frac{\partial \sigma_{l}\left({z}^{(l)}\right)_{2}}{\partial {z}_{2}^{(l)}} \ldots \qquad 0 \qquad \\ \quad \vdots \qquad \quad \vdots \qquad \quad \ddots \quad \quad \vdots \qquad \\ \quad 0 \quad \qquad 0 \quad \cdots \quad \frac{\partial \sigma_{l}\left({z}^{(l)}\right)_{m^l}}{\partial {z}_{m^l}^{(l)}} \\ \end{aligned}\right] \\ &=\text{diag}\left(\sigma_{l}^{\prime}\left(\boldsymbol{z}^{(l)}\right)\right) \quad \in \mathbb{R}^{M_{l} \times M_{l}} \end{aligned}$

因此,根据链式法则 ,第 $l$ 层的误差项为

$\begin{aligned} 1\times M_{l} &= (1\times M_{l+1})(M_{l+1} \times M_{l})(M_{l} \times M_{l}) \\ \delta^{(l)} &= \frac{\partial \mathcal{L}(\boldsymbol{y}, \hat{\boldsymbol{y}})}{\partial \boldsymbol{z}^{(l)}} \\ &= \frac{\partial \mathcal{L}(\boldsymbol{y}, \hat{\boldsymbol{y}})}{\partial \boldsymbol{z}^{(l+1)}} . \frac{\partial \boldsymbol{z}^{l+1}}{\partial \boldsymbol{a}^{(l)}} . \frac{\partial \boldsymbol{a}^{l}}{\partial \boldsymbol{z}^{(l)}} \\ & = \delta^{(l+1)}. \boldsymbol{W}^{(l+1)} . \text{diag}(\sigma'(\boldsymbol{z}^{(l)})) \end{aligned}$

从公式 $\delta^{(l)}= \delta^{(l+1)}. \boldsymbol{W}^{(l+1)} . \text{diag}(\sigma'(\boldsymbol{z}^{(l)}))$ 可以看出，第 $l$ 层的误差项可以通过第 $l + 1$ 层的误差项计算得到, 这就是误差的反向传播(Back Propagation， BP). 反向传播算法的含义是：第 $l$ 层的一个神经元的误差项(或敏感性)是所有与该神经元相连的第 $l + 1$ 层的神经元的误差项的权重和. 然后,再乘上该神经元激活函数的梯度. 由于得到 $\delta^{(l)}$ 的值需要得到 $\delta^{(l+1)}$ 的值,而想要得到 $\delta^{(l+1)}$ 的值又需要得到 $\delta^{(l+2)}$ , 如此一直反向传播下去(与递归过程很类似),直到最后一个 $\delta^{(L)}$ , $\delta^{(L)}$ 是损失函数对输出层(即最后一层)的求导结果.则有:

$\begin{aligned} 1\times M_{l} &= (1\times M_{l+1})(M_{l+1} \times M_{l})(M_{l} \times M_{l}) \\ \delta^{(l)} & = \delta^{(l+1)}. \boldsymbol{W}^{(l+1)} . \text{diag}(\sigma'(\boldsymbol{z}^{(l)})) \\ & = \delta^{(l+2)}. \boldsymbol{W}^{(l+2)} . \text{diag}(\sigma'(\boldsymbol{z}^{(l+1)})). \boldsymbol{W}^{(l+1)} . \text{diag}(\sigma'(\boldsymbol{z}^{(l)})) \\ &=\delta^{(L)} \prod \limits_{i=L}^{l+1} \boldsymbol{W}^{(i)} . \text{diag}(\sigma'(\boldsymbol{z}^{(i-1)})) \end{aligned}$

对最后一层进行求导 $\frac{\partial \mathcal{L}(\boldsymbol{y}, \hat{\boldsymbol{y}})}{\partial \boldsymbol{z}^{(L)}}$

神经网络结构图

$\delta^{(L)}$ 的不同形式如下:

$\begin{aligned} \delta^{(L)} &= \frac{\partial \mathcal{L}(\boldsymbol{y}, \hat{\boldsymbol{y}})}{\partial \boldsymbol{z}^{(L)}} \\ & = \frac{-\sum_{i=1}^{K} y_i \ln \hat{y}_i}{\partial \boldsymbol{z}^{(L)}} \\ & = \frac{-\sum_{i=1}^{K} y_i \ln \left( \text{softmax}(\boldsymbol{a}^{(L)}) \right)_i } {\partial \boldsymbol{z}^{(L)}} \\ & = \frac{-\sum_{i=1}^{K} y_i \ln \left( \text{softmax}( \sigma(\boldsymbol{z}^{(L)})) \right)_i } {\partial \boldsymbol{z}^{(L)}} \\ \end{aligned}$

$\begin{aligned} \delta^{(L)} &= \frac{\partial \mathcal{L}(\boldsymbol{y}, \hat{\boldsymbol{y}})}{\partial \boldsymbol{z}^{(L)}} \\ & = \frac{\boldsymbol{y} (\ln \hat{\boldsymbol{y}})^{T}}{\partial \boldsymbol{z}^{(L)}} \\ & = \frac{\boldsymbol{y} \ln \text{softmax}(\boldsymbol{a}^{(L)})^{T}}{\partial \boldsymbol{z}^{(L)}} \\ & = \frac{\boldsymbol{y} \ln \text{softmax}( \sigma(\boldsymbol{z}^{(L)}))^{T} } {\partial \boldsymbol{z}^{(L)}} \\ \end{aligned}$

$\begin{aligned} \delta^{(L)} &= \frac{\partial \mathcal{L}(\boldsymbol{y}, \hat{\boldsymbol{y}})}{\partial \boldsymbol{z}^{(L)}} \\ &= \frac{\partial \mathcal{L}}{\partial \boldsymbol{z}^{(L)}} \\ &=\frac{\partial \mathcal{L}}{\partial \boldsymbol{\hat{y}}} \frac{\partial\boldsymbol{\hat{y}} }{\partial \boldsymbol{a}^{(L)}} \frac{\partial \boldsymbol{a}^{(L)} }{\partial \boldsymbol{z}^{(L)}} \end{aligned}$

公式	大小	分子分母
$\frac{\partial \mathcal{L}}{\partial \boldsymbol{\hat{y}}}$	1*K	标量/矢量
$\frac{\partial\boldsymbol{\hat{y}} }{\partial \boldsymbol{a}^{(L)}}$	K*K	矢量/矢量
$\frac{\partial \boldsymbol{a}^{(L)} }{\partial \boldsymbol{z}^{(L)}}$	K*K	矢量/矢量

计算 $\frac{\partial \mathcal{L}}{\partial \boldsymbol{\hat{y}}}$

$\begin{aligned} \frac{\partial \mathcal{L}}{\partial \boldsymbol{\hat{y}}} &= \frac{\partial \boldsymbol{y}\ln \boldsymbol{\hat{y}}^{T}}{\partial \boldsymbol{\hat{y}}} \\ & = \left[ y_1 \frac{1}{\hat{y_1}}, y_2 \frac{1}{\hat{y_2}}, \cdots,y_K \frac{1}{\hat{y}_K} \right] \end{aligned}$

计算 $\frac{\partial\boldsymbol{\hat{y}} }{\partial \boldsymbol{a}^{(L)}}$

$\frac{\partial\boldsymbol{\hat{y}} }{\partial \boldsymbol{a}^{(L)}} = \left[ \begin{aligned} \frac{\partial \hat{y}_{1}}{\partial a_{1}^{(L)}} \frac{\partial \hat{y}_{1}}{\partial a_{2}^{(L)}} \ldots \frac{\partial \hat{y}_{1}}{\partial a_{K}^{(L)}} \\ \frac{\partial \hat{y}_{2}}{\partial a_{1}^{(L)}} \frac{\partial \hat{y}_{2}}{\partial a_{2}^{(L)}} \ldots \frac{\partial \hat{y}_{2}}{\partial a_{K}^{(L)}} \\ \vdots \quad \quad \vdots \quad \quad \ddots \quad \vdots \quad \\ \frac{\partial \hat{y}_{K}}{\partial a_{1}^{(L)}} \frac{\partial \hat{y}_{K}}{\partial a_{2}^{(L)}} \ldots \frac{\partial \hat{y}_{K}}{\partial a_{K}^{(L)}} \\ \end{aligned}\right]$

$\quad j=i:$
$\begin{aligned} \frac{\partial \hat{y}_{j}}{\partial a_{i}^{(L)}} &=\frac{\partial \left(\frac{e^{a_{j}^{(L)}}}{\sum_{k} e^{a_{k}^{(L)}}}\right) }{\partial a_{i}^{(L)}} \\ &=\frac{\partial \left(\frac{e^{a_{j}^{(L)}}}{\sum_{k} e^{a_{k}^{(L)}}}\right) }{\partial a_{j}^{(L)}} \\ &=\frac{\left(e^{a_{j}^{(L)}}\right)^{\prime} \cdot \sum_{k} e^{a_{k}^{(L)}}-e^{a_{j}^{(L)}} \cdot e^{a_{j}^{(L)}}}{\left(\sum_{k} e^{a_{k}^{(L)}}\right)^{2}} \\ &=\frac{e^{a_{j}^{(L)}}}{\sum_{k} e^{a_{k}^{(L)}}}-\frac{e^{a_{j}^{(L)}}}{\sum_{k} e^{a_{k}^{(L)}}} \cdot \frac{e^{a_{j}^{(L)}}}{\sum_{k} e^{a_{k}^{(L)}}} =\hat{y}_{j}\left(1-\hat{y}_{j}\right) \end{aligned}$

$\quad j \neq i:$
$\begin{aligned} \frac{\partial \hat{y}_{j}}{\partial a_{i}^{(L)}} &=\frac{\partial \left(\frac{e^{a_{j}^{(L)}}}{\sum_{k} e^{a_{k}^{(L)}}}\right) }{\partial a_{i}^{(L)}} \\ &=\frac{0 \cdot \sum_{k} e^{a_{k}^{(L)}}-e^{a_{i}^{(L)}} \cdot e^{a_{j}^{(L)}}} {\left(\sum_{k} e^{a_{k}^{(L)}}\right)^{2}} \\ &=-\frac{e^{a_{i}^{(L)}}}{\sum_{k} e^{a_{k}^{(L)}}} \cdot \frac{e^{a_{j}^{(L)}}}{\sum_{k} e^{a_{k}^{(L)}}} =-\hat{y}_{i} \hat{y}_{j} \end{aligned}$

计算 $\frac{\partial \boldsymbol{a}^{(L)} }{\partial \boldsymbol{z}^{(L)}}$

由于这里是属于激活函数的部分即
$\boldsymbol{a}^{(L)} = \sigma(\boldsymbol{z}^{(L)})$
并且激活函数是逐元素进行运算,则有
$\frac{\partial \boldsymbol{a}^{(L)} }{\partial \boldsymbol{z}^{(L)}} = \text{diag}(\sigma'(\boldsymbol{z}^{(L)}))$

最终的 $\delta^{(L)}$ 结果

则总的表达式如下
$\begin{aligned} (1\times M_{L}) &= (1\times M_{L})(M_{L} \times M_{L})(M_{l} \times M_{L}) = 1\times M_{L} \\ \delta^{(L)} &=\frac{\partial \mathcal{L}}{\partial \boldsymbol{\hat{y}}} \frac{\partial\boldsymbol{\hat{y}} }{\partial \boldsymbol{a}^{(L)}} \frac{\partial \boldsymbol{a}^{(L)} }{\partial \boldsymbol{z}^{(L)}}\\ &=\left[ y_1 \frac{1}{\hat{y_1}}, y_2 \frac{1}{\hat{y_2}}, \cdots,y_K \frac{1}{\hat{y}_K} \right] \left[ \begin{aligned} \frac{\partial \hat{y}_{1}}{\partial a_{1}^{(L)}} \frac{\partial \hat{y}_{1}}{\partial a_{2}^{(L)}} \ldots \frac{\partial \hat{y}_{1}}{\partial a_{K}^{(L)}} \\ \frac{\partial \hat{y}_{2}}{\partial a_{1}^{(L)}} \frac{\partial \hat{y}_{2}}{\partial a_{2}^{(L)}} \ldots \frac{\partial \hat{y}_{2}}{\partial a_{K}^{(L)}} \\ \vdots \quad \quad \vdots \quad \quad \ddots \quad \vdots \quad \\ \frac{\partial \hat{y}_{K}}{\partial a_{1}^{(L)}} \frac{\partial \hat{y}_{K}}{\partial a_{2}^{(L)}} \ldots \frac{\partial \hat{y}_{K}}{\partial a_{K}^{(L)}} \\ \end{aligned}\right] \text{diag}(\sigma'(\boldsymbol{z}^{(L)})) \end{aligned}$

最终对 $\frac{\partial \mathcal{L}(\boldsymbol{y}, \hat{\boldsymbol{y}})}{\partial w_{i j}^{(l)}}$ 的求导结果

因此,当我们将上述所有结果汇总即可得到最终对 $\frac{\partial \mathcal{L}(\boldsymbol{y}, \hat{\boldsymbol{y}})}{\partial w_{i j}^{(l)}}$ 的求导结果

$\begin{aligned} (1\times 1) &= (1\times M_{l})(M_{l} \times 1) = (1\times 1) = 1 \\ \frac{\partial \mathcal{L}(\boldsymbol{y}, \hat{\boldsymbol{y}})}{\partial w_{i j}^{(l)}} &=\frac{\partial \mathcal{L}(\boldsymbol{y}, \hat{\boldsymbol{y}})}{\partial \mathbf{z}^{(l)}}\frac{\partial \boldsymbol{z}^{(l)}}{\partial w_{i j}^{(l)}} \\ &= \frac{\partial \mathcal{L}(\boldsymbol{y}, \hat{\boldsymbol{y}})}{\partial \mathbf{z}^{(l)}}\frac{\partial \boldsymbol{z}^{(l)}}{\partial w_{i j}^{(l)}} \\ &=\delta^{(L)} \left( \prod \limits_{i=L}^{l+1} \boldsymbol{W}^{(i)} . \text{diag}(\sigma'(\boldsymbol{z}^{(i-1)})) \right) \Big[0,\ldots,a_{j}^{(l-1)},\ldots,0 \Big]^{T} \end{aligned}$

由丄式可知,在求导 $\frac{\partial \mathcal{L}(\boldsymbol{y}, \hat{\boldsymbol{y}})}{\partial w_{i j}^{(l)}}$ 时,距离最后一层越近( $l$ 越接近 $L$ ),则求导所需的计算量越少, 并且计算靠近输入层的参数需要靠近输出层的一些数据,这就是反向传播.