（《机器学习》完整版系列）附录 ——4、神经网络中的梯度（链式法则的图形助记）

人工干智能

已于 2023-03-31 11:24:52 修改

阅读量385

点赞数

分类专栏：周志华【西瓜书】辅导《机器学习》文章标签：算法人工智能机器学习

于 2023-02-27 12:12:36 首次发布

本文链接：https://blog.csdn.net/qiy_icbc/article/details/129238801

版权

周志华【西瓜书】辅导同时被 2 个专栏收录

143 篇文章 35 订阅

订阅专栏

《机器学习》

143 篇文章 5 订阅

订阅专栏

神经网络中，图形常以“层”体现，“层”中的参数对应为一“组”（向量），而神经网络的逆向传播算法就是梯度的链式法则所体现的传播特点，这里我们再从这一角度来讨论梯度。
复合函数梯度的链式法则式(A58)、式(A59)的图形助记。

神经网络中的梯度

我们归纳总结一下函数的梯度。

（1）当 $y = f (x)$ （自变量为标量，因变量为标量）时
$\begin{align} {\nabla}_{x}y=\frac{\partial y}{\partial x} \tag{A63} \end{align}$

（2）当 $y=f(\boldsymbol{x})$ （自变量为向量，因变量为标量）时，即【西瓜书附录式(A.20)】。
$\begin{align} {\nabla}_{\boldsymbol{x}}y %=(D_{\boldsymbol{x}}y)^{mathrm{T}} =\frac{\partial y}{\partial \boldsymbol{x}} =\left( \left[\frac{\partial y}{\partial x_i} \right] \right) \tag{A64} \end{align}$

要学会判断含向量或矩阵的表达式是否为标量，如， $\boldsymbol{x}^\mathrm{T}\boldsymbol{a}$ 为标量，由此有
$\begin{align} \frac{\partial \boldsymbol{x}^\mathrm{T}\boldsymbol{a}}{\partial \boldsymbol{x}} =\left( \left[\frac{\partial \sum_{i=1}^nx_ia_i}{\partial x_i} \right] \right) =\left( \left[a_i \right] \right) =\boldsymbol{a} \tag{A65} \end{align}$
这即是【西瓜书附录式(A.22)】（注意：该式中的向量 $\boldsymbol{x}$ 改为矩阵 $\mathbf{X}$ 并不成立）。

我们将BP神经网络的隐层抽象成一条线、输出结点视为顶点，这样任一个隐层与输出结点构成一个三角形（如图A.1所示），第一个隐层与顶点构成的三角形最大，其余隐层为该三角形中平行于底的截线段（如图图A.3所示），两隐层截三角形为梯形（如图图A.2所示），后续我们以这种形象的方式进行理解与记忆。

注1：实际上是将神经网络转化为计算图后，再进行这种形象化。

注2：这里博主首创了一套图形助记符号（包含若干图：图A.1、图A.2、图图A.3及图A.4），利用它形象化地助记梯度及其链式法则，能很方便地搞定BP神经网络。

在这里插入图片描述

图A.1 梯度助记（一）

我们以图A.1来辅助记忆：(a)梯度 ${\nabla}_{\boldsymbol{x}}y$ 以三角形表示：底边 $\boldsymbol{x}$ 的 $n$ 个点与顶点 $y$ 的连线有 $n\times 1$ 条，代表这个梯度向量式(A64)；(b)表示自变量向量 $\boldsymbol{x}$ 分拆成两个（ $\boldsymbol{x}_1;\boldsymbol{x}_2$ ）或更多个子向量，对每个子向量 $\boldsymbol{x}_k$ 式(A64)仍成立：
$\begin{align} {\nabla}_{\boldsymbol{x}_k}y =\frac{\partial y}{\partial \boldsymbol{x}_k} =\left( \left[\frac{\partial y}{\partial x_i} \right] \right)_{(x_i \in \boldsymbol{x}_k)} \tag{A66} \end{align}$
则原梯度为子向量梯度的拼接，即
$\begin{align} {\nabla}_{\boldsymbol{x}}y =({\nabla}_{\boldsymbol{x}_1}y\,;\,{\nabla}_{\boldsymbol{x}_2}y) \tag{A67} \end{align}$
极端情况：分拆为一个个的标量，即情形（2）由一组（1）构成的向量。

（3）当 $\boldsymbol{y}=f(\boldsymbol{x})$ （自变量与因变量均为向量）时，由式(A51)及式(A43)有
$\begin{align} {\nabla}_{\boldsymbol{x}}\boldsymbol{y} =\frac{\partial \boldsymbol{y}}{\partial\boldsymbol{x}} =\left( \left[ \frac{\partial y_j}{\partial x_i} \right]_{ij} \right) \tag{A68} \end{align}$

图A.2 梯度助记（二）

我们以图A.2来辅助记忆：(a)梯度矩阵 ${\nabla}_{\boldsymbol{x}}\boldsymbol{y}$ 以梯形表示：底边 $\boldsymbol{x}$ 的 $n$ 个点与顶边 $\boldsymbol{y}$ 的 $m$ 个点是全连接，有 $n\times m$ 条，代表这个梯度矩阵式(A68)的大小；(b)表示自变量向量 $\boldsymbol{x}$ 分拆成两个（ $\boldsymbol{x}_1,\boldsymbol{x}_2$ ）或更多个子向量，对每个子向量 $\boldsymbol{x}_k$ 式(A68)仍成立：
$\begin{align} {\nabla}_{\boldsymbol{x}_k}\boldsymbol{y} =\frac{\partial \boldsymbol{y}}{\partial\boldsymbol{x}_k} =\left( \left[ \frac{\partial y_j}{\partial x_i} \right] \right)_{(x_i \in \boldsymbol{x}_k )} \tag{A69} \end{align}$
同样有拼接关系
$\begin{align} {\nabla}_{\boldsymbol{x}}\boldsymbol{y} =({\nabla}_{\boldsymbol{x}_1}\boldsymbol{y}\,;\,{\nabla}_{\boldsymbol{x}_2}\boldsymbol{y}) \tag{A70} \end{align}$

结合图A.1 和图A.2，我们有如图图A.3所示：

(a)复合函数梯度的链式法则式(A58)、式(A59)助记：“外层三角形（底至顶） ${\nabla}_{\boldsymbol{x}}z$ =底层梯形 ${\nabla}_{\boldsymbol{x}}\boldsymbol{y}$ $\cdot$ 上层三角形 ${\nabla}_{\boldsymbol{y}}z$ ”。

在这里插入图片描述

图A.3 梯度链式法则助记

(b)表示自变量向量 $\boldsymbol{x}$ 分拆成两个（ $\boldsymbol{x}_1,\boldsymbol{x}_2$ ）或更多个子向量，对每个子向量 $\boldsymbol{x}_k$ 链式法则式(A58)、式(A59)仍成立。

如图图A.3所示的梯度规则常用于神经网络的误差逆传播算法（参见第5章）。

我们考虑图A.2(a)中 $\boldsymbol{x}$ 的每点仅出发一条有向线段的情况，它有两种特殊情形：

$(a 1)$ ：当 $\boldsymbol{x}$ 的点与 $\boldsymbol{y}$ 的点一样多时，“一对一”连接时（实际上可把“全连接”中的其余连接视为权重为0），通过调整 $\boldsymbol{x}$ 中元素的次序，可以使得每个连接的两端点下标一致（即 $x_i$ 与 $y_i$ 连接），这时，梯度矩阵为对角矩阵，其主对角线的元素为 $\frac{\partial y_i}{\partial{x}_i}$ （标量）；

$(a 2)$ ：当 $\boldsymbol{x}$ 分为多组，组数与 $\boldsymbol{y}$ 的点一样多，“组与点”形成“一对一”的连接，
$y_i$ 对应的组为 $\boldsymbol{x}_i$ （组的编号为 $i$ ），这时，梯度矩阵仍为“对角矩阵”，但其主对角线上不是标量，而是向量 $\frac{\partial y_i}{\partial\boldsymbol{x}_i}$ 。

两种情形的图示为图A.4，式子为
$\begin{align} {\nabla}_{\boldsymbol{x}}\boldsymbol{y} & ={\mathrm{diag}}(\cdots ,\frac{\partial y_i}{\partial{x}_i},\cdots)={\mathrm{diag}}(\cdots ,{\nabla}_{x_i}y_i,\cdots) \quad \text{若}\ (a1)\tag{A71} \\ {\nabla}_{\boldsymbol{x}}\boldsymbol{y} & =\mathrm{diag}(\cdots ,\frac{\partial y_i}{\partial\boldsymbol{x}_i},\cdots) ={\mathrm{diag}}(\cdots ,{\nabla}_{\boldsymbol{x}_i}y_i,\cdots)\quad \text{若}\ (a2)\tag{A72} \end{align}$
注：式(A71)与式(A72)两式形式一样，但式(A71)中的 $x_i$ 为标量，式(A72)中的 $\boldsymbol{x}_i$ 为向量。
在这里插入图片描述

图A.4 梯度的特例

$(a 3)$ ：更进一步将 $(a 2)$ 情形加强为每组大小相同（设为 $m$ ），则将向量 $\boldsymbol{x}$ 依组拆断成 $n$ 个子向量 $\boldsymbol{x}_i$ ，子向量依次向右排列，形成矩阵，即
$\begin{align*} \mathbf{X} & =(\boldsymbol{x}_1\,,\, \boldsymbol{x}_2\,,\, \cdots\,,\, \boldsymbol{x}_n) %=([x_{ji}]_{ji})_{m\times n} \notag \\ \boldsymbol{y} & =([y_i])=([f_i(\boldsymbol{x}_i)]) \end{align*}$
这时，由式(A72)有
$\begin{align} {\nabla}_{\boldsymbol{x}}\boldsymbol{y} =\mathrm{diag}(\cdots ,\frac{\partial f_i(\boldsymbol{x}_i)}{\partial\boldsymbol{x}_i},\cdots) \quad \text{若}\ (a3) \tag{A73} \end{align}$

此情形下，向量 $\boldsymbol{x}$ 和矩阵 $\mathbf{X}$ 可按上述方式相互转换
$\begin{align*} \mathbf{X}=(\boldsymbol{x}_1\,,\, \boldsymbol{x}_2\,,\, \cdots\,,\, \boldsymbol{x}_n) \Longleftrightarrow \boldsymbol{x}=(\boldsymbol{x}_1\,;\, \boldsymbol{x}_2\,;\, \cdots\,;\, \boldsymbol{x}_n) \end{align*}$

例如， $\boldsymbol{y}=\mathbf{X}^\mathrm{T}\boldsymbol{a}$ ，将 $\mathbf{X}$ 按列依次向下拼接，形成向量 $\boldsymbol{x}$ ，则
$\begin{align*} \mathbf{X}^\mathrm{T} & =(\boldsymbol{x}_1^\mathrm{T}\,;\, \boldsymbol{x}_2^\mathrm{T}\,;\, \cdots\,;\, \boldsymbol{x}_n^\mathrm{T})\quad \text{（由式(A14)）}\notag \\ \boldsymbol{y} & =([y_i])=([\boldsymbol{x}_i^\mathrm{T}\boldsymbol{a}])\notag \end{align*}$
满足上述 $(a 3)$ 由式(A73)有
$\begin{align} {\nabla}_{\boldsymbol{x}}\boldsymbol{y} & ={\nabla}_{\boldsymbol{x}}\mathbf{X}^\mathrm{T}\boldsymbol{a}\notag \\ & =\mathrm{diag}(\cdots ,\frac{\partial {\boldsymbol{x}_i}^\mathrm{T}\boldsymbol{a}}{\partial\boldsymbol{x}_i},\cdots) \notag \\ & ={\mathrm{diag}}(\cdots ,\boldsymbol{a},\cdots) \qquad \text{（由式(A65)）} \tag{A74} \end{align}$
其中，“对角矩阵”中主对角线全为向量 $\boldsymbol{a}$ ，且个数为矩阵 $\mathbf{X}$ 的列数 $n$ ，即向量 $\boldsymbol{x}$ 等分成的子向量数（对应 $\boldsymbol{y}$ 的大小）；而 $\boldsymbol{a}$ 的大小为矩阵 $\mathbf{X}$ 的行数 $m$ ，即向量 $\boldsymbol{x}$ 等分成的子向量大小。
然而，在 $\boldsymbol{y}=\mathbf{A}^\mathrm{T}\boldsymbol{x}$ 中，不存在分组关系，故只能按式(A68)计算
$\begin{align} {\nabla}_{\boldsymbol{x}}\boldsymbol{y} & =\frac{\partial \mathbf{A}^\mathrm{T}\boldsymbol{x}}{\partial\boldsymbol{x}}\notag \\ & =\frac{\partial \left( \left[ a_{ij} \right]_{ij} \right)^\mathrm{T} \left( \left[x_i \right] \right) }{\partial\boldsymbol{x}}\notag \\ & =\frac{\partial \left( \left[ \sum_{i=1}^na_{ij}x_{i} \right]_j \right)}{\partial\boldsymbol{x}}\notag \\ & =\left( \left[ \frac{\partial \sum_{k=1}^na_{kj}x_{k}}{\partial x_i} \right]_{ij} \right)\qquad \text{（由式(A68)）}\notag \\ & =\left( \left[ a_{ij} \right]_{ij} \right)\notag \\ & =\mathbf{A} \tag{A75} \end{align}$