（《机器学习》完整版系列）第5章神经网络——5.4 BP算法的高级表达（简洁之美）-CSDN博客

本文链接：https://blog.csdn.net/qiy_icbc/article/details/130109778

对数学成绩好的同学，可以学习BP算法的高级表达，即由向量和矩阵表达BP算法中的公式。

BP算法的高级表达

在博偏导数与梯度中，我们提到梯度的偏导数表达有两种形式，一是整体形式；二是分量形式。【西瓜书式(5.11) $\,\thicksim$ (5.14)】及其推导过程——误差逆传播算法均采取分量形式，这里我们再用整体形式处理，主要是针对数学成绩好的同学，你可视其为BP算法的高级表达。

第一步：画计算图

我们将【西瓜书图5.7】BP网络的前馈运算过程（从输入至目标函数 $E_k$ ）的计算图画出来，如图 11所示，它关注“运算过程”的分拆和复合。图中，实圆圈表示变量（向量或标量），虚圆圈表示常量，箭头线表示运算方向。对比【西瓜书图5.7】，有：（1）【西瓜书图5.7】中的结点在这里仍体现为结点，但这里每层用一个圆圈表示向量，如， $\boldsymbol{x}=(x_1;x_2;\cdots;x_d)$ ，其余情况类似；（2）【西瓜书图5.7】中的连线组在这里却体现为结点（实际上是表示这些连线上的权重组成的向量）。另外，这里还增加了一些结点，包括将复合过程分拆和计算目标函数。
图11 计算图

图11 计算图

第二步：写函数式

图 11中从下至上，体现了前馈运算过程，将过程的式子依次表达出来（其中，依神经网络中的梯度式(A74)处的讨论，式(5.20)、式(5.22)两式已将分组向量转化为矩阵），即
$\begin{align} \boldsymbol{\alpha } & =\mathbf{V}^\mathrm{T}\boldsymbol{x} \tag{5.20} \\ & \text{其中：} \mathbf{V}^\mathrm{T}=(\boldsymbol{v}_{.1}^\mathrm{T};\boldsymbol{v}_{.2}^\mathrm{T};\cdots;\boldsymbol{v}_{.q}^\mathrm{T})\text{即：}\mathbf{V}=\left(\left[v_{ih} \right]_{ih}\right)_{d\times q}\notag \\ \boldsymbol{b } & =([f({\alpha}_h-{\gamma }_h)]_h) \tag{5.21} \\ \boldsymbol{\beta } & =\mathbf{W}^\mathrm{T}\boldsymbol{b} \tag{5.22} \\ & \text{其中：} \mathbf{W}^\mathrm{T}=(\boldsymbol{w}_{.1}^\mathrm{T};\boldsymbol{w}_{.2}^\mathrm{T};\cdots;\boldsymbol{w}_{.l}^\mathrm{T})\text{即：}\mathbf{W}=\left(\left[w_{hj} \right]_{hj}\right)_{q\times l}\notag \\ \boldsymbol{\hat{y}}^k & =([f({\beta }_j-{\theta }_j)]_j) \tag{5.23} \\ E_k & =\frac{1}{2}(\boldsymbol{\hat{y}}^k-\boldsymbol{y}^k)^\mathrm{T}(\boldsymbol{\hat{y}}^k-\boldsymbol{y}^k)\tag{5.24} \end{align}$
式(5.20)至式(5.24)这五个函数对应于图 11中五层箭头线。

第三步：计算函数的梯度

根据神经网络中的梯度的方法，可分别求出上述函数的梯度。

由神经网络中的梯度式(A74)，得式(5.20)关 $\boldsymbol{v}$ 的梯度
$\begin{align} {\nabla}_{\boldsymbol{v}}\boldsymbol{\alpha } =\mathrm{diag}(\boldsymbol{x},\cdots ,\boldsymbol{x},\cdots,\boldsymbol{x}) \quad \text{（其中$\boldsymbol{x}$的个数为$q$）} \tag{5.25} \end{align}$

由神经网络中的梯度式(A71)，得式(5.21)关于 $\boldsymbol{\alpha }$ 和 $\boldsymbol{\gamma }$ 的梯度
$\begin{align} {\nabla}_{\boldsymbol{\alpha }}\boldsymbol{b} & =\mathrm{diag}(\cdots ,\frac{\partial f(\alpha_h-\gamma_h)}{\partial{\alpha }_h},\cdots) \quad \text{（通式中下标为变量，下同）}\notag \\ & =\mathrm{diag}(\cdots , f(\alpha_h-\gamma_h)(1-f(\alpha_h-\gamma_h)),\cdots)\notag \\ & \quad \text{（由【西瓜书式(5.9)】$\mathrm{sigmoid}$函数的导数）}\notag \\ & =\mathrm{diag}(\cdots , b_h(1-b_h),\cdots)\quad \text{（由式(5.21)）}\tag{5.26} \\ {\nabla}_{\boldsymbol{\gamma }}\boldsymbol{b} & =\mathrm{diag}(\cdots , b_h(b_h-1),\cdots)\quad \text{（同样推导）}\tag{5.27} \end{align}$

由神经网络中的梯度式(A74)，得式(5.22)的关于 $\boldsymbol{w}$ 梯度为
$\begin{align} {\nabla}_{\boldsymbol{w}}\boldsymbol{\beta } =\mathrm{diag}(\boldsymbol{b},\cdots ,\boldsymbol{b},\cdots,\boldsymbol{b}) \quad \text{（其中$\boldsymbol{b}$的个数为$l$）} \tag{5.28} \end{align}$

由神经网络中的梯度式(A75)，得式(5.22)的关于 $\boldsymbol{b}$ 梯度为
$\begin{align} {\nabla}_{\boldsymbol{b}}\boldsymbol{\beta } =\mathbf{W} \tag{5.29} \end{align}$

由神经网络中的梯度式(A71)，得式(5.23)关于 $\boldsymbol{\beta }$ 和 $\boldsymbol{\theta }$ 的梯度
$\begin{align} {\nabla}_{\boldsymbol{\beta }}\boldsymbol{\hat{y}}^k & =\mathrm{diag}(\cdots , {\hat{y}}_j^k(1-{\hat{y}}_j^k),\cdots)\tag{5.30} \\ {\nabla}_{\boldsymbol{\theta }}\boldsymbol{\hat{y}}^k & =\mathrm{diag}(\cdots , {\hat{y}}_j^k({\hat{y}}_j^k-1),\cdots)\tag{5.31} \end{align}$

由复合函数梯度的链式法则式(A62)——即二次型的偏导数，得式(5.24)关于 $\boldsymbol{\hat{y}}^k$ 的梯度
$\begin{align} {\nabla}_{\boldsymbol{\hat{y}}^k} E_k & =\boldsymbol{\hat{y}}^k-\boldsymbol{y}^k\notag \\ & =\left( \left[\hat{y}_j^k-{y}_j^k \right]_j \right)\tag{5.32} \end{align}$

第四步：求复合函数的梯度

根据复合函数梯度的链式法则的讨论及神经网络中的梯度图A.3 梯度链式法则助记，我们将计算图图 11转化为三角形表示的复合函数，如，取图 11顶上三层即得图 12 中的(a)，再保持顶点不变，将三角形中的底线和腰线同时下移一层，则得到图 12 中的(b)，其余类推。

对这些复合函数用复合函数梯度的链式法则式(A58)或(A59)的链式法则，可分别求出其梯度。
图 12 复合函数的梯度

图 12 复合函数的梯度

由图 12 (a)，有
$\begin{align} {\nabla}_{\boldsymbol{\beta }} E_k & = {\nabla}_{\boldsymbol{\beta }}\boldsymbol{\hat{y}}^k{\nabla}_{\boldsymbol{\hat{y}}^k} E_k\qquad \text{（由[复合函数梯度的链式法则]式(A58)或(A59)的链式法则，下同）}\notag \\ & =\mathrm{diag}\left(\cdots , {\hat{y}}_j^k(1-{\hat{y}}_j^k),\cdots\right) \left( \left[\hat{y}_j^k-{y}_j^k \right] \right)\qquad \text{（由式(5.30)、式(5.32)）}\notag \\ & =\left( \left[\hat{y}_j^k(1-{\hat{y}}_j^k)(\hat{y}_j^k-{y}_j^k) \right] \right) \qquad \text{（由“式(A28)”）}\tag{5.33} \\ {\nabla}_{\boldsymbol{\theta }} E_k & =\left( \left[\hat{y}_j^k({\hat{y}}_j^k-1)(\hat{y}_j^k-{y}_j^k) \right] \right)\qquad \text{（同上）} \tag{5.34} \end{align}$
其中，“式(A28)”指向量与矩阵式(A28)

由图 12 (b)，有
$\begin{align} {\nabla}_{\boldsymbol{b}} E_k & ={\nabla}_{\boldsymbol{b}}\boldsymbol{\beta }{\nabla}_{\boldsymbol{\beta }} E_k\notag \\ & =\mathbf{W}\left( \left[\hat{y}_j^k({1-\hat{y}}_j^k)(\hat{y}_j^k-{y}_j^k) \right]_j \right)\qquad \text{（由式(5.29)、式(5.33)）}\notag \\ & =\left( \left[w_{hj} \right]_{hj} \right)\left( \left[\hat{y}_j^k({1-\hat{y}}_j^k)(\hat{y}_j^k-{y}_j^k) \right]_j \right)\notag \\ & =\left( \left[\sum_{j=1}^lw_{hj}\hat{y}_j^k({1-\hat{y}}_j^k)(\hat{y}_j^k-{y}_j^k) \right]_h \right) \tag{5.35} \end{align}$
$\begin{align} {\nabla}_{\boldsymbol{w}} E_k & ={\nabla}_{\boldsymbol{w}}\boldsymbol{\beta }{\nabla}_{\boldsymbol{\beta }} E_k\notag \\ & =\mathrm{diag}(\cdots ,\boldsymbol{b},\cdots) \left( \left[\hat{y}_j^k({1-\hat{y}}_j^k)(\hat{y}_j^k-{y}_j^k) \right]_j \right)\qquad \text{（由式(5.28)、式(5.33)）}\notag \\ & =\left( \left[\boldsymbol{b}\hat{y}_j^k({1-\hat{y}}_j^k)(\hat{y}_j^k-{y}_j^k) \right]_j \right) \qquad \text{（由“式(A28)”）}\tag{5.36} \end{align}$
其中，“式(A28)”指向量与矩阵式(A28)
$\boldsymbol{b}$ 为向量，故式(5.36)表达的向量为一组子向量的拼接。注：该向量可与 $\boldsymbol{w}$ 对齐对应，而向量 $\boldsymbol{w}$ 也是一组子向量的拼接（由式(5.22)确定），因此，第 $j$ 对子向量【 $\boldsymbol{b}\hat{y}_j^k({1-\hat{y}}_j^k)(\hat{y}_j^k-{y}_j^k)$ 与 $\boldsymbol{w}_j$ 】对齐对应。即元素 $\boldsymbol{b}_h\hat{y}_j^k({1-\hat{y}}_j^k)(\hat{y}_j^k-{y}_j^k)$ 与元素 $\boldsymbol{w}_{hj}$ 对应，【西瓜书式(5.11)】包含了这个对应关系（即 $E_k$ 关于元素 $\boldsymbol{w}_{hj}$ 的梯度）。

由图 12 ©，有
$\begin{align} & \quad {\nabla}_{\boldsymbol{\alpha }} E_k\notag \\ & ={\nabla}_{\boldsymbol{\alpha }}\boldsymbol{b}{\nabla}_{\boldsymbol{b}} E_k\qquad \text{（下式由式(5.26)、式(5.35)）}\notag \\ & =\mathrm{diag}(\cdots , b_h(1-b_h),\cdots)\left( \left[\sum_{j=1}^lw_{hj}\hat{y}_j^k({1-\hat{y}}_j^k)(\hat{y}_j^k-{y}_j^k) \right]_h \right)\notag \\ & =\left( \left[ b_h(1-b_h)\sum_{j=1}^lw_{hj}\hat{y}_j^k({1-\hat{y}}_j^k)(\hat{y}_j^k-{y}_j^k) \right]_h \right) \qquad \text{（由“式(A28)”）}\tag{5.37} \end{align}$
其中，“式(A28)”指向量与矩阵式(A28)
$\begin{align} & \quad {\nabla}_{\boldsymbol{\gamma }} E_k\notag \\ & ={\nabla}_{\boldsymbol{\gamma }}\boldsymbol{b}{\nabla}_{\boldsymbol{b}} E_k\quad \text{（下式由式(5.27)、式(5.35)）}\notag \\ & =\mathrm{diag}(\cdots , b_h(b_h-1),\cdots)\left( \left[\sum_{j=1}^lw_{hj}\hat{y}_j^k({1-\hat{y}}_j^k)(\hat{y}_j^k-{y}_j^k) \right]_h \right)\notag \\ & =\left( \left[ b_h(b_h-1)\sum_{j=1}^lw_{hj}\hat{y}_j^k({1-\hat{y}}_j^k)(\hat{y}_j^k-{y}_j^k) \right]_h \right) \qquad \text{（由“式(A28)”）} \tag{5.38} \end{align}$
其中，“式(A28)”指向量与矩阵式(A28)
由图 12 (d)，有
$\begin{align} & \quad {\nabla}_{\boldsymbol{v}} E_k\notag \\ & = {\nabla}_{\boldsymbol{v}}\boldsymbol{\alpha }{\nabla}_{\boldsymbol{\alpha }} E_k\quad \text{（下式由式(5.25)、式(5.37)）}\notag \\ & =\mathrm{diag}(\cdots ,\boldsymbol{x},\cdots)\left( \left[ b_h(1-b_h)\sum_{j=1}^lw_{hj}\hat{y}_j^k({1-\hat{y}}_j^k)(\hat{y}_j^k-{y}_j^k) \right]_h \right)\notag \\ & =\left( \left[ \boldsymbol{x}b_h(1-b_h)\sum_{j=1}^lw_{hj}\hat{y}_j^k({1-\hat{y}}_j^k)(\hat{y}_j^k-{y}_j^k) \right]_h \right) \qquad \text{（由“式(A28)”）}\tag{5.39} \end{align}$
其中，“式(A28)”指向量与矩阵式(A28)
其中， $\boldsymbol{x}$ 为向量，故式(5.39)表达的向量为一组子向量的拼接。分量的对应关系参照式(5.36)的注。

这样就求出了计算图所表达的所有复合函数的梯度，其中，关于网络参数组的梯度组为（ ${\nabla}_{\boldsymbol{\theta }} E_k,{\nabla}_{\boldsymbol{\gamma }} E_k,{\nabla}_{\boldsymbol{w}} E_k,{\nabla}_{\boldsymbol{v}} E_k$ ），其余是求参数梯度的链式法则过程中所需的梯度。对比计算图中的箭头方向，求梯度的过程是逆向的，相当于把误差 $E_k$ 的影响进行了逆向传播（直至 $\boldsymbol{v}$ ），这就是误差逆传播（BP）算法名称的含义。

有了参数的梯度后，以学习率 $\eta$ 乘以负梯度即为参数的更新公式。如， $\Delta \boldsymbol{w}=-\eta {\nabla}_{\boldsymbol{w}} E_k$ ，写成分量形式即为 $\Delta {w}_{hj}=-\eta {b}_h\hat{y}_j^k({1-\hat{y}}_j^k)(\hat{y}_j^k-{y}_j^k)$ ，也即【西瓜书式(5.11)，其中(5.10)代入】，其余参数更新公式类推。