（《机器学习》完整版系列）附录 ——2、偏导数与梯度(以矩阵的整体形式表述)

人工干智能

已于 2023-03-31 11:25:57 修改

阅读量232

点赞数

分类专栏：周志华【西瓜书】辅导《机器学习》文章标签：矩阵线性代数机器学习

于 2023-02-27 11:13:42 首次发布

本文链接：https://blog.csdn.net/qiy_icbc/article/details/129237761

版权

周志华【西瓜书】辅导同时被 2 个专栏收录

143 篇文章 24 订阅

订阅专栏

《机器学习》

143 篇文章 5 订阅

订阅专栏

把一组偏导数公式以矩阵的整体形式表述
首创地引入形象化的记号式(A44)和式(A45)，易记易写

偏导数与梯度

微积分中定义了标量函数的偏导数 $\frac{\partial y}{\partial x}$ ，以此为基础扩展到非标量，定义一组偏导数公式【西瓜书附录式(A.16) $\,\thicksim$ (A.19)】，有了上节的矩阵表示，我们可以把这组偏导数公式以矩阵的整体形式表述，如【西瓜书附录式(A.16)】体现为
$\begin{align} \frac{\partial \boldsymbol{a}}{\partial x} =\left( \left[ \frac{\partial a_{i}}{\partial x} \right] \right) \tag{A39} \end{align}$

再如【西瓜书附录式(A.18)】
$\begin{align} \frac{\partial \mathbf{A}}{\partial x} =\left( \left[ \frac{\partial a_{ij}}{\partial x} \right] \right) \tag{A40} \end{align}$

其余类似。

这组偏导公式中有一个共同的特点就是：两变元中一个为标量，另一个为非标量。我们可以用如下方法统一记这组公式（以【西瓜书附录式(A.18)】为例来说明）：

（1）写出非标量列元素集

如，非标量为矩阵 $\mathbf{A}$ 时，写出该矩阵的元素表达，即
$\begin{align} \mathbf{A} =\left( \left[ a_{ij} \right] \right) \tag{A41} \end{align}$

（2）给这些元素“穿外套”

将 $\frac{\partial\mathbf{A}}{\partial x}$ 中删去非标量变量后视为“外套”，即这时“外套”为： $\frac{\partial}{\partial x}$ ，给上式两边的元素穿上“外套”即为
$\begin{align} \frac{\partial\mathbf{A}}{\partial x}= \left( \left[ \frac{\partial a_{ij}}{\partial x} \right] \right) \tag{A42} \end{align}$
这即为式(A40)，其通式即【西瓜书附录式(A.18)】。

然而，对于两变元都为非标量，则有多种方式定义其偏导数，但各自并不兼容。为避免陷入过多的讨论，本着实用的原则本博只定义向量对向量的偏导数，而不讨论向量对矩阵、矩阵对矩阵等复杂情况。

向量对向量的偏导数定义为
$\begin{align} \frac{\partial \boldsymbol{y}}{\partial\boldsymbol{x}} =\left( \left[ \frac{\partial y_j}{\partial x_i} \right]_{ij} \right) \tag{A43} \end{align}$

式(A43) 为一个矩阵，也即二维表A1，它是这样构造出来的：作一个二维表，将列向量 $\boldsymbol{x}$ 写在表的左侧，即以它来确定表的行，将列向量 $\boldsymbol{y}$ 转置后写在表的上沿，即以它来确定表的列。表体中 $y_j$ 与 $x_i$ 的交叉位填上 $\frac{\partial y_j}{\partial x_i}$ （标量对标量的偏导数），表体形成的矩阵即是该偏导数（矩阵），有的书将 $\frac{\partial \boldsymbol{y}}{\partial\boldsymbol{x}}$ 定义为Jacobian矩阵，它与这里的定义具有转置关系，请注意区别。

表A1 向量对向量的偏导数

为便于记忆，把表A1定义的向量对向量的导数形象地记为式(A44)和式(A45)：
$\begin{align} \text{以“表”表达导数：} \frac{\partial \boldsymbol{y}}{\partial\boldsymbol{x}} & =\frac{\qquad\qquad\boldsymbol{y}\qquad}{\boldsymbol{x}\,|\,\qquad{\frac{\partial y_j}{\partial x_i}}\qquad} \tag{A44} \\ \text{以“分数”表达导数：} \frac{\partial \boldsymbol{y}}{\partial\boldsymbol{x}} & =\frac{\qquad\boldsymbol{y}\qquad}{\boldsymbol{x}\qquad\qquad} \tag{A45} \end{align}$
其中，式(A45)记号像“分数”但要分子与分母错开。

博主首创地引入形象化的记号式(A44)和式(A45)，易记易写。

当二维表退化成一列（或一行）即 $\boldsymbol{y}$ （或 $\boldsymbol{x}$ ）退化为标量时，则导数（表）为列向量（或行向量）
$\begin{align} & \frac{\partial {y}}{\partial\boldsymbol{x}} =\left( \left[ \frac{\partial y}{\partial x_i} \right] \right)\qquad \text{（列向量）} \tag{A46} \\ & \frac{\partial \boldsymbol{y}}{\partial{x}} =\left( \left[ \frac{\partial y_j}{\partial x} \right] \right)^{\mathrm{T}} \qquad \text{（行向量，其表示参见式(A8)）} \tag{A47} \end{align}$

式(A46)、式(A47)分别对应【西瓜书附录式(A.17)和(A.16)】。

将二维表（未退化）视为列向量（或行向量）组成的矩阵
$\begin{align} \frac{\partial\boldsymbol {y}}{\partial\boldsymbol{x}} & =\left( \left[ \frac{\partial {y}_j}{\partial\boldsymbol{x}} \right] \right)^{\mathrm{T}}\qquad \text{（通式为式(A46)，列向量）} \tag{A48} \\ \frac{\partial\boldsymbol {y}}{\partial\boldsymbol{x}} & =\left( \left[ \frac{\partial \boldsymbol{y}}{\partial{x}_i} \right] \right)\qquad \text{（通式为式(A47)，行向量）} \tag{A49} \end{align}$

梯度概念是对函数而言，如，常说：“沿函数的梯度方向如何如何”，对于多变量标量函数 $y=f(\boldsymbol{x})$ ，由式(A46)有
$\begin{align} {\nabla}_{\boldsymbol{x}}{y}=\frac{\partial f(\boldsymbol{x})}{\partial \boldsymbol{x}} =\left( \left[ \frac{\partial f(\boldsymbol{x})}{\partial x_i} \right] \right) \tag{A50} \end{align}$
式(A50)即为函数 $y=f(\boldsymbol{x})$ 的梯度（列向量），即为【西瓜书附录式(A.20)】。
注：梯度（偏导数）表达有两种形式：一是整体形式（圆括号表示的矩阵）；二是分量形式（中括号内的式子）。前者简洁，后者可以脱离矩阵（或向量）来表示，即以下标集构成“组”的通式，【西瓜书】常用这种方式。

由此，进一步推广：对于函数为向量、自变量也为向量时，我们定义其梯度为偏导数（式(A43)或式(A44) 所定义的矩阵），记为
$\begin{align} {\nabla}_{\boldsymbol{x}}\boldsymbol{y} =\frac{\partial \boldsymbol{y}}{\partial\boldsymbol{x}} \tag{A51} \end{align}$
其中， $\boldsymbol{y}$ 或 $\boldsymbol{x}$ 可以退化为标量，当 $\boldsymbol{x}$ 退化为标量时，即为式(A50)。

注：就本博所考虑的情况而言，可将梯度视为偏导数的别名，即式(A43) ，梯度的构造规则可依 ${\nabla}_{\boldsymbol{x}}\boldsymbol{y}$ 符号本身的“长相”来记： $\boldsymbol{x}$ 在表A1的侧边， $\boldsymbol{y}$ 在表A1的横向，参考式(A44)、式(A45)。