矩阵分析与应用（二）——矩阵微分

本文链接：https://blog.csdn.net/MamiyaHasaki/article/details/126816854

文章目录

部分符号约定

本文介绍矩阵分析的矩阵微分部分。

我们重述一遍本系列文章（一）里的符号约定：

一般而言，粗体大写字母（如 $\boldsymbol{A}$ ）代表矩阵，粗体小写字母（如 $\boldsymbol{b}$ ）代表列向量，粗体小写字母的转置（如 $\boldsymbol{x}^\mathrm{T}$ ）代表行向量
如 $\boldsymbol{x}^\mathrm{T}$ 代表转置， $\boldsymbol{x}^*$ 代表共轭， $\boldsymbol{x}^\mathrm{H}$ 代表共轭转置。 $\boldsymbol{I}$ 代表单位矩阵， $\boldsymbol{O}$ 代表零矩阵。

同时，我们为了方便起见，引入新的符号约定，其与上面第1条的精神内核是一致的。

实值矩阵函数沿用“非粗体代表标量，小写粗体代表列向量，大写粗体代表矩阵”的约定，具体如下

$f\left( \boldsymbol{x} \right)$ 为 $\mathbb{R} ^m\rightarrow \mathbb{R}$ 的映射
$f\left( \boldsymbol{X} \right)$ 为 $\mathbb{R} ^{m\times n}\rightarrow \mathbb{R}$ 的映射
$\boldsymbol{f}\left( \boldsymbol{x} \right)$ 为 $\mathbb{R} ^m\rightarrow \mathbb{R}^{p}$ 的映射
$\boldsymbol{f}\left( \boldsymbol{X} \right)$ 为 $\mathbb{R} ^{m\times n}\rightarrow \mathbb{R}^{p}$ 的映射
$\boldsymbol{F}\left( \boldsymbol{x} \right)$ 为 $\mathbb{R} ^m\rightarrow \mathbb{R}^{p\times q}$ 的映射
$\boldsymbol{F}\left( \boldsymbol{X} \right)$ 为 $\mathbb{R} ^{m\times n}\rightarrow \mathbb{R}^{p\times q}$ 的映射

$\boldsymbol{x},\boldsymbol{X}$ 代表元素为实数， $\boldsymbol{z},\boldsymbol{Z}$ 代表元素为复数。

一阶偏导： Jacobian 矩阵与梯度矩阵

注：本文中单独出现的“Jacobian”一词均指代“Jacobian 矩阵”。

对于高数的一元函数 $f\left( x \right)$ ，其导数为 $\frac{\mathrm{d}f\left( x \right)}{\mathrm{d}x}$ 。导数反应了 $f$ 和 $x$ 的一阶近似关系。那么对于多元函数而言，我们是否也能定义一个“导数”呢？事实上， Jacobian 就相当于多元函数的“一阶导数”，用于衡量一阶近似关系。

在高数重积分的多元函数的换元中，其伸缩因子为雅可比行列式，实际上就是本章要讲的 Jacobian 矩阵的行列式。为了以更简洁且直观的形式书写 Jacobian ，我们首先引入偏导算子。

偏导算子

首先我们引入偏导算子。如果 $\boldsymbol{x}$ 是 $m$ 行的列向量， $\boldsymbol{X}$ 是 $m\times n$ 的矩阵，则

$\begin{cases} \mathrm{D}_{\boldsymbol{x}}=\frac{\partial}{\partial \boldsymbol{x}^{\mathrm{T}}}=\left[ \frac{\partial}{\partial x_1},\cdots ,\frac{\partial}{\partial x_m} \right] \left( \mathrm{dim}=1\times m \right)\\ \mathrm{D}_{\boldsymbol{X}}=\frac{\partial}{\partial \boldsymbol{X}^{\mathrm{T}}}=\left[ \begin{matrix} \frac{\partial}{\partial x_{11}}& \cdots& \frac{\partial}{\partial x_{m1}}\\ \vdots& \ddots& \vdots\\ \frac{\partial}{\partial x_{1n}}& \cdots& \frac{\partial}{\partial x_{mn}}\\ \end{matrix} \right] \left( \mathrm{dim}=n\times m \right)\\ \end{cases}\tag{1.1}$

注意！求偏导后有个转置，所以原列向量变成了行向量，原 $m\times n$ 的矩阵变成了 $n\times m$ 。

注：为什么要转置呢？我们考虑 $f\left( x_1,\cdots ,x_n \right)$ 全微分 $\mathrm{d}f=\left[ \frac{\partial f}{\partial x_1},\cdots ,\frac{\partial f}{\partial x_n} \right] \left[ \begin{array}{c} \mathrm{d}x_1\\ \vdots\\ \mathrm{d}x_n\\ \end{array} \right]$ ，即 $\mathrm{d}f=\left( \frac{\partial f}{\partial \boldsymbol{x}} \right) ^{\mathrm{T}}\mathrm{d}\boldsymbol{x}$ ，其中 $\left( \frac{\partial f}{\partial \boldsymbol{x}} \right) ^{\mathrm{T}}$ 天然携带一个转置。

标量函数的Jacobian 矩阵

首先，我们先定义标量函数的Jacobian。

定义：若有 $\mathrm{d}f\left( \boldsymbol{X} \right) =\mathrm{tr}\left( \boldsymbol{A}\mathrm{d}\boldsymbol{X} \right)$ 成立，则称 $\boldsymbol{A}$ 为 $f\left( \boldsymbol{X} \right)$ 关于 $\boldsymbol{X}$ 的Jacobian。

思考：为什么Jacobian的定义要套一层 $\mathrm{tr}$ ？
我的想法：若变元 $\boldsymbol{X}$ 被替换为向量，那么外面有没有 $\mathrm{tr}$ 都无所谓，反正都是标量。但如果作为矩阵，为了让 $\boldsymbol{X}$ 保持优美的矩阵形式，不惨遭向量化，就得这么定义。而由于 $\mathrm{tr}$ 的相似不变性，在证明中也会很好用。

从而不难注意到：标量函数 $f\left( \boldsymbol{x} \right)$ 关于 $\boldsymbol{x}$ 的Jacobian为

$\mathrm{D}_{\boldsymbol{x}}f\left( \boldsymbol{x} \right) =\frac{\partial f\left( \boldsymbol{x} \right)}{\partial \boldsymbol{x}^{\mathrm{T}}}=\left[ \frac{\partial f\left( \boldsymbol{x} \right)}{\partial x_1},\cdots ,\frac{\partial f\left( \boldsymbol{x} \right)}{\partial x_m} \right] \tag{1.2}$

其中 $\mathrm{d}f\left( \boldsymbol{x} \right) =\mathrm{D}_{\boldsymbol{x}}f\left( \boldsymbol{x} \right) \mathrm{d}\boldsymbol{x}$ 。从“导数=微分商”的视角来看， $\mathrm{d}f\left( \boldsymbol{x} \right) =\mathrm{D}_{\boldsymbol{x}}f\left( \boldsymbol{x} \right) \mathrm{d}\boldsymbol{x}\Rightarrow \mathrm{D}_{\boldsymbol{x}}f\left( \boldsymbol{x} \right) =\frac{\partial f\left( \boldsymbol{x} \right)}{\partial \boldsymbol{x}^{\mathrm{T}}}$ ，所以Jacobian又可以看作导数对多元函数的推广。

同理，定义 $\mathrm{D}_{\boldsymbol{X}}f\left( \boldsymbol{X} \right)$ 为 $f\left( \boldsymbol{X} \right)$ 的 Jacobian

$\mathrm{D}_{\boldsymbol{X}}f\left( \boldsymbol{X} \right) =\frac{\partial f\left( \boldsymbol{X} \right)}{\partial \boldsymbol{X}^{\mathrm{T}}}=\left[ \begin{matrix} \frac{\partial f\left( \boldsymbol{X} \right)}{\partial x_{11}}& \cdots& \frac{\partial f\left( \boldsymbol{X} \right)}{\partial x_{m1}}\\ \vdots& \ddots& \vdots\\ \frac{\partial f\left( \boldsymbol{X} \right)}{\partial x_{1n}}& \cdots& \frac{\partial f\left( \boldsymbol{X} \right)}{\partial x_{mn}}\\ \end{matrix} \right] \tag{1.3}$

从而 $f\left( \boldsymbol{X} \right)$ 的全微分可以被写为 $\mathrm{d}f\left( \boldsymbol{X} \right) =\mathrm{tr}\left( \mathrm{D}_{\boldsymbol{X}}f\left( \boldsymbol{X} \right) \mathrm{d}\boldsymbol{X} \right)$ 。

当然，还有另一种做法，就是将矩阵向量化，然后按照向量的Jacobian处理。此时即为 $\mathrm{D}_{\mathrm{vec}\boldsymbol{X}}f\left( \boldsymbol{X} \right) =\frac{\partial f\left( \boldsymbol{X} \right)}{\partial \mathrm{vec}\boldsymbol{X}}$ ，我们将其称为 $f\left( \boldsymbol{X} \right)$ 关于 $\boldsymbol{X}$ 的行偏导向量。在实际应用中，我们更常使用 Jacobian 些。

矩阵函数的Jacobian

矩阵函数 $\boldsymbol{F}\left( \boldsymbol{X} \right)$ 的 Jacobian 则会相对复杂一些，具体为若 $\boldsymbol{F}\left( \boldsymbol{X} \right)$ 为 $\mathbb{R} ^{m\times n}\rightarrow \mathbb{R} ^{p\times q}$ ，则其Jacobian为

$\mathrm{D}_{\boldsymbol{X}}\boldsymbol{F}\left( \boldsymbol{X} \right) =\frac{\partial \mathrm{vec}\left( \boldsymbol{F}\left( \boldsymbol{X} \right) \right)}{\partial \left( \mathrm{vec}\boldsymbol{X} \right) ^{\mathrm{T}}}\tag{1.4}$

其中 $\mathrm{D}_{\boldsymbol{X}}\boldsymbol{F}\left( \boldsymbol{X} \right) \in \mathbb{R} ^{pq\times mn}$ ，这样有 $\mathrm{vec}\left( \mathrm{d}\boldsymbol{F} \right) =\frac{\partial \mathrm{vec}\left( \boldsymbol{F}\left( \boldsymbol{X} \right) \right)}{\partial \left( \mathrm{vec}\boldsymbol{X} \right) ^{\mathrm{T}}}\mathrm{vec}\left( \mathrm{d}\boldsymbol{X} \right)$ 。

注：为什么矩阵函数的Jacobian要用这么绕的定义方式呢？留作习题供读者思考。（可参考：张贤达《矩阵分析与应用》（第二版）第145页）

梯度矩阵

在高数中，我们可能更熟悉梯度，本质上梯度和Jacobian描述的是一个东西，只是差了个转置。

定义梯度算子 $\nabla _{\boldsymbol{x}}=\left[ \frac{\partial}{\partial x_1},\cdots ,\frac{\partial}{\partial x_m} \right] ^{\mathrm{T}}=\left( \mathrm{D}_{\boldsymbol{x}} \right) ^{\mathrm{T}}$ 。容易发现，梯度算子相当于偏导算子的转置。

注：我们可以这么理解， Jacobian 相当于一个专用的矩阵，专门用于和 $\mathrm{d}\boldsymbol{x}$ 乘，所以就转置了。而梯度很可能会参与后续操作，我们期望被操作的向量尽可能是以行向量的形式存在的，所以不转置。

同理，关于矩阵的梯度算子也有两种，分别是 $\nabla _{\mathrm{vec}\boldsymbol{X}}=\left( \mathrm{D}_{\mathrm{vec}\boldsymbol{X}} \right) ^{\mathrm{T}}$ 和 $\nabla _{\boldsymbol{X}}=\left( \mathrm{D}_{\boldsymbol{X}} \right) ^{\mathrm{T}}$ 。

与 Jacobian 类似的，我们也可以给出梯度矩阵，它们均为 Jacobian 的转置，此处不予赘述。

我们称梯度的负方向 $-\nabla _{\boldsymbol{x}}f\left( \boldsymbol{x} \right)$ 为梯度流，其用于表征函数下降最快的方向。例如机器学习中就常用梯度下降法优化损失函数，使得损失函数尽可能小。

二阶偏导： Hessian 矩阵

实Hessian矩阵

注：本文中单独出现的“Hessian”一词均指代“Hessian 矩阵”。

同理，我们可以定义二阶偏导，称之为 Hessian 。有了前面 Jacobian 的基础，类比出 Hessian 也并不困难。

考虑 $f\left( \boldsymbol{x} \right)$ 的 Hessian ，其被定义为 $\frac{\partial ^2f\left( \boldsymbol{x} \right)}{\partial \boldsymbol{x}\partial \boldsymbol{x}^{\mathrm{T}}}=\frac{\partial}{\partial \boldsymbol{x}^{\mathrm{T}}}\left( \frac{\partial f\left( \boldsymbol{x} \right)}{\partial \boldsymbol{x}} \right)$ ，当然我们也可记作 $\nabla _{\boldsymbol{x}}^{2}f\left( \boldsymbol{x} \right) =\mathrm{D}_{\boldsymbol{x}}\left( \nabla _{\boldsymbol{x}}f\left( \boldsymbol{x} \right) \right)$ 。

当然，将 $\boldsymbol{x}$ 换成 $\boldsymbol{X}$ ，定义依然成立。其 Hessian 被定义为 $\frac{\partial ^2f\left( \boldsymbol{X} \right)}{\partial \boldsymbol{X}\partial \boldsymbol{X}^{\mathrm{T}}}=\frac{\partial}{\partial \boldsymbol{X}^{\mathrm{T}}}\left( \frac{\partial f\left( \boldsymbol{X} \right)}{\partial \boldsymbol{X}} \right)$ ，同理可记作 $\nabla _{\boldsymbol{X}}^{2}f\left( \boldsymbol{X} \right) =\mathrm{D}_{\boldsymbol{X}}\left( \nabla _{\boldsymbol{X}}f\left( \boldsymbol{X} \right) \right)$ 。

二阶微分与Hessian的关系是：若 $\mathrm{d}^2f\left( \boldsymbol{x} \right) =\left( \mathrm{d}\boldsymbol{x} \right) ^{\mathrm{T}}\boldsymbol{B}\mathrm{d}\boldsymbol{x}$ ，则其Hessian为 $\boldsymbol{H}\left[ f\left( \boldsymbol{x} \right) \right] =\frac{1}{2}\left( \boldsymbol{B}+\boldsymbol{B}^{\mathrm{T}} \right)$ 。若 $\mathrm{d}^2f\left( \boldsymbol{X} \right) =\left( \mathrm{d}\left( \mathrm{vec}\boldsymbol{X} \right) \right) ^{\mathrm{T}}\boldsymbol{B}\mathrm{d}\left( \mathrm{vec}\boldsymbol{X} \right) $ ，则其Hessian为 $\boldsymbol{H}\left[ f\left( \boldsymbol{x} \right) \right] =\frac{1}{2}\left( \boldsymbol{B}+\boldsymbol{B}^{\mathrm{T}} \right)$ 。

全纯函数与共轭坐标

在很多时候，我们需要研究复Hessian。为了将实数的结论推广，我们有必要回顾下复变的结论。

在复变中有着“解析函数”这一重要概念，我们有时也称之为“全纯函数”，具体而言就是要满足Cauchy-Riemann条件。全纯函数十分重要，基本上解析就是复变的半壁江山。我们的指数函数、正余弦函数、正整数次幂函数都是全纯的，但例如 $f\left( z \right) =\left| z \right|^2=z^*z$ 就不是全纯的。

为了将它们变成全纯的，我们不再使用 $r=\left(x,y\right)^{\mathrm{T}}$ 坐标，而是使用共轭坐标 $c=\left(z,z^*\right)^{\mathrm{T}}$ 表示。在处理一个量 $z$ 时，将其共轭量 $z^*$ 当作常数，此时函数就是全纯的了。具体而言，将 $f\left( z \right)$ 看成 $\bar{f}\left( z,z^* \right) =z^*z$ ，在处理 $z$ 时将 $z^*$ 看作常数。即此时这相当于一个正比例函数，自然是全纯的。

这样我们就可以定义关于 $z$ 或 $z^*$ 的形式偏导了，具体而言
$\begin{cases} \frac{\partial}{\partial z}=\frac{1}{2}\left( \frac{\partial}{\partial x}-\mathrm{j}\frac{\partial}{\partial y} \right)\\ \frac{\partial}{\partial z^*}=\frac{1}{2}\left( \frac{\partial}{\partial x}+\mathrm{j}\frac{\partial}{\partial y} \right)\\ \end{cases}\tag{2.1}$
此时如果 $x$ 和 $y$ 独立，那么 $z$ 和 $z^*$ 也应独立，即 $\frac{\partial z}{\partial z^*}=0,\frac{\partial z^*}{\partial z}=0$ 。

复Jacobian和共轭Jacobian

前面说了，使用共轭坐标时，对一个求偏导，其共轭量为常数。因此
$\begin{cases} \mathrm{D}_{\boldsymbol{Z}}f\left( \boldsymbol{Z},\boldsymbol{Z}^* \right) =\left. \frac{\partial f\left( \boldsymbol{Z},\boldsymbol{Z}^* \right)}{\partial \boldsymbol{Z}^{\mathrm{T}}} \right|_{\boldsymbol{Z}^*\text{为常数矩阵}}\\ \mathrm{D}_{\boldsymbol{Z}^*}f\left( \boldsymbol{Z},\boldsymbol{Z}^* \right) =\left. \frac{\partial f\left( \boldsymbol{Z},\boldsymbol{Z}^* \right)}{\partial \boldsymbol{Z}^{\mathrm{H}}} \right|_{\boldsymbol{Z}\text{为常数矩阵}}\\ \end{cases}\tag{2.2}$
不难得到全微分形式为
$\begin{aligned} \mathrm{d}f&=\mathrm{D}_{\mathrm{vec}\boldsymbol{Z}}f\mathrm{dvec}\boldsymbol{Z}+\mathrm{D}_{\mathrm{vec}\boldsymbol{Z}^*}f\mathrm{dvec}\boldsymbol{Z}^*\\ &=\mathrm{tr}\left( \mathrm{D}_{\boldsymbol{Z}}f\mathrm{d}\boldsymbol{Z}+\mathrm{D}_{\boldsymbol{Z}^*}f\mathrm{d}\boldsymbol{Z}^* \right)\\ \end{aligned}\tag{2.3}$
因此，若有 $\mathrm{d}f=\mathrm{tr}\left( \boldsymbol{A}\mathrm{d}\boldsymbol{Z}+\boldsymbol{B}\mathrm{d}\boldsymbol{Z}^* \right)$ ，则将 $\boldsymbol{A}=\mathrm{D}_{\boldsymbol{Z}}f\mathrm{d}\boldsymbol{Z}$ 称为其Jacobian， $\boldsymbol{B}=\mathrm{D}_{\boldsymbol{Z^*}}f\mathrm{d}\boldsymbol{Z}^*$ 称为共轭Jacobian。显然这一结论与实数的形式兼容，可以视为实Jacobian向复数的推广。

全Hessian

再进行一次微分有
$\mathrm{d}^2f=\left[ \begin{array}{c} \mathrm{dvec}\boldsymbol{Z}\\ \mathrm{dvec}\boldsymbol{Z}^*\\ \end{array} \right] ^{\mathrm{H}}\left[ \begin{matrix} \frac{\partial ^2f}{\partial \mathrm{vec}\boldsymbol{Z}^*\partial \left( \mathrm{vec}\boldsymbol{Z} \right) ^{\mathrm{T}}}& \frac{\partial ^2f}{\partial \mathrm{vec}\boldsymbol{Z}^*\partial \left( \mathrm{vec}\boldsymbol{Z}^* \right) ^{\mathrm{T}}}\\ \frac{\partial ^2f}{\partial \mathrm{vec}\boldsymbol{Z}\partial \left( \mathrm{vec}\boldsymbol{Z} \right) ^{\mathrm{T}}}& \frac{\partial ^2f}{\partial \mathrm{vec}\boldsymbol{Z}\partial \left( \mathrm{vec}\boldsymbol{Z}^* \right) ^{\mathrm{T}}}\\ \end{matrix} \right] \left[ \begin{array}{c} \mathrm{dvec}\boldsymbol{Z}\\ \mathrm{dvec}\boldsymbol{Z}^*\\ \end{array} \right] \tag{2.4}$
其中 $\boldsymbol{H}$ 称为 $f\left( \boldsymbol{Z},\boldsymbol{Z}^* \right)$ 的全Hessian矩阵, $\boldsymbol{H}_{\boldsymbol{Z}^*,\boldsymbol{Z}}$ 称为 $f\left( \boldsymbol{Z},\boldsymbol{Z}^* \right)$ 的主Hessian矩阵.
$\boldsymbol{H}=\left[ \begin{matrix} \boldsymbol{H}_{\boldsymbol{Z}^*,\boldsymbol{Z}}& \boldsymbol{H}_{\boldsymbol{Z}^*,\boldsymbol{Z}^*}\\ \boldsymbol{H}_{\boldsymbol{Z},\boldsymbol{Z}}& \boldsymbol{H}_{\boldsymbol{Z},\boldsymbol{Z}^*}\\ \end{matrix} \right] =\left[ \begin{matrix} \frac{\partial ^2f}{\partial \mathrm{vec}\boldsymbol{Z}^*\partial \left( \mathrm{vec}\boldsymbol{Z} \right) ^{\mathrm{T}}}& \frac{\partial ^2f}{\partial \mathrm{vec}\boldsymbol{Z}^*\partial \left( \mathrm{vec}\boldsymbol{Z}^* \right) ^{\mathrm{T}}}\\ \frac{\partial ^2f}{\partial \mathrm{vec}\boldsymbol{Z}\partial \left( \mathrm{vec}\boldsymbol{Z} \right) ^{\mathrm{T}}}& \frac{\partial ^2f}{\partial \mathrm{vec}\boldsymbol{Z}\partial \left( \mathrm{vec}\boldsymbol{Z}^* \right) ^{\mathrm{T}}}\\ \end{matrix} \right] \tag{2.5}$

矩阵求导运算

矩阵求导公式基本类似普通实函数，例如乘法法则、除法法则、链式法则。

但在这里，我推荐一种更好的做法，就是找代表元得到通项公式，再合成为矩阵。具体可以参考下面两篇文章

大佬的原始文章：让向量、矩阵和张量的求导更简洁些吧
我的总结版本及在卷积神经网络的应用：【配套文章】神经网络全连接层、激活函数层、卷积层、池化层的正/反向传播公式推导+代码

矩阵推导过程中会用到的其中一个重要的性质就是变量的独立性假设，即假设矩阵或向量的每个变元 $x_i,x_j$ 是独立的，具体而言

$\frac{\partial x_i}{\partial x_j}=\delta _{ij}=\begin{cases} 1,& i=j\\ 0,& \mathrm{else}\\ \end{cases}\tag{3.1}$

$\frac{\partial x_{kl}}{\partial x_{ij}}=\delta _{ik}\delta _{jl}=\begin{cases} 1,& i=k\cap j=l\\ 0,& \mathrm{else}\\ \end{cases}\tag{3.2}$

其中 $\delta_{ij}$ 又被称为Kronecker置换符号，有着下标置换的功能。具体而言 $\sum_{j}{x_{ij}\delta_{jk}}=x_{ik}$ ，直观地看相当于将 $x_{ij}$ 的下标 $j$ 置换为了 $k$ 。

同时，我们还注意到矩阵乘法 $\boldsymbol{C}=\boldsymbol{AB}$ 可以写为 $c_{ij}=\sum_k{a_{ik}b_{kj}}$ 的形式。因为求和范围是对全部指标进行，所以不需要写求和上下标。同理， $\boldsymbol{D}=\boldsymbol{ABC}$ 可以写为 $d_{ij}=\sum_{k,l}{a_{ik}b_{kl}c_{lj}}$ 的形式，这样可以让我们的推导更加简洁。

当然还有一种更加简洁的形式，甚至可以让我们连求和号都扔掉，这种方法叫做爱因斯坦求和约定。不过为了照顾作为初学者的读者，本文就不将难度放得这么高了，还是附上带上求和符号的证明。

例题1：
试求实标量函数 $f\left( \boldsymbol{X} \right) =\boldsymbol{a}^{\mathrm{T}}\boldsymbol{XX}^{\mathrm{T}}\boldsymbol{b}$ 的Jacobian。

证明：
由定义：
$\boldsymbol{a}^{\mathrm{T}}\boldsymbol{XX}^{\mathrm{T}}\boldsymbol{b}=\sum_{k,l,m}{a_kx_{km}x_{lm}b_l}\tag{3.3}$
设其Jacobian第 $i$ 行 $j$ 列元素为 $\left[ \frac{\partial f\left( \boldsymbol{X} \right)}{\partial \boldsymbol{X}^{\mathrm{T}}} \right] _{ij}$ ，则
$\begin{aligned} \left[ \frac{\partial f\left( \boldsymbol{X} \right)}{\partial \boldsymbol{X}^{\mathrm{T}}} \right] _{ij}&=\frac{\partial f\left( \boldsymbol{X} \right)}{\partial x_{ji}}=\sum_{p,q,r}{\frac{\partial a_{1p}^{\mathrm{T}}x_{pq}x_{qr}^{\mathrm{T}}b_{r1}}{\partial x_{ji}}}\\ &=\sum_{p,q,r}{\frac{\partial a_{p1}x_{pq}x_{rq}b_{r1}}{\partial x_{ji}}}\\ &=\sum_{p,q,r}{a_{p1}\frac{\partial x_{pq}}{\partial x_{ji}}x_{rq}b_{r1}}+\sum_{p,q,r}{a_{p1}x_{pq}\frac{\partial x_{rq}}{\partial x_{ji}}b_{r1}}\\ &=\sum_{p,q,r}{\left( a_{p1}\delta _{jp} \right) \left( x_{rq}\delta _{iq} \right) b_{r1}}+\sum_{p,q,r}{a_{p1}\left( x_{rq}\delta _{iq} \right) \left( b_{r1}\delta _{jr} \right)}\\ &=\sum_r{a_{j1}x_{ri}b_{r1}}+\sum_r{a_{p1}x_{pi}b_{j1}}\\ &=\sum_r{x_{ir}^{\mathrm{T}}b_{r1}a_{1j}^{\mathrm{T}}}+\sum_r{x_{ip}^{\mathrm{T}}a_{p1}b_{1j}^{\mathrm{T}}}\\ \end{aligned}\tag{3.4}$
故 $\frac{\partial f\left( \boldsymbol{X} \right)}{\partial \boldsymbol{X}^{\mathrm{T}}}=\boldsymbol{X}^{\mathrm{T}}\boldsymbol{ba}^{\mathrm{T}}+\boldsymbol{X}^{\mathrm{T}}\boldsymbol{ab}^{\mathrm{T}}$ 。

爱因斯坦求和约定示例：
$\begin{aligned} \frac{\partial f\left( \boldsymbol{X} \right)}{\partial x_{ji}}&=\frac{\partial a_{1p}^{\mathrm{T}}x_{pq}x_{qr}^{\mathrm{T}}b_{r1}}{\partial x_{ji}}\\ &=\frac{\partial a_{p1}x_{pq}x_{rq}b_{r1}}{\partial x_{ji}}\\ &=a_{p1}\frac{\partial x_{pq}}{\partial x_{ji}}x_{rq}b_{r1}+a_{p1}x_{pq}\frac{\partial x_{rq}}{\partial x_{ji}}b_{r1}\\ &=\left( a_{p1}\delta _{jp} \right) \left( x_{rq}\delta _{iq} \right) b_{r1}+a_{p1}\left( x_{rq}\delta _{iq} \right) \left( b_{r1}\delta _{jr} \right)\\ &=a_{j1}x_{ri}b_{r1}+a_{p1}x_{pi}b_{j1}\\ &=x_{ir}^{\mathrm{T}}b_{r1}a_{1j}^{\mathrm{T}}+x_{ip}^{\mathrm{T}}a_{p1}b_{1j}^{\mathrm{T}}\\ \end{aligned}\tag{3.5}$
其实没啥区别，就是把求和号扔了，其余不变。

例题2：
试求实标量函数 $f\left( \boldsymbol{X} \right) =\left| \boldsymbol{X} \right|$ 的Jacobian。

证明：
记 $\bar{\boldsymbol{X}}$ 为 $\boldsymbol{X}$ 的伴随矩阵，由定义有 $\bar{\boldsymbol{X}}\boldsymbol{X}=\left| \boldsymbol{X} \right|\boldsymbol{I}$ ，故 $\bar{\boldsymbol{X}}\boldsymbol{X}$ 矩阵的 $i$ 行 $i$ 列元素就是 $\left| \boldsymbol{X} \right|$ ，得到 $\left| \boldsymbol{X} \right|=\sum_k{\bar{x}_{ik}x_{ki}}$ ，从而有 $\left[ \frac{\partial \left| \boldsymbol{X} \right|}{\partial \boldsymbol{X}^{\mathrm{T}}} \right] _{ij}=\frac{\partial \left| \boldsymbol{X} \right|}{\partial x_{ji}}=\sum_k{\frac{\partial \bar{x}_{ik}x_{ki}}{\partial x_{ji}}}$ 。

注意到伴随矩阵的第 $i$ 行 $j$ 列元素 $\bar{x}_{ij}$ 和原矩阵第 $j$ 行 $i$ 列元素 $x_{ji}$ 无关，故对 $x_{ki}$ 求导时 $\bar{x}_{ik}$ 为常数，则有
$\begin{aligned} \left[ \frac{\partial \left| \boldsymbol{X} \right|}{\partial \boldsymbol{X}^{\mathrm{T}}} \right] _{ij}&=\frac{\partial \left| \boldsymbol{X} \right|}{\partial x_{ji}}=\sum_k{\frac{\partial \bar{x}_{ik}x_{ki}}{\partial x_{ji}}}\\ &=\sum_k{\bar{x}_{ik}\delta _{jk}}\\ &=\bar{x}_{ij}\\ \end{aligned}\tag{3.6}$
故 $\frac{\partial \left| \boldsymbol{X} \right|}{\partial \boldsymbol{X}^{\mathrm{T}}}=\bar{\boldsymbol{X}}=\boldsymbol{X}^{-1}\left| \boldsymbol{X} \right|$ 。

矩阵微分

矩阵微分的性质

矩阵的微分相当于对每个元素都进行微分，具体而言 $\mathrm{d}\boldsymbol{X}=\left[ \mathrm{d}X_{ij} \right]$ 。矩阵的微分和高数的微分性质类似，比如有 $\mathrm{d}\left( \boldsymbol{UV} \right) =\left( \mathrm{d}\boldsymbol{U} \right) \boldsymbol{V}+\boldsymbol{U}\left( \mathrm{d}\boldsymbol{V} \right)$ 成立。

因为矩阵的微分相当于一种按元素原位操作，因此与一元线性操作可交换顺序，例如 $\mathrm{d}\left( \boldsymbol{X}^{\mathrm{T}} \right) =\left( \mathrm{d}\boldsymbol{X} \right) ^{\mathrm{T}}$ 、 $\mathrm{d}\left( \mathrm{tr}\left( \boldsymbol{X} \right) \right) =\mathrm{tr}\left( \mathrm{d}\boldsymbol{X} \right)$ 、 $\mathrm{d}\left( \mathrm{vec}\left( \boldsymbol{X} \right) \right) =\mathrm{vec}\left( \mathrm{d}\boldsymbol{X} \right)$ 。

当然，借助乘积法则，我们也可以推导逆矩阵的微分
$\begin{array}{l} \phantom{\Rightarrow }\boldsymbol{O}=\mathrm{d}\boldsymbol{I}=\mathrm{d}\left( \boldsymbol{XX}^{-1} \right) =\left( \mathrm{d}\boldsymbol{X} \right) \boldsymbol{X}^{-1}+\boldsymbol{X}\left( \mathrm{d}\boldsymbol{X}^{-1} \right)\\ \Rightarrow \mathrm{d}\boldsymbol{X}^{-1}=-\boldsymbol{X}^{-1}\left( \mathrm{d}\boldsymbol{X} \right) \boldsymbol{X}^{-1}\\ \end{array}\tag{4.1}$
同理，记 $\bar{\boldsymbol{X}}$ 是 $\boldsymbol{X}$ 的伴随矩阵，由 $\left(3.6\right)$ 结合Jacobian的全微分定义得 $\mathrm{d}\left| \boldsymbol{X} \right|=\mathrm{tr}\left( \boldsymbol{\bar{X}}\mathrm{d}\boldsymbol{X} \right) =\left| \boldsymbol{X} \right|\mathrm{tr}\left( \boldsymbol{X}^{-1}\mathrm{d}\boldsymbol{X} \right)$ 。

利用微分求解标量函数的Jacobian

事实上，注意到 $\mathrm{d}f\left( \boldsymbol{x} \right) =\boldsymbol{A}\mathrm{d}\boldsymbol{x}=\mathrm{tr}\left( \boldsymbol{A}\mathrm{d}\boldsymbol{x} \right)$ 、 $\mathrm{d}f\left( \boldsymbol{X} \right) =\mathrm{tr}\left( \boldsymbol{A}\mathrm{d}\boldsymbol{X} \right)$ ，其中 $\boldsymbol{A}$ 为Jacobian、 $\boldsymbol{A}^\mathrm{T}$ 为梯度。同时借助 $\mathrm{tr}$ 的相似不变性，我们还可以给出一种利用微分求解Jacobian或梯度的方式：

先以一个经典的二次型函数为例，若 $\boldsymbol{A}$ 是一个常方阵，试求 $f\left( \boldsymbol{x} \right) =\boldsymbol{x}^{\mathrm{T}}\boldsymbol{Ax}$ 的梯度。
$\begin{aligned} \mathrm{d}f\left( \boldsymbol{x} \right) &=\mathrm{d}\left( \mathrm{tr}\left( \boldsymbol{x}^{\mathrm{T}}\boldsymbol{Ax} \right) \right)\\ &=\mathrm{tr}\left( \mathrm{d}\boldsymbol{x}^{\mathrm{T}}\boldsymbol{Ax} \right) +\mathrm{tr}\left( \boldsymbol{x}^{\mathrm{T}}\boldsymbol{A}\mathrm{d}\boldsymbol{x} \right)\\ &=\mathrm{tr}\left( \boldsymbol{Ax}\mathrm{d}\boldsymbol{x}^{\mathrm{T}} \right) ^{\mathrm{T}}+\mathrm{tr}\left( \boldsymbol{x}^{\mathrm{T}}\boldsymbol{A}\mathrm{d}\boldsymbol{x} \right)\\ &=\mathrm{tr}\left( \boldsymbol{x}^{\mathrm{T}}\left( \boldsymbol{A}+\boldsymbol{A}^{\mathrm{T}} \right) \mathrm{d}\boldsymbol{x} \right)\\ \end{aligned}\tag{4.2}$
因此，其Jacobian为 $\boldsymbol{x}^{\mathrm{T}}\left( \boldsymbol{A}+\boldsymbol{A}^{\mathrm{T}} \right)$ ，梯度为 $\left( \boldsymbol{A}+\boldsymbol{A}^{\mathrm{T}} \right)\boldsymbol{x}$ 。