矩阵求导之一：理论篇

OlivePlum

已于 2023-10-21 13:08:16 修改

阅读量126

点赞数 1

分类专栏：矩阵求导文章标签：矩阵算法机器学习

于 2023-10-11 17:21:57 首次发布

本文链接：https://blog.csdn.net/weixin_43283275/article/details/133756898

版权

矩阵求导专栏收录该内容

6 篇文章 0 订阅

订阅专栏

为方便叙述，做如下定义：
$x$ 表示标量， $\boldsymbol{x}$ 表示 $n$ 维列向量， $\boldsymbol{X}$ 表示 $m\times n$ 维矩阵， $y$ 表示标量， $\boldsymbol{y}$ 表示 $m$ 维列向量， $\boldsymbol{Y}$ 表示 $p\times q$ 维矩阵。
仅考虑实数域，不考虑复数域。

1 函数与标量、向量、矩阵

对于一个函数 $f\left( x \right)$ ，根据自变量以及函数的类型可以分成9种类型：

1.1 函数为标量

函数为实值标量函数。用细体小写字母 $f$ 表示。

1.1.1 变元为标量

当函数的变元为标量（细体小写字母 $x$ 表示）时，就是我们在高数中学习的函数。
【例1.1】
$f\left( x \right) =x+a$

1.1.2 变元为向量

当函数的变元为标量（粗体小写字母 $\boldsymbol{x}$ 表示）时，该函数仍是一个标量函数。
【例1.2】设 $\boldsymbol{x}=\left[ x_1,x_2,\cdots ,x_n \right] ^T$ ，
$f\left( \boldsymbol{x} \right) =a_1{x_1}^2+a_2{x_2}^2+\cdots +a_n{x_n}^2$

1.1.3 变元为矩阵

当函数的变元为标量（粗体大写字母 $\boldsymbol{X}$ 表示）时，该函数仍是一个标量函数。
【例1.3】设 $\boldsymbol{X}=\left[ \begin{matrix} x_{11}& x_{12}& x_{13}\\ x_{21}& x_{22}& x_{23}\\ \end{matrix} \right]$ ，
$f\left( \boldsymbol{X} \right) =a_1x_{11}+a_2x_{12}+a_3x_{13}+a_4x_{21}+a_5x_{22}+a_6x_{23}$

1.2 函数为向量

当函数为实向量函数（用粗体小写字母 $\boldsymbol{f}$ 表示）时，表示 $\boldsymbol{f}$ 是由若干个实值标量函数 ${f}$ 组成的一个向量。

1.2.1 变元为标量

【例1.4】 $\boldsymbol{f}_{m\times 1}\left( x \right) =\left[ \begin{array}{c} f_1\left( x \right)\\ f_2\left( x \right)\\ \vdots\\ f_m\left( x \right)\\ \end{array} \right] =\left[ \begin{array}{c} x+1\\ x^2+2\\ \vdots\\ 3x^3+1\\ \end{array} \right]$

1.2.2 变元为向量

【例1.5】设 $\boldsymbol{x}=\left[ x_1,x_2,\cdots ,x_n \right] ^T$ ，
$\boldsymbol{f}_{m\times 1}\left( \boldsymbol{x} \right) =\left[ \begin{array}{c} f_1\left( \boldsymbol{x} \right)\\ f_2\left( \boldsymbol{x} \right)\\ \vdots\\ f_m\left( \boldsymbol{x} \right)\\ \end{array} \right] =\left[ \begin{array}{c} f_1\left( x_1,x_2,\cdots ,x_n \right)\\ f_2\left( x_1,x_2,\cdots ,x_n \right)\\ \vdots\\ f_m\left( x_1,x_2,\cdots ,x_n \right)\\ \end{array} \right]$

1.2.3 变元为矩阵

【例1.6】设 $\boldsymbol{X}_{m\times n}=\left[ \begin{matrix} x_{11}& x_{12}& \cdots& x_{1n}\\ x_{21}& x_{22}& \cdots& x_{2n}\\ \vdots& \vdots& \ddots& \vdots\\ x_{m1}& x_{m2}& \cdots& x_{mn}\\ \end{matrix} \right]$
$\boldsymbol{f}_{m\times 1}\left( \boldsymbol{X} \right) =\left[ \begin{array}{c} f_1\left( \boldsymbol{X} \right)\\ f_2\left( \boldsymbol{X} \right)\\ \vdots\\ f_m\left( \boldsymbol{X} \right)\\ \end{array} \right] =\left[ \begin{array}{c} f_1\left( x_{11},x_{12},\cdots ,x_{mn} \right)\\ f_2\left( x_{11},x_{12},\cdots ,x_{mn} \right)\\ \vdots\\ f_m\left( x_{11},x_{12},\cdots ,x_{mn} \right)\\ \end{array} \right]$

1.3 函数为矩阵

当函数是一个实矩阵函数（用粗体大写字母 $\boldsymbol{F}$ 表示）时，表示 $\boldsymbol{F}$ 是由若干个 ${f}$ 组成的一个矩阵。

1.3.1 变元为标量

【例1.7】 $\boldsymbol{F}_{m\times n}\left( x \right) =\left[ \begin{matrix} f_{11}\left( x \right)& f_{12}\left( x \right)& \cdots& f_{1n}\left( x \right)\\ f_{21}\left( x \right)& f_{22}\left( x \right)& \cdots& f_{2n}\left( x \right)\\ \vdots& \vdots& \ddots& \vdots\\ f_{m1}\left( x \right)& f_{m2}\left( x \right)& \cdots& f_{mn}\left( x \right)\\ \end{matrix} \right] _{m\times n}$

1.3.2 变元为向量

【例1.8】设 $\boldsymbol{x}=\left[ x_1,x_2,\cdots ,x_n \right] ^T$ ，
$\boldsymbol{F}_{m\times n}\left( \boldsymbol{x} \right) =\left[ \begin{matrix} f_{11}\left( \boldsymbol{x} \right)& f_{12}\left( \boldsymbol{x} \right)& \cdots& f_{1n}\left( \boldsymbol{x} \right)\\ f_{21}\left( \boldsymbol{x} \right)& f_{22}\left( \boldsymbol{x} \right)& \cdots& f_{2n}\left( \boldsymbol{x} \right)\\ \vdots& \vdots& \ddots& \vdots\\ f_{m1}\left( \boldsymbol{x} \right)& f_{m2}\left( \boldsymbol{x} \right)& \cdots& f_{mn}\left( \boldsymbol{x} \right)\\ \end{matrix} \right] \\ =\left[ \begin{matrix} f_{11}\left( x_1,x_2,\cdots ,x_n \right)& f_{12}\left( x_1,x_2,\cdots ,x_n \right)& \cdots& f_{1n}\left( x_1,x_2,\cdots ,x_n \right)\\ f_{21}\left( x_1,x_2,\cdots ,x_n \right)& f_{22}\left( x_1,x_2,\cdots ,x_n \right)& \cdots& f_{2n}\left( x_1,x_2,\cdots ,x_n \right)\\ \vdots& \vdots& \ddots& \vdots\\ f_{m1}\left( x_1,x_2,\cdots ,x_n \right)& f_{m2}\left( x_1,x_2,\cdots ,x_n \right)& \cdots& f_{mn}\left( x_1,x_2,\cdots ,x_n \right)\\ \end{matrix} \right]$

1.3.3 变元为矩阵

【例1.9】设 $\boldsymbol{X}_{m\times n}=\left[ \begin{matrix} x_{11}& x_{12}& \cdots& x_{1n}\\ x_{21}& x_{22}& \cdots& x_{2n}\\ \vdots& \vdots& \ddots& \vdots\\ x_{m1}& x_{m2}& \cdots& x_{mn}\\ \end{matrix} \right]$
$\boldsymbol{F}_{m\times n}\left( \boldsymbol{X} \right) =\left[ \begin{matrix} f_{11}\left( \boldsymbol{X} \right)& f_{12}\left( \boldsymbol{X} \right)& \cdots& f_{1n}\left( \boldsymbol{X} \right)\\ f_{21}\left( \boldsymbol{X} \right)& f_{22}\left( \boldsymbol{X} \right)& \cdots& f_{2n}\left( \boldsymbol{X} \right)\\ \vdots& \vdots& \ddots& \vdots\\ f_{m1}\left( \boldsymbol{X} \right)& f_{m2}\left( \boldsymbol{X} \right)& \cdots& f_{mn}\left( \boldsymbol{X} \right)\\ \end{matrix} \right] \\ =\left[ \begin{matrix} f_{11}\left( x_{11},x_{12},\cdots ,x_{mn} \right)& f_{12}\left( x_{11},x_{12},\cdots ,x_{mn} \right)& \cdots& f_{1n}\left( x_{11},x_{12},\cdots ,x_{mn} \right)\\ f_{21}\left( x_{11},x_{12},\cdots ,x_{mn} \right)& f_{22}\left( x_{11},x_{12},\cdots ,x_{mn} \right)& \cdots& f_{2n}\left( x_{11},x_{12},\cdots ,x_{mn} \right)\\ \vdots& \vdots& \ddots& \vdots\\ f_{m1}\left( x_{11},x_{12},\cdots ,x_{mn} \right)& f_{m2}\left( x_{11},x_{12},\cdots ,x_{mn} \right)& \cdots& f_{mn}\left( x_{11},x_{12},\cdots ,x_{mn} \right)\\ \end{matrix} \right]$

1.4 总结

根据自变量、因变量是标量，向量还是矩阵，有9种矩阵形式：

函数\变元	标量变元	向量变元	矩阵变元
实值标量函数	$f\left( x \right)$	$f\left( \boldsymbol{x} \right)$	$f\left( \boldsymbol{X} \right)$
实向量函数	$\boldsymbol{f}\left( x \right)$	$\boldsymbol{f}\left( \boldsymbol{x} \right)$	$\boldsymbol{f}\left( \boldsymbol{X} \right)$
实矩阵函数	$\boldsymbol{F}\left( x \right)$	$\boldsymbol{F}\left( \boldsymbol{x} \right)$	$\boldsymbol{F}\left( \boldsymbol{X} \right)$

对应地，有9种可能的矩阵求导定义：

函数\变元	标量变元	向量变元	矩阵变元
实值标量函数	$\frac{\partial f}{\partial x}$	$\frac{\partial f}{\partial \boldsymbol{x}}$	$\frac{\partial f}{\partial \boldsymbol{X}}$
实向量函数	$\frac{\partial \boldsymbol{f}}{\partial x}$	$\frac{\partial \boldsymbol{f}}{\partial \boldsymbol{x}}$	$\frac{\partial \boldsymbol{f}}{\partial \boldsymbol{X}}$
实矩阵函数	$\frac{\partial \boldsymbol{F}}{\partial x}$	$\frac{\partial \boldsymbol{F}}{\partial \boldsymbol{x}}$	$\frac{\partial \boldsymbol{F}}{\partial \boldsymbol{X}}$

2 矩阵求导的本质

在高等数学里面，我们已经学过了标量对标量的求导，比如标量 $y$ 对标量 $x$ 的求导，可以表示为 $\frac{\partial y}{\partial x}$ .有些时候，我们会对一组标量 $y_i,i=1,2,\cdots ,m$ 进行求导，我们会得到一组标量求导的结果：
$\frac{\partial y_i}{\partial x_i},i=1,2,\cdots ,m$
如果我们把这组标量写成向量的形式，即得到维度为 $m$ 的一个向量 $\boldsymbol{y}$ 对一个标量 $x$ 的求导，那么结果也是一个 $m$ 维的向量: $\frac{\partial \boldsymbol{y}}{\partial \boldsymbol{x}}$ .

可见，所谓向量对标量的求导，其实就是向量里的每个分量分别对标量求导，最后把求导的结果排列在一起，按一个向量表示而已。类似地，矩阵求导也是一样的，本质就是矩阵中的每个 $f$ 分别对变元中的每个元素逐个求偏导，只不过写成了向量、矩阵形式而已。

下面通过2个例子直观感受一下。

【例2.1】设 $\boldsymbol{y}=\left[ y_1,y_2,\cdots ,y_n \right] ^T$ ，则有：
$\frac{\partial \boldsymbol{y}}{\partial x}=\left[ \frac{\partial y_1}{\partial x},\frac{\partial y_2}{\partial x},\cdots \frac{\partial y_3}{\partial x} \right] ^T$
【例2.2】求函数 $f\left( \boldsymbol{x} \right) =\boldsymbol{x}^T\boldsymbol{x}={x_1}^2+{x_2}^2+\cdots +{x_n}^2$ 对 $\boldsymbol{x}$ 的导数.
显然这是一个标量对向量求导地形式：
$\begin{aligned} \frac{\mathrm{d}f}{\mathrm{d}\boldsymbol{x}}&=\left[ \frac{\partial f}{\partial x_1},\frac{\partial f}{\partial x_2},\cdots ,\frac{\partial f}{\partial x_n} \right] ^T=\left[ 2x_1,2x_2,\cdots ,2x_n \right] ^T \\ \\ &=2\left[ x_1,x_2,\cdots ,x_n \right] ^T=2\boldsymbol{x} \end{aligned}$
即：
$\frac{\mathrm{d}\left( \boldsymbol{x}^T\boldsymbol{x} \right)}{\mathrm{d}\boldsymbol{x}}=2\boldsymbol{x}$
如果函数中有 $m$ 个 $f$ ，变元中有 $n$ 个元素，那么，每个 $f$ 对变元中的每个元素逐个求偏导后，就会产生 $m\times n$ 个结果。
更进一步，对于一个 $m\times n$ 的实矩阵函数 $\boldsymbol{F}\left( \boldsymbol{X} \right)$ ，变元为 $p\times q$ 的矩阵变元，那么每个 $f$ 对变元中的每个元素逐个求偏导后，就会产生 $m\times n \times p\times q$ 个结果。

求导的本质是把导数信息，即求导的结果排列起来，至于是按行排列还是按列排列都是可以的。但是这样也有问题，在机器学习算法优化过程中，如果行向量或者列向量随便写，那么结果就不唯一，而且编程时会因为维度问题而出错。为了解决这个问题，引入求导布局的概念。

3 分子布局和分母布局

矩阵求导有两种布局，分子布局(numerator layout)和分母布局(denominator layout)。两种布局互为转置关系。

分子布局：结果的维度以分子为主。
分母布局：结果的维度以分母为主。

这里所说的以谁为主是指结果的第一个维度由谁决定。这里先举几个例子，方便加深对布局理论的理解。

3.1 标量对标量求导

标量对标量的求导就是高数中所学习的函数求导。

3.2 标量对向量求导

如 $\frac{\partial y}{\partial \boldsymbol{x}}$ ，如果按照分子布局，结果的第一个维度与分子的第一个维度相同，为1行，结果就是 $m$ 维行向量；如果按照分母布局，结果的第一个维度与分母的第一个维度相同，为 $m$ 行，结果就会是 $m$ 维列向量。

3.3 标量对矩阵求导

因为 $\boldsymbol{X}$ 在分母上，因此默认使用分母布局。
标量 $y$ 对矩阵 $\boldsymbol{X}$ 的每个元素求导，然后将各个求导结果按矩阵 $\boldsymbol{X}$ 的形状排列。
【例3.1】设矩阵 $\boldsymbol{X}$ 为：
$\boldsymbol{X}=\left[ \begin{matrix} x_{11}& x_{12}& \cdots& x_{1n}\\ x_{21}& x_{22}& \cdots& x_{2n}\\ \vdots& \vdots& \ddots& \vdots\\ x_{m1}& x_{m2}& \cdots& x_{mn}\\ \end{matrix} \right]$
则：
$\frac{\partial f}{\partial \boldsymbol{X}}=\left[ \begin{matrix} \frac{\partial f}{\partial x_{11}}& \frac{\partial f}{\partial x_{12}}& \cdots& \frac{\partial f}{\partial x_{1n}}\\ \\\ \frac{\partial f}{\partial x_{21}}& \frac{\partial f}{\partial x_{22}}& \cdots& \frac{\partial f}{\partial x_{2n}}\\ \\\ \vdots& \vdots& \ddots& \vdots\\ \\\ \frac{\partial f}{\partial x_{m1}}& \frac{\partial f}{\partial x_{m2}}& \cdots& \frac{\partial f}{\partial x_{mn}}\\ \end{matrix} \right]$

3.4 向量对标量求导

如 $\frac{\partial \boldsymbol{f}}{\partial x}$ ，如果按照分子布局，结果就会是m维列向量，与分子维度一致。如果按照分母布局，结果就会是m维行向量。
设 $\boldsymbol{y}=\left[ y_1,y_2,\cdots ,y_m \right] ^T$ ，在分子布局下，有：
$\frac{\partial \boldsymbol{y}}{\partial x}=\left[ \frac{\partial y_1}{\partial x},\frac{\partial y_2}{\partial x},\cdots ,\frac{\partial y_m}{\partial x} \right] ^T$
在分母布局下，有：
$\frac{\partial \boldsymbol{y}}{\partial x}=\left[ \frac{\partial y_1}{\partial x},\frac{\partial y_2}{\partial x},\cdots ,\frac{\partial y_m}{\partial x} \right]$

3.5 向量对向量求导

3.5.1 行向量对列向量求导

也称分母布局，用 $\frac{\partial \boldsymbol{y}^T}{\partial \boldsymbol{x}}$ 表示。
$m$ 维行向量 $\boldsymbol{y}^T=\left[ y_1,y_2,\cdots ,y_m \right]$ 对 $n$ 维列向量 $\boldsymbol{x}=\left[ x_1,x_2,\cdots ,x_n \right] ^T$ 求导，得到的是 $n\times m$ 维矩阵：
$\frac{\partial \boldsymbol{y}^T}{\partial \boldsymbol{x}}=\left[ \begin{array}{c} \frac{\partial \boldsymbol{y}^T}{\partial x_1}\\ \\ \frac{\partial \boldsymbol{y}^T}{\partial x_2}\\ \\ \vdots\\ \\ \frac{\partial \boldsymbol{y}^T}{\partial x_n}\\ \end{array} \right] =\left[ \begin{matrix} \frac{\partial y_1}{\partial x_1}& \frac{\partial y_2}{\partial x_1}& \cdots& \frac{\partial y_m}{\partial x_1}\\ \\ \frac{\partial y_1}{\partial x_2}& \frac{\partial y_2}{\partial x_2}& \cdots& \frac{\partial y_m}{\partial x_2}\\ \\ \vdots& \vdots& \ddots& \vdots\\ \\ \frac{\partial y_1}{\partial x_n}& \frac{\partial y_2}{\partial x_n}& \cdots& \frac{\partial y_m}{\partial x_n}\\ \end{matrix} \right]$
数学上将这种矩阵称之为梯度矩阵

3.5.2 列向量对行向量求导

也称分子布局，用 $\frac{\partial \boldsymbol{y}}{\partial \boldsymbol{x}^T}$ 表示。
$m$ 维列向量 $\boldsymbol{y}=\left[ y_1,y_2,\cdots ,y_m \right]^T$ 对 $n$ 维行向量 $\boldsymbol{x}^T=\left[ x_1,x_2,\cdots ,x_n \right]$ 求导，得到的是 $m\times n$ 维矩阵：
$\frac{\partial \boldsymbol{y}}{\partial \boldsymbol{x}^T}=\left[ \begin{array}{c} \frac{\partial y_1}{\partial \boldsymbol{x}}\\ \\\ \frac{\partial y_2}{\partial \boldsymbol{x}}\\ \\\ \vdots\\ \\\ \frac{\partial y_m}{\partial \boldsymbol{x}}\\ \end{array} \right] =\left[ \begin{matrix} \frac{\partial y_1}{\partial x_1}& \frac{\partial y_1}{\partial x_2}& \cdots& \frac{\partial y_1}{\partial x_n}\\ \\\ \frac{\partial y_2}{\partial x_1}& \frac{\partial y_2}{\partial x_2}& \cdots& \frac{\partial y_2}{\partial x_n}\\ \\\ \vdots& \vdots& \ddots& \vdots\\ \\\ \frac{\partial y_m}{\partial x_1}& \frac{\partial y_m}{\partial x_2}& \cdots& \frac{\partial y_m}{\partial x_n}\\ \end{matrix} \right]$
数学上将这种矩阵称之为雅克比 (Jacobian)矩阵。

3.5.3 列向量对列向量求导

设 $n$ 维列向量 $\boldsymbol{x}=\left[ x_1,x_2,\cdots ,x_n \right]^T$ ， $m$ 维列向量 $\boldsymbol{y}=\left[ y_1,y_2,\cdots ,y_m \right]^T$ 。则：

把 $\boldsymbol{x}$ 展开，然后 $\boldsymbol{y}$ 分别对 $\boldsymbol{x}$ 中的每一个元素进行求导,求导的结果保留在向量 $\boldsymbol{x}$ 上：
$\frac{\partial \boldsymbol{y}}{\partial \boldsymbol{x}}=\left[ \begin{matrix} \frac{\partial \boldsymbol{y}}{\partial x_1}& \frac{\partial \boldsymbol{y}}{\partial x_2}& \cdots& \frac{\partial \boldsymbol{y}}{\partial x_n}\\ \end{matrix} \right] ^T$
然后把结果中的 $\boldsymbol{y}$ 展开，得到此时会得到 $m$ 个向量，其中第一个向量为：
$\left[ \begin{matrix} \frac{\partial y_1}{\partial x_1}& \frac{\partial y_1}{\partial x_2}& \cdots& \frac{\partial y_1}{\partial x_n}\\ \end{matrix} \right] ^T$
按列排列的方式进行排序，得到：
$\frac{\partial \boldsymbol{y}}{\partial \boldsymbol{x}}= \left[ \begin{matrix} \frac{\partial y_1}{\partial x_1}& \cdots& \frac{\partial y_1}{\partial x_n}& \cdots& \frac{\partial y_m}{\partial x_1}& \cdots& \frac{\partial y_m}{\partial x_n}\\ \end{matrix} \right] ^T$

3.5.4 行向量对行向量求导

设 $n$ 维行向量 $\boldsymbol{x}^T=\left[ x_1,x_2,\cdots ,x_n \right]$ ， $m$ 维列向量 $\boldsymbol{y}^T=\left[ y_1,y_2,\cdots ,y_m \right]$ 。则：
$\frac{\partial \boldsymbol{y}}{\partial \boldsymbol{x}}=\left[ \begin{matrix} \frac{\partial \boldsymbol{y}}{\partial x_1}& \frac{\partial \boldsymbol{y}}{\partial x_2}& \cdots& \frac{\partial \boldsymbol{y}}{\partial x_n}\\ \end{matrix} \right]$
其中：
$\frac{\partial \boldsymbol{y}}{\partial x_i}=\left[ \begin{matrix} \frac{\partial y_1}{\partial x_i}& \frac{\partial y_2}{\partial x_i}& \cdots& \frac{\partial y_m}{\partial x_i}\\ \end{matrix} \right]$
可以根据需要进行调整，调整为行向量对列向量求导或是列向量对行向量求导。