原文地址:
https://en.wikipedia.org/wiki/Matrix_calculus#Other_matrix_derivatives
其他矩阵求导(存在争议)
有三种矩阵的导数我们目前没有看到,他们是向量对矩阵求导,矩阵对向量求导,矩阵对矩阵求导。他们没有统一的符号,也没有统一的应用。对于和向量相关的矩阵两种矩阵导数,可以被看作是一个只有一列的矩阵和另一个矩阵做相互运算。鉴于这个原因,本节我们只考虑如何写出一个矩阵对另一个矩阵求导的导数结果。
假设
F(X)
是一个矩阵函数,它表示从
n×m
矩阵到
p×q
矩阵的映射表示为:
F:M(n×m)→M(p×q)
。那么
F(X)
就是一个
M(n×m)⊗M(p×q)
的元素,
M(n×m)⊗M(p×q)
是一个四阶张量(在这里
m
和
在这里 ∂F∂Xij 是一个 p×q 的矩阵。还有就是矩阵被转置了,成了 m 行
Y 在矩阵 M(n,m) 中沿着 F 的前推是:
对于给定的一个可微分的 n×m 的矩阵 X=(xi,j) 的矩阵方程 ϕ ,
对于给定的一个可微分的
n×m
的矩阵
X
的
m×n
的矩阵方程
F=(fs,t)
,
雅各布矩阵:
布局约定
本节我们使用矩阵微积分来讨论一些关于在众多领域都官方应用的不同符号约定的异同点。可以大致分出两大类的约定,一些作者喜欢把这两种约定混合使用,就像是我们下面讨论的。下面的章节我们将要把这两种对立的形式分开讨论。
最基本的问题是向量对向量求导的表示,也就是
∂y∂x
,但是就是这个简单的表示形式也有两种对立的写法。如果分子
y
的大小是
m
,并且分母
- 分子布局: ∂y∂xT ,分子是列向量,分母是行向量。这也被称为雅各布方程
- 分母布局: ∂yT∂x ,分母是列向量,分子是行向量。这也被称为海森方程。一些作者把这里的形式称为梯度,为了可以方便和它的转置也就是雅各布方程区分(但是,“梯度”这个词更多的时候是表示 ∂y∂x ,并且忽略向量的布局)
- 第三中可能就是坚持将导数形式写成 ∂y∂x′ ,(也就是说,即导数是相对于x的转置)并遵循分子布局。这使得有可能声称矩阵是根据分子和分母来布局的。实际上,这将产生与分子布局相同的结果。
当处理梯度 ∂y∂x ,或者是其相反的情况 ∂y∂x ,不失一般性,我们将做以下处理:
- 如果为 ∂y∂x 选择分子布局,我们将把梯度 ∂y∂x 写成行向量, ∂y∂x 写成列向量
- 如果为 ∂y∂x 选择分母布局,我们将把梯度 ∂y∂x 写成列向量, ∂y∂x 写成行向量
如果是第三种可能,则参考分子布局
并不是所有的数学课本或者是论文都通篇采用同一种布局,因为在不同的上下文环境中可以使用不同的布局。比如对于 ∂y∂x ,在求解梯度的时候我们采用分母布局(结果写成列向量),但是在求解向量和向量的导数的时候我们使用分母布局。
类似的,当处理标量对矩阵求导 ∂y∂X 或者是矩阵对标量求导 ∂Y∂x 的结果,如果使用分子布局则布局结构参考 Y 和 XT ,如果是分母布局则参考 YT 和 X 。然而在实际应用中, ∂Y∂x 的结果更多参考 YT ,而且它非常少见,因为他的形式不好,且找不到对应的标量方程,因此有下面的布局:分子布局: ∂Y∂x 参考 Y , ∂y∂X 参考 XT .
- 混合布局: ∂Y∂x 参考 Y , ∂y∂X 参考 X .
- 使用符号 Y , ∂y∂X′ ,结果同分子布局
在下面的公式中,我们将分别处理不同的五种可能的组合方式
∂y∂x
,
∂y∂x
,
∂y∂x
,
∂y∂X
,
∂Y∂x
.
我们还处理涉及中间向量或矩阵的标量与标量导数的情况。(例如,如果根据标量变量定义多维参数曲线,并且然后相对于参数化曲线的标量取曲线的标量函数的导数,则会出现这种情况。)对于每个我们给出分子布局和分母布局结果,除了分母布局很少出现的情况。在涉及矩阵的情况下,我们给分子布局和混合布局结果。如上所述,矢量和矩阵分母写入转置符号的情况相当于分子没有转置写入分母的情况。
请记住,不同的作者使用分子和分母布局的不同组合,以适应不同类型的求导,并且不能保证作者将始终如一地使用分子或分母布局。将以下公式与源代码中引用的公式进行匹配,以确定用于该特定类型求导的布局,但要小心,不要假设其他类型的求导必须遵循同一种布局。
当使用聚集体(向量或矩阵)分母的求导工具来查找聚集体的最大值或最小值时,应该记住,使用分子布局会产生相对于总计转置的结果。例如,在尝试使用矩阵演算找到多元正态分布的最大似然估计值的情况下,如果该区域是
k×1
列向量,则使用分子布局的结果将以
1×k
行向量的形式出现。因此,结果应该在最后转换,或者应该使用分母布局(或混合布局)。
标量 y | 向量 |
矩阵 | ||||
符号 | 类型 | 符号 | 类型 | 符号 | 类型 | |
标量 x | 标量 | ∂y∂x | (分子布局)大小
m
的列向量;
(分母布局)大小 | ∂Y∂x | (分子布局)大小 m×n 的矩阵 | |
向量 x( 大小 n ) | (分子布局)大小
n
的行向量;
(分母布局)大小 | ∂y∂x | (分子布局)大小 m×n 的矩阵; (分母布局)大小 n×m 的矩阵 | ∂Y∂x | ||
矩阵 Y( 大小 p×q ) | ∂y∂X | (分子布局)大小 q×p 的矩阵; (分母布局)大小 p×q 的矩阵 | ∂y∂X | ∂Y∂X |
在分子和分母布局切换的时候需要对结果进行转置操作。
分子布局:
使用分子布局,我们将得到:
下面的定义只在分子布局下适用:
分母布局:
使用分子布局,我们将得到: