Jacobian矩阵梯度矩阵矩阵偏导与微分例子与常见公式

最新推荐文章于 2021-04-18 19:23:36 发布

路剑书

最新推荐文章于 2021-04-18 19:23:36 发布

阅读量9.7k

点赞数 16

分类专栏：数学

本文链接：https://blog.csdn.net/qq_30565883/article/details/104099105

版权

数学专栏收录该内容

8 篇文章

订阅专栏

Jacobian矩阵梯度矩阵矩阵偏导与微分常见公式

矩阵求导是机器学习中常见的运算方法，研究对象包括标量矩阵，求导分为标量矩阵求导，矩阵求导。
根据个人理解和经验，机器学习中的优化目标一般是一个由向量或矩阵运算得到的标量，因此应该重点关注标量对向量和矩阵的求导。
本文总结了矩阵求导的定义和常见公式，主要内容来自张贤达《矩阵分析与应用（第二版）》的第三章。

Jacobian矩阵

矩阵导数可以理解成实值标量函数、实值向量函数、实值矩阵函数对于向量或矩阵中的每一个元素的偏导，是由一系列偏导组成的。

若有 $m$ 维列向量 $x\in \mathbb{R}^{m\times 1}$ ，变元为 $x$ 的实值标量函数 $f (x)$ 在 $x$ 处的偏导向量定义为：
$\frac{\partial f(x)}{\partial x^T} =[\frac{\partial f}{\partial x_1},\frac{\partial f}{\partial x_2},\cdots ,\frac{\partial f}{\partial x_m}]$

若有矩阵 $X\in \mathbb{R}^{m\times n}$ ，变元为 $X$ 的实值标量函数 $f (X)$ 在 $X$ 处的Jacobian矩阵定义为：
$\frac{\partial f(X)}{\partial x^T} =\left[ \begin{matrix} \frac{\partial f(X)}{\partial X_{11}} & \cdots & \frac{\partial f(X)}{\partial X_{m1}} \\ \vdots & \ddots & \vdots \\ \frac{\partial f(X)}{\partial X_{1n}} & \cdots & \frac{\partial f(X)}{\partial X_{mn}} \\ \end{matrix} \right]\in \mathbb{R}^{n\times m}$

对于矩阵 $X\in \mathbb{R}^{m\times n}$ ，实值矩阵函数 $f(X)\in \mathbb{R}^{p\times q}$ 在 $X$ 处的Jacobian矩阵定义为：
$\frac{\partial f(X)}{\partial X^T} =\left[ \begin{matrix} \frac{\partial f(X)_{11}}{\partial X_{11}} & \cdots & \frac{\partial f(X)_{11}}{\partial X_{m1}} & \cdots & \frac{\partial f(X)_{11}}{\partial X_{mn}} \\ \vdots & \ddots & \vdots &\ddots & \vdots\\ \frac{\partial f(X)_{p1}}{\partial X_{11}} & \cdots & \frac{\partial f(X)_{p1}}{\partial X_{m1}} & \cdots & \frac{\partial f(X)_{p1}}{\partial X_{mn}} \\ \vdots & \ddots & \vdots &\ddots & \vdots\\ \frac{\partial f(X)_{pq}}{\partial X_{11}} & \cdots & \frac{\partial f(X)_{pq}}{\partial X_{m1}} &\cdots & \frac{\partial f(X)_{pq}}{\partial X_{mn}} \\ \end{matrix} \right]\in \mathbb{R}^{pq\times mn}$
这个Jacobian矩阵是分别对 $f (X)$ 和 $X$ 做向量化然后逐元素求偏导得到的。这里的 $f (X)$ 和 $X$ 都是按列展开的。
有了这个通用公式，其他关于向量的各种Jacobian矩阵也都有定义了。

梯度矩阵

实值标量函数 $f (x)$ 在列向量变元 $x\in \mathbb{R}^{m\times 1}$ 处的梯度向量定义为：
$\frac{\partial f(x)}{\partial x} =[\frac{\partial f(x)}{\partial x_1},\cdots,\frac{\partial f(x)}{\partial x_m}]^T$
注意这是个列向量。
实值标量函数 $f (X)$ 在矩阵变元 $X\in \mathbb{R}^{m\times n}$ 处的梯度矩阵定义为：
$\frac{\partial f(X)}{\partial X} =\left[ \begin{matrix} \frac{\partial f(X)}{\partial X_{11}} & \cdots & \frac{\partial f(X)}{\partial X_{1n}} \\ \vdots & \ddots & \vdots \\ \frac{\partial f(X)}{\partial X_{m1}} & \cdots & \frac{\partial f(X)}{\partial X_{mn}} \\ \end{matrix} \right]\in \mathbb{R}^{m\times n}$
实值矩阵函数 $f(X)\in \mathbb{R}^{p\times q}$ 在矩阵变元 $X\in \mathbb{R}^{m\times n}$ 处的梯度矩阵定义为：
$\frac{\partial f(X)}{\partial X} =\left[ \begin{matrix} \frac{\partial f(X)_{11}}{\partial X_{11}} & \cdots & \frac{\partial f(X)_{p1}}{\partial X_{11}} & \cdots & \frac{\partial f(X)_{pq}}{\partial X_{11}} \\ \vdots & \ddots & \vdots &\ddots & \vdots\\ \frac{\partial f(X)_{11}}{\partial X_{m1}} & \cdots & \frac{\partial f(X)_{p1}}{\partial X_{m1}} & \cdots & \frac{\partial f(X)_{pq}}{\partial X_{m1}} \\ \vdots & \ddots & \vdots &\ddots & \vdots\\ \frac{\partial f(X)_{11}}{\partial X_{mn}} & \cdots & \frac{\partial f(X)_{p1}}{\partial X_{mn}} &\cdots & \frac{\partial f(X)_{pq}}{\partial X_{mn}} \\ \end{matrix} \right]\in \mathbb{R}^{mn\times pq}$
相同函数与变元对应的Jacobian矩阵和梯度矩阵互为转置关系。

不知道是张老的书写的不够简明扼要，还是我没认真看，这么简单的定义我看了好久才搞明白。书中指出，在流行计算、几何物理、微分几何等领域，行向量偏导向量和Jacobian矩阵是最自然的选择，在最优化和许多工程问题中，梯度向量和梯度矩阵是最自然的选择。这也符合我的一些经验，梯度矩阵看起来要比Jacobian矩阵顺眼很多。

一般见到的矩阵导数是梯度矩阵的形式。 说白了Jacobian矩阵是对 $X^T$ 求导得到的，梯度矩阵是对 $X$ 求导得到的。

矩阵偏导和梯度计算法则

一般说的矩阵导数就是梯度矩阵或向量。根据定义可有如下常用运算法则：

若 $c$ 为常数， $\frac{\partial c}{\partial X}=O_{m\times n}$ ， $O_{m\times n}$ 是 $m$ 行 $n$ 列的0矩阵.
$\frac{\partial [c_1f(X)+c_2g(X)]}{\partial X}=c_1 \frac{\partial f(X)}{\partial X}+c_2 \frac{\partial g(X)}{\partial X}$
$\frac{\partial [f(X)g(x)]}{\partial X}=g(X)\frac{\partial f(X)}{\partial X}+f(X)\frac{\partial g(X)}{\partial X}$
$\frac{\partial [f(X)g(X)h(X)]}{\partial X}=g(X)h(X)\frac{\partial f(X)}{\partial X}+f(X)h(X)\frac{\partial g(X)}{\partial X}+f(X)g(X)\frac{\partial h(X)}{\partial X}$
$\frac{\partial [f(X)/g(X)]}{\partial X}=\frac{1}{g^2(X)}[g(X)\frac{\partial f(X)}{\partial X}-f(X)\frac{\partial g(X)}{\partial X}]$
$\frac{\partial g(f(X))}{\partial X}=\frac{dg(f(X))}{df(X)}\frac{\partial f(X)}{\partial X}$
求导链式法则： $\frac{\partial g(f(X))}{\partial X}=\frac{dg(y)}{dy} \frac{\partial f(X)}{\partial X}$

此外在计算以向量和矩阵为变元的函数的偏导时，有个重要的独立性基本假设，即向量和矩阵中的各个元素是相互独立的，用公式表示为：
$\frac{\partial x_i}{\partial x_j}=\left\{ \begin{array}{l} 1,if\ i=j \\ 0,else\end{array}\right.$
以及：
$\frac{\partial x_{kl}}{\partial x_{ij}}=\left\{ \begin{array}{l} 1,if\ k=i\ and\ l=j \\ 0,else\end{array}\right.$
举个根据定义求解梯度矩阵的例子，求实值函数 $f(X)=a^TXX^Tb$ 在矩阵变元 $X$ 处的梯度矩阵， $a, b$ 均为 $n$ 维列向量：
$a^TXX^Tb=\sum_{k=1}^m\sum_{l=1}^na_k(\sum_{p=1}^nx_{kp}x_{lp})b_l$
然后在这里插入图片描述
根据定义就是这样求解的。

矩阵微分以及与一阶导数的关系：Jacobian矩阵的辨识

矩阵微分的定义为：
$dX=[dX_{ij}]_{i,j=1}^{m,n}$

标量对标量的导数是用微分定义的，标量 $f$ 对标量 $x$ 的导数 $f^{'} (x)$ 满足 $d f = f^{'} (x) d x$ 。而实值标量函数 $f (x)$ 对向量 $x$ 的导数与微分的关系，可以表示为（此表示的证明书上有）：
$df(x)=\sum_{i=1}^n\frac{\partial f(x)}{\partial x_i}dx_i=\frac{\partial f(x)}{\partial x}^Tdx$
即 $f (x)$ 的微分与 $x$ 中每个元素的微分都有关， $\frac{\partial f(x)}{\partial x}$ 即为标量 $f$ 对向量 $x$ 的梯度向量，是一个向量。

同样，实标量函数 $f (X)$ 对矩阵 $X\in\mathbb{R}^{m\times n}$ 求导时， $f (X)$ 的微分也与 $X$ 中每个元素有关，表示为（此表示的证明书上有）：
$df(X)=\sum_{i=1}^m\sum_{j=1}^n\frac{\partial f(X)}{\partial X_{ij}}dX_{ij}=tr(\frac{\partial f(X)}{\partial X}^TdX)$
其中 $t r$ 表示的是矩阵求迹运算， $\frac{\partial f(X)}{\partial X}$ 表示 $f (X)$ 对 $X$ 的梯度矩阵。后一个等号成立的原因是矩阵迹运算有如下性质：
$tr(A^TB)=\sum_{i,j}A_{ij}B_{ij}$
即 $A^TB$ 的迹等于 $A$ 与 $B$ 中对应元素乘积的和。

这部分给出了微分矩阵与实标量函数对向量和矩阵变元的Jacobian矩阵（向量）和梯度矩阵（向量）的关系，这种关系也可以用来求实标量函数对向量和矩阵变元的Jacobian矩阵和梯度矩阵，这种关系称为Jacobian矩阵的辨识。
书上还给了实矩阵函数对矩阵变元导数与微分矩阵的辨识关系，以及二阶导数与微分矩阵的关系（Hessian矩阵的辨识，Hessian矩阵即矩阵二阶导），不过由于我不是很关注，所以没写在这里。

矩阵微分运算法则

这里给出一些求矩阵微分和迹的运算法则：

$d (X + Y) = d X + d Y, d (X Y) = (d X) Y + X (d Y)$
$d(X^T)=(dX)^T$
$d A = 0$ ， $A$ 为常数矩阵.
$d (a X) = a d (X)$ ， $a$ 为常数.
$d (A X B) = A (d X) B$ ， $A, B$ 为常数矩阵.
$d (f (X) g (X) h (X)) = (d f (X)) g (X) h (X) + f (X) (d g (X)) h (X) + f (X) g (X) (d h (X))$
$d t r (X) = t r (d X)$
$d|X|=|X|tr(X^{-1}dX)$ ，行列式的微分

举个用微分与梯度矩阵的关系求梯度矩阵的例子，求 $f (X) = t r (X A X B)$ 对于矩阵 $X$ 的梯度矩阵：
$dtr(XAXB)=tr(d(XAXB))\\ =tr[(dX)AXB+XA(dX)B]\\ =tr[(AXB+BXA)dX]$
因此得梯度矩阵：
$\frac{\partial tr(XAXB)}{\partial X}=(AXB+BXA)^T$