矩阵求导总结

孤嶋

已于 2023-11-13 21:24:35 修改

阅读量162

点赞数 1

文章标签：矩阵线性代数矩阵求导

于 2023-11-13 21:18:27 首次发布

本文链接：https://blog.csdn.net/Gaowang_1/article/details/134386934

版权

矩阵求导总结

参考文章：https://zhuanlan.zhihu.com/p/24709748

一、标量对矩阵求导术

首先，标量 $f$ 对矩阵 $\mathbf{X}$ 的导数，定义为：

$\frac{\partial f}{\partial \mathbf{X}}=[\frac{\partial f}{\partial \mathbf{X_{ij}}}]$ ，

即 $f$ 对 $\mathbf{X}$ 逐个元素求导排列成和 $\mathbf{X}$ 尺寸相同的矩阵。这个定义在计算中并不好用，原因有二：

实用上的原因是对函数较复杂的情形难以逐元素求导；
哲理上的原因是逐元素求导破坏了整体性。

通过回顾：

一元微积分中的导数（标量对标量的导数）与微分的联系： $df = f^{'} (x) d x$
多元微积分中的梯度（标量对向量的导数）也与微分有联系： $df=\sum_{i=1}^n \frac{\partial f}{\partial x_i}dx_i=(\frac{\partial f}{\partial \mathbf{x}}) ^\top d\mathbf{x}$ ，第一个等号是全微分公式，第二个等号表达了梯度与微分的联系。全微分 $df$ 是梯度向量 $\frac{\partial f}{\partial \mathbf{x}}(n×1)$ 与微分向量 $\mathbf{x}(1×n)$ 的内积
受此启发，将矩阵导数与微分建立联系：
- $df=\sum_{i=1}^m\sum_{j=1}^n \frac{\partial f}{\partial X_{ij}}dX_{ij}=tr((\frac{\partial f}{\partial \mathbf{X}}) ^\top d\mathbf{X})$
其中tr代表迹(trace)是方阵对角线元素之和，满足性质：对尺寸相同的矩阵A,B， $tr(A^\top B)$ 即是矩阵A,B的内积(A、B对应位置元素乘积之和)。与梯度相似，这里第一个等号是全微分公式，第二个等号表达了矩阵导数与微分的联系：全微分 $df$ 是导数 $\frac{\partial f}{\partial X}(m×n)$ 与微分矩阵 $d X (m \times n)$ 的内积。

矩阵微分的运算法则：

加减法： $d (X \pm Y) = d X \pm d Y$
矩阵乘法: $d (X Y) = (d X) Y + X d Y$
转置：$d(X^\top )=(dX)^ \top $
迹： $d t r (X) = t r (d X)$
逆： $dX^{-1}=-X^{-1}dXX^{-1}$ (此式可在 $XX^{-1}=I$ 两侧去求微分证明)
行列式： $d |X|=tr(X^*dX)$ 其中， $X^*$ 表示 $X$ 的伴随矩阵；在 $X$ 可逆时又可写作： $d|X|=|X|tr(X^{-1}dX)$
逐元素乘法： $\odot Y)=dX \odot Y+X\odot dY$ $\odot$ 表示尺寸相同的矩阵 X、Y逐个元素相乘
逐元素函数： $d\sigma(X)=\sigma'(X) \odot dX$ , $\sigma(X)=[\sigma(X_{ij})]$ 是逐元素标量函数运算， $\sigma’(X)=[\sigma'(X_{ij})]$ 是逐元素求导数。例如：
$X=\begin{bmatrix} X_{11} & X_{12} \\ X_{21} & X_{22} \end{bmatrix},\\ d\ sin(X) = \begin{bmatrix} cosX_{11}dX_{11} & cosX_{12}dX_{12} \\ cosX_{21}dX_{21} & cosX_{22}dX_{22} \end{bmatrix} =cos(X)\odot dX$

试图利用矩阵导数与微分的联系 $df=tr((\frac{\partial f}{\partial \mathbf{X}}) ^\top d\mathbf{X})$ ,在求出左侧的微分 $df$ 后，该如何写成右侧的形式并得到导数呢？

需要一些迹的技巧:

套上迹的标量： $a = t r (a)$
转置： $tr(A^\top)=tr(A)$ ，转置不改变对角线元素位置故迹不变
线性： $t r (A \pm B) = t r (A) \pm t r (B)$ ，矩阵加减求迹相当于对角线元素相加减
矩阵乘法交换： $t r (A B) = t r (B A)$ ，其中 $A和B^\top$ 尺寸相同。
矩阵乘法/逐元素乘法交换： $tr(A^\top(B\odot C))=tr((A\odot B)^\top C)$ ，其中 $A 、 B 、 C$ 尺寸相同，两侧都等于 $\sum_{ij}A_{ij}B_{ij}C_{ij}$

观察一下可以断言，若标量函数 $f$ 是矩阵X经加减乘法、逆、行列式、逐元素函数等运算构成，则使用相应的运算法则对f求微分，再使用迹技巧给 $df$ 套上迹并将其它项交换至 $d X$ 左侧，对照导数与微分的联系 $df=tr((\frac{\partial f}{\partial \mathbf{X}}) ^\top d\mathbf{X})$ ，即能得到导数。

特别地，若矩阵退化为向量，对照导数与微分的联系 $df=\frac{\partial f}{\partial \mathbf{x}}^\top d \mathbf{x}$ ，即能得到导数。

再看复合，假设已经求得 $\frac{\partial f}{\partial Y}$ ，而 $Y$ 是 $X$ 的函数，如何求 $\frac{\partial f}{\partial X}$ 呢？

从微分入手建立复合法则：先写出 $df=tr(\frac{\partial f}{\partial Y}^\top dY)$ ，再将 $d Y$ 用 $d X$ 表示出来代入，并用迹技巧将其他项交换至 $d X$ 左侧，即可得到 $\frac{\partial f}{\partial X}$

看一个例子： $Y = A XB$ ，此时
$df=tr(\frac{\partial f}{\partial Y}^\top dY)=tr(\frac{\partial f}{\partial Y}^\top AdXB)\\=tr(B\frac{\partial f}{\partial Y}^\top AdX)=tr((A^\top \frac{\partial f}{\partial Y}B^\top)^\top dX)$
可以得到， $\frac{\partial f}{\partial X}=A^ \top \frac{\partial f}{\partial Y}B^ \top$

注意:
$dY=(dA)XB+AdXB+AXdB=AdXB,\\由于A，B是常量，dA=dB=0$

孤嶋

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
矩阵求导总结

其中tr代表迹(trace)是方阵对角线元素之和，满足性质：对尺寸相同的矩阵A,B，，第一个等号是全微分公式，第二个等号表达了梯度与微分的联系。转置：$d(X^\top )=(dX)^ \top $表示尺寸相同的矩阵 X、Y逐个元素相乘。后，该如何写成右侧的形式并得到导数呢？表示出来代入，并用迹技巧将其他项交换至。试图利用矩阵导数与微分的联系。从微分入手建立复合法则：先写出。再看复合，假设已经求得。观察一下可以断言，是逐元素标量函数运算，一、标量对矩阵求导术。逐个元素求导排列成和。
复制链接

扫一扫