【必读】3分钟带你了解标量对矩阵求导方法

最新推荐文章于 2022-07-20 02:48:00 发布

一朝英雄拔剑起

最新推荐文章于 2022-07-20 02:48:00 发布

阅读量1.1k

点赞数 2

分类专栏：算法神经网络文章标签：机器学习矩阵求导自动求导标量对矩阵求导

本文链接：https://blog.csdn.net/qq_39545674/article/details/109558158

版权

算法同时被 2 个专栏收录

28 篇文章 2 订阅

订阅专栏

神经网络

4 篇文章 8 订阅

订阅专栏

这是个人学习笔记，不是原创。来源请查看 “参考文档”

文章目录

标量对矩阵的求导

标量对矩阵的求导

基础推导

定义

标量f对矩阵X的导数，定义为 $\frac{\partial f}{\partial X} =[\frac{\partial f}{\partial X_{ij}}]$ ，即f对X逐元素求导排成与X尺寸相同的矩阵。

将矩阵导数与微分建立联系：
$\sum_{i=1}^{m}\sum_{j=1}^n{\frac{\partial f}{\partial X_{ij}}}dX_{ij}=tr(\frac{{\partial f}}{\partial X}^TdX)$

上面第二个等式，用到了矩阵的迹的性质。因为两个向量相乘，A中第i个元素乘以B中第i个元素的积，全部在形成的矩阵对角线上,即
$tr(A^TB)=\sum_{i,j}{A_{ij}B_{ij}}$

这里第一个等号是全微分公式，第二个等号表达了矩阵导数与微分的联系：全微分 $d f$ 是导数$\frac{\partial f}{\partial X} $(m x n) 与微分矩阵$ dX$(mxn)的內积。（这里的m，n是矩阵的大小）

求导公式

运用这些法则，可以建立常用的矩阵微分的运算法则：

加减法

$d(X\pm Y)=dX\pm dY$

矩阵乘法

$d (X Y) = d (X) Y + X d Y$

转置

$d(X^T)=(dX)^T$

$d t r (X) = t r (d X)$

$dX^{-1}=-X^{-1}dXX^{-1}$

行列式

$d|X|=tr(X^{\#}dX)$

其中 $X^\#$ 表示X矩阵的伴随矩阵，在X可逆的时候，可以写作：
$d|X|=|X|tr(X^{-1}dX)$

逐元素乘法

$d(X\odot Y)=dX\odot Y+X\odot dY$

其中， $\odot$ 表示尺寸相同的矩阵X，Y逐元素相乘。

逐元素函数

$d\sigma(X)=\sigma'(X)\odot dX,\sigma(X)=[\sigma(X_{ij})]$

这是逐元素标量函数运算， $\sigma(X)=[\sigma(X_{ij})]$ 是逐元素求导数。
$X=\begin{bmatrix} x_{11} & x_{12} \\ x_{21} & x_{22} \end{bmatrix} , dsin(X)=\begin{bmatrix} cosx_{11}dx_{11} & cosx_{12}dx_{12} \\ cosx_{21}dx_{21} & cosx_{22}dx_{22} \end{bmatrix} =cos(X)\odot dX$
矩阵迹的运算

利用矩阵导数与微分的联系 $df=tr(\frac{{\partial f}}{\partial X}^TdX)$ 求出左侧的微分 $d f$ 后，该如何写成右侧的形式并得到导数？这需要一些迹技巧：

标量套上迹： $a = t r (a)$
转置： $tr(A^T)=tr(A)$
线性： $tr(A\pm B)=tr(A)\pm tr(B)$
矩阵乘法交换： $t r (A B) = t r (B A)$ ，其中 $A$ 与 $B^T$ 的尺寸相同。两侧都等于 $\sum_{i,j}A_{ij}B_{ji}$
矩阵乘法/逐元素乘法交换： $tr(A^T(B\odot C))=tr((A\odot B)^TC)$ ，其中A，B，C尺寸相同，两侧都等于 $\sum_{i,j}{A_{ij}B_{ij}}C_{ij}$

结论

若标量函数f是矩阵X经加减乘法、逆、行列式、逐元素函数等运算构成，则使用相应的运算法则对f求微分，再使用迹技巧给df套上迹并将其它项交换至dX左侧，对照导数与微分的联系 $df=tr(\frac{{\partial f}}{\partial X}^TdX)$ ，即能得到导数。

复合函数

假设已求得 $\frac{{\partial f}}{\partial Y}$ ，而Y是X的函数，如何求$\frac{\partial f}{\partial X} $？

$df=tr(\frac{{\partial f}}{\partial Y}^TdY)$
再将dY用dX表示出来代入，并使用迹技巧将其他项交换至dX左侧，即可得到 $\frac{\partial f}{\partial X}$ 。

例子

$Y = A X B$
$tr(\frac{{\partial f}}{\partial Y}^TdY)=tr(\frac{{\partial f}}{\partial Y}^TAdXB)=tr(B\frac{{\partial f}}{\partial Y}^TAdX)=tr((A^T\frac{{\partial f}}{\partial Y}B^T)^TdX)$
上面的式子与 $df=tr(\frac{{\partial f}}{\partial X}^TdX)$ 对比，即可得到 $\frac{\partial f}{\partial X}=A^T \frac{\partial f}{\partial Y }B^T$ 。

注意， $d Y = (d A) X B + A d X B + A X d B = A d X B$ ，由于A,B是常量，所以 $d A = 0, d B = 0$ ，以及我们使用矩阵乘法交换的迹技巧交换了 $\frac{{\partial f}}{\partial Y}^TAdX$ 与 $B$ 。

例题

$f=a^TXb$ ，求$\frac{\partial f}{\partial X} $。其中$ a $是$ m\times 1 $列向量，$ X $是$ m \times n $矩阵，$ b $是$ n \times 1 $列向量，$ f$是标量。

解：
$df = da^T Xb+a^TdXb+a^TXdb=0+a^TdXb+0=a^TdXb \\ tr(df)=tr(a^TdXb)$
由于 $d f$ 是标量， $t r (d f) = d f$ ，所以
$df =tr(a^TdXb)=tr(ba^TdX)=tr((ab^T)^TdX)$
与 $df=tr(\frac{\partial f}{\partial X}^TdX)$ 对比，可得
$\frac{\partial f}{\partial X}=ab^T$