矩阵运算及求导

最新推荐文章于 2023-05-01 20:19:33 发布

Rauchy

最新推荐文章于 2023-05-01 20:19:33 发布

阅读量7.1k

点赞数 7

分类专栏：概率统计与线代文章标签：矩阵微分运算

本文链接：https://blog.csdn.net/wc13197389627/article/details/103095508

版权

概率统计与线代专栏收录该内容

7 篇文章 2 订阅

订阅专栏

基本运算

矩阵的常见运算如下：

符号	描述
$A^{-1}$	矩阵的逆
$\det(A)$	A的行列式
$T r (A)$	矩阵的迹
$e i g (A)$	矩阵的特征值
$A^T$	A的转置
$\\|A\\|$	A的范数
$A\circ B$	哈达玛积
$A\otimes B$	克罗内克积
$A^H$	A的共轭转置
$A^*$	A的伴随矩阵

运算规则

$AB)^*=B^*A^*$
*表示求逆，转置，共轭转置等运算
$A+B)^*=(A^*+B^*)$
*表示转置和共轭转置，对于只改变元素排列方式的运算，该运算性质都是成立的

以上两个规则也适用于多个矩阵运算的情况
$(A^{-1})^T=(A^T)^{-1}\quad (A^H)^{-1}=(A^{-1})^H$
$Tr(A)=\sum_{i=1}^{n}A_{ii}$
$Tr(A)=\sum_{i=1}^{n}\lambda_i$
$\lambda$ 为矩阵A的特征值
$Tr(A)=Tr(A^T)$
$Tr(AB)=Tr(BA)\quad Tr(A+B)=Tr(A)+Tr(B)$
这也适用于两个矩阵以上的情况
$a^Ta=Tr(aa^T)$
a为列向量，这个很好理解，直接拿个例子计算一下就好了。 $a^Ta$ 的结果是数值，也可以看作一个1*1的矩阵，这样可以利用上一条规则直接得到。

求导运算

矩阵的求导法则 这个部分参考了很多资料，但是有些地方不太一样，所以我按照我认为最正确的教程来。
首先，矩阵的微分主要有6种形式，用表格表示如下：
matrix derivative
下面分别对这6种情况进行说明：
这里的向量指的是列向量，我们用小写字母表示数值变量，黑体小写字母表示向量，黑体大写字母表示矩阵。

Scalar-Scalar
数值变量对数值变量求导是最简单的情况，也是数学里头经常遇到的，得到的结果是函数的导数。
Vector-Scalar
向量对数值变量求导，得到的是一个列向量。
$[\frac{\partial \textbf {y} } {\partial x}]=[\frac{\partial y_i}{\partial x}]^T$
Matrix-Scalar
矩阵对数值变量求导，得到的是一个矩阵，该矩阵与原矩阵的形状相同。
$[\frac{\partial \textbf {Y} } {\partial x}]=[\frac{\partial y_{ij}}{\partial x}]$
Scalar-Vector
数值变量对向量求导，得到的是一个行向量。
$[\frac{\partial y} {\partial \textbf {x}}]=[\frac{\partial y_i}{\partial x_j}]$
Vector-Vector
向量对向量求导，得到的是一个矩阵。
$[\frac{\partial \textbf {y}} {\partial \textbf {x}}]_{ij}=[\frac{\partial y_i}{\partial x_j}]$
这个和多元积分换元公式里头的雅可比矩阵是一样的形式。
Scalar-Matrix
$[\frac{\partial y} {\partial \textbf {X}}]_{ij}=[\frac{\partial y}{\partial x_{ji}}]$

需要说明的是，矩阵微分的形式有两种，这两种写法求得的结果互为转置，在求解矩阵相关的问题的时候可以采用任意一种，但是不可混用。

常用的求导法则

这里的很多规则和数值函数里面的求导法则是类似的。

$\textbf{A}=\textbf{0}$ 这里的A为常数矩阵
$d(\alpha \textbf{X})=\alpha \textbf{X}$
$d(\textbf{X}+\textbf{Y})=d\textbf{X}+d\textbf{Y}$
$d(\textbf{XY})=(d\textbf{X})\textbf{Y}+\textbf{X} (d\textbf{Y})$
$d(tr(\textbf{X}))=tr(d(\textbf{X}))$
$d(\textbf{X}\otimes \textbf{Y})=(d\textbf{X})\otimes\textbf{Y}+\textbf{X}\otimes (d\textbf{Y})$
$d(\textbf{X}\circ \textbf{Y})=(d\textbf{X})\circ\textbf{Y}+\textbf{X}\circ (d\textbf{Y})$
$d(\textbf{X}^{-1})=-\textbf{X}^{-1}(d\textbf{X})\textbf{X}^{-1}$
推导过程如下：
$d(\textbf{XX}^{-1})=d\textbf{I}=\textbf{0}$
同时
$d(\textbf{XX}^{-1})=d(\textbf{X})\textbf{X}^{-1}+\textbf{X}(d\textbf{X}^{-1})=0$
$d\textbf{X}^*=(d\textbf{X})^*$
*表示对矩阵元素进行变换的操作，例如转置等。
$d(det(\textbf{X}))=det(\textbf{X})tr(\textbf{X}^{-1}d\textbf{X})$
推导的过程可以看看这个
$d(\log(det(\textbf{X}))=tr(\textbf{X}^{-1}d\textbf{X})$
这个利用链式法则就可以证明

常用的求导运算

$\frac{d\textbf{a}^T\textbf{x}}{d\textbf{x}}=\frac{d\textbf{x}^T\textbf{a}}{d\textbf{x}}=\textbf{a}^T$
这个直接根据定义来就行了，将 $\textbf{a}^T\textbf{x}$ 写成数值表达式的形式然后根据数值量对向量求导的公式进行展开即可。
$\frac{d\textbf{x}^T\textbf{x}}{d\textbf{x}}=2\textbf{x}^T$
这个也是直接展开就行了。
$\frac{d(\textbf{x}^T\textbf{a})^2}{d\textbf{x}}=2\textbf{x}^T\textbf{aa}^T$
利用链式法则即可。
$\frac{d(\textbf{A}\textbf{x})}{d\textbf{x}}=A$
直接利用微分的定义进行推导
$\frac{d\textbf{x}^T\textbf{A}}{d\textbf{x}}=A^T$
这个我不太会推导，不过可以根据矩阵的形状来确定
$\frac{d\textbf{x}^T\textbf{A}\textbf{x}}{d\textbf{x}}=\textbf{x}^T(\textbf{A}+\textbf{A}^T)$
这个利用之前提到的微分的乘法运算即可

矩阵的迹的求导法则

公式在推导的时候可以直接展开，然后根据元素的下标进行推导，如果记忆的话根据矩阵的形状即可。

$\frac{d\textbf{tr}(\textbf{AXB})}{d\textbf{X}}=\textbf{BA}$
$\frac{d\textbf{tr}(\textbf{A}\textbf{X}^{-1}\textbf{B})}{d\textbf{X}}=-\textbf{X}^{-1}\textbf{BAX}^{-1}$
由微分规则， $d\textbf{tr}(\textbf{A}\textbf{X}^{-1}\textbf{B})=d\textbf{tr}(\textbf{BAX}^{-1})=\textbf{tr}(d(\textbf{BAX}^{-1}))=\textbf{tr}(\textbf{BA}d(\textbf{X}^{-1}))=-\textbf{tr}(\textbf{BA}\textbf{X}^{-1}(d\textbf{X})\textbf{X}^{-1})=-\textbf{tr}(\textbf{X}^{-1}\textbf{BAX}^{-1}d\textbf{X})$
$\frac{d \textbf{det}(\textbf{X})}{d\textbf{X}}=\textbf{det}(\textbf{X})\textbf{X}^{-1}$

总结

先只写这么多，矩阵的内容实在太多，以后慢慢整理。我查阅了很多资料，其中的写法不尽相同，矩阵微分计算的结果在形式上也可能不同，其主要表现在矩阵的形状上，在计算和矩阵相关的问题时要选定一种写法，这并不会影响我们的计算结果，如果有任何问题，欢迎指出。

参考资料

Jacobi’s formula
matrix cookbook(直接Google)

Rauchy

关注

7
点赞
踩
52

收藏

觉得还不错? 一键收藏
3
评论
矩阵运算及求导

基本运算矩阵的常见运算如下：符号描述A−1A^{-1}A−1矩阵的逆det⁡(A)\det(A)det(A)A的行列式Tr(A)Tr(A)Tr(A)矩阵的迹eig(A)eig(A)eig(A)矩阵的特征值ATA^TATA的转置∥A∥\|A\|∥A∥A的范数A∘BA\circ BA∘B哈达玛积A⊗BA\otimes ...
复制链接

扫一扫

专栏目录