强化学习基础-标量对矩阵的求导术

赛亚茂

于 2022-06-29 18:35:33 发布

阅读量476

点赞数 1

分类专栏：集群机器人文章标签：矩阵线性代数

本文链接：https://blog.csdn.net/shengzimao/article/details/125527405

版权

矩阵求导微分运算链式法则机器学习梯度下降

关键词由CSDN通过智能技术生成

集群机器人专栏收录该内容

33 篇文章 33 订阅

订阅专栏

以下来自于知乎文章《机器学习中的数学理论1：三步搞定矩阵求导》

在机器学习，控制论中总会遇到这样或那样需要借助矩阵或者向量求导才能解决的问题(例:Gradient Descent)。这类问题对于在机器学习中分析，推导，应用其原理性理论有很重要的作用。

$x :$ 标量； $\mathbf x:$ 向量； $X$ :矩阵

1.预备背景

1.1 常用矩阵微分运算法则

$d(X\pm Y)=d(X)\pm d(Y)$
$d (X Y) = X d Y + (d X) Y$
$d(X^T)=(dX)^T$
$d t r (X) = t r d (X)$
$d(X\odot Y)=dX\odot Y+X \odot dY$
$dX^{-1}=-X^{-1}dXX^{-1}$
$d|X|=|X|tr(X^{-1}dX)$
$d\sigma(X)=\sigma^{`}(X)\odot dX$

1.2 常用矩阵迹运算法则

$a = t r (a)$ ,当a是标量
$tr(A^T)=tr(A)$
$tr(A\pm B)=tr(A)\pm tr(B)$
$tr(AB)=tr(BA)=\sum_{i,j}A_{ij}B_{ij}$ ,当 $A$ 与 $B^T$ 尺寸相同时
$tr(A^T(B\odot C))=tr((A\odot B)^TC)=\sum_{i,j}A_{ij}B_{ij}C_{ij}$

1.3 常用矩阵直积运算法则

$A\bigotimes B \neq B\bigotimes A$
$(A_1+A_2)\bigotimes B=A_1\bigotimes B+A_2\bigotimes B$
$(A\bigotimes B)\bigotimes C=A\bigotimes (B\bigotimes C)$
若 $A_1,A_2$ 可以做乘法运算， $B_1,B_2$ 可以做乘法运算:
$(A_1\bigotimes A_2)(B_1\bigotimes B_2)=(A_1A_2)\bigotimes(B_1B_2)$
若 $A, B$ 可以求逆:
$\bigotimes B)^{-1}=A^{-1}\bigotimes B^{-1}$
若不能求逆运算则:
$(A\bigotimes B)^{+}=A^{+}\bigotimes B^{+}$
$(A\bigotimes B)^H=A^H\bigotimes B^H$
$det(A\bigotimes B)=(detA)^n(detB)^m(A\in C^{m\times m},B\in C^{n\times n})$
$tr(A\bigotimes B)=(trA)\bigotimes (trB)$
$rank(A\bigotimes B)=rankA\bigotimes rankB$
$e^{I \bigotimes A} = I\bigotimes e^A,e^{A\bigotimes I} = A\bigotimes I$
$e^{(A\bigotimes I_n+I_m \bigotimes B)}=e^A\bigotimes e^B$

2.标量对矩阵的求导术

2.1 算法流程

$\mathbf {Input}:X,f$

$\mathbf{Output}:\frac{\partial f}{\partial X}$

$\mathbf{Algorithm}$ :

根据 $f$ 寻找 $d f$ .
$d f$ 左右两边套 $t r$ : $t r (d f) = d f$
根据 $df=tr(\frac{\partial f^T}{\partial X}dX)$ 凑出 $\frac{\partial f}{\partial X}$

2.2 习题

在这里插入图片描述

2.解: 首先对 $f$ 左右两边求微分，令 $u = X b$ :
$1.df=a^Td(\exp(u))=a^T\exp(u)du=a^T\exp(Xb)\odot(dXb)\\$

$2.df=tr(df)=tr(a^T(\exp(Xb)\odot(dXb)))\\ =tr((a\odot\exp(Xb))^T dXb)\\ =tr(b(a\odot\exp(Xb))^T dX)\\ =tr((a\odot\exp(Xb)b^T)^T dX)\\$

$3.由df=tr(\frac{\partial f^T}{\partial X}dX)\\\ \frac{\partial f}{\partial X}=a\odot\exp(Xb)b^T$

在这里插入图片描述

解:对上述 $l$ 可知: $l=(Xw-y)^T(Xw-y)$ :
$1.dl=(Xdw)^T(Xw-y)+(Xw-y)^T(Xdw)\\ 2.dl = tr(dl)=tr(2(Xw-y)^TXdw)\\ 3.由dl=tr(\frac{\partial f^T}{\partial w}dw)\rightarrow \frac{\partial f}{\partial w}=2X^T(Xw-y)$

在这里插入图片描述

2.3 标量对矩阵求导的链式法则

2.3.1 向量对向量求导链式法则

假设向量(列向量)之间存在依赖关系，比如: $\mathbf x\rightarrow \mathbf y \rightarrow \mathbf z$ ，则有:
$\frac{\partial \mathbf z}{\partial \mathbf x}=\frac{\partial \mathbf z}{\partial \mathbf y}\frac{\partial \mathbf y}{\partial \mathbf x}$

2.3.2 标量对多个向量的链式求导法则

假设向量(列向量)之间存在依赖关系，比如: $\mathbf x\rightarrow \mathbf y \rightarrow \mathbf z$ ，要求导的是标量 $z$ 。那么就有: $\frac{\partial z}{\partial \mathbf y}:n\times 1,\frac{\partial z}{\partial \mathbf x}:m\times 1,\frac{\partial \mathbf y}{\partial \mathbf x}:n\times m$ ,则: $\frac{\partial \mathbf z}{\partial \mathbf x}=(\frac{\partial \mathbf y}{\partial \mathbf x})^T\frac{\partial \mathbf z}{\partial \mathbf y}$ 。当形式更为复杂有:
$\mathbf y_1 \rightarrow \mathbf y_1\rightarrow ...\mathbf y_n\rightarrow z$
那链式法则为:
$\frac{\partial z}{\partial \mathbf y_1}=(\frac{\partial \mathbf y_{n}}{\partial \mathbf y_{n-1}}\frac{\partial \mathbf y_{n-1}}{\partial \mathbf y_{n-2}}...\frac{\partial \mathbf y_2}{\partial \mathbf y_1})^T\frac{\partial z}{\partial \mathbf y_n}$
在这里插入图片描述