深度学习中矩阵求导公式整理

最新推荐文章于 2023-05-10 20:59:40 发布

Kobaayyy

最新推荐文章于 2023-05-10 20:59:40 发布

阅读量1.4k

点赞数 1

分类专栏：深度学习文章标签：线性代数机器学习深度学习

本文链接：https://blog.csdn.net/Kobaayyy/article/details/104317646

版权

深度学习专栏收录该内容

19 篇文章 2 订阅

订阅专栏

深度学习中矩阵求导公式整理

1.两种布局约定方式
2.矩阵求导的类型
3.标量对标量求导
4.向量对标量求导
5.矩阵对标量求导
6.标量对向量求导
7.向量对向量求导
8.标量对矩阵求导
参考文献:

1.两种布局约定方式

布局（Layout）：在矩阵求导中有两种布局，分别为分母布局(denominator layout)和分子布局(numerator layout)。这两种不同布局的求导规则是不一样的。

向量 $\mathbf{y}=\left[\begin{matrix} y_1\\ y_2\\ \vdots \\y_n\end{matrix} \right]$ ,关于标量 $x$ 的求导，
在分子布局下，为：
$\frac{\partial \mathbf{y}}{\partial x}=\left[\begin{matrix} \frac{\partial y_1}{\partial x}\\\frac{\partial y_2}{\partial x}\\ \vdots \\\frac{\partial y_n}{\partial x}\end{matrix} \right]$
而在分母布局下，为：
$\frac{\partial \mathbf{y}}{\partial x}=\left[\begin{matrix}\frac{\partial y_1}{\partial x}&\frac{\partial y_2}{\partial x} & \cdots &\frac{\partial y_n}{\partial x}\end{matrix} \right]$
通过观察和推导我们可以知道，分子布局和分母布局之间刚好差一个转置，即在分子布局下与原来 $\mathbf{y}$ 相同，而在分母布局下差一个转置。

2.矩阵求导的类型

类型	标量	向量	矩阵
标量	$\frac{\partial y}{\partial x}$	$\frac{\partial \mathbf{y}}{\partial x}$	$\frac{\partial \mathbf{Y}}{\partial x}$
向量	$\frac{\partial y}{\partial \mathbf{x}}$	$\frac{\partial \mathbf{y}}{\partial \mathbf{x}}$
矩阵	$\frac{\partial y}{\partial \mathbf{X}}$

3.标量对标量求导

这种情况就是平常的代数求导，直接为 $\frac{\partial y}{\partial x}$

4.向量对标量求导

向量 $\mathbf{y}=\left[\begin{matrix} y_1\\ y_2\\ \vdots \\y_n\end{matrix} \right]$ ,关于标量 $x$ 的求导（以分子布局约定）就是 $\mathbf{y}$ 的每一个元素分别对 $x$ 求导，可以表示为：
$\frac{\partial \mathbf{y}}{\partial x}=\left[\begin{matrix} \frac{\partial y_1}{\partial x}\\\frac{\partial y_2}{\partial x}\\ \vdots \\\frac{\partial y_n}{\partial x} \end{matrix} \right]$
此时为正切向量， $\frac{\partial \mathbf{y}}{\partial x}$ 为 $\mathbf{y}$ 的正切向量，有映射 $\mathbf{y}$ ： $\R^n\implies\R^n$ ??

5.矩阵对标量求导

矩阵对标量的求导类似于向量关于标量的求导，也就是矩阵的每个元素分别对标量 $x$ 求导，矩阵 $\mathbf{Y} =\left[\begin{matrix} y_{11}&y_{12}& \cdots&y_{1n} \\ y_{21}&y_{22}& \cdots&y_{2n} \\ \vdots&\vdots&\ddots&\vdots\\ y_{n1}&y_{n2}& \cdots&y_{nn} \end{matrix} \right]$ 对标量 $x$ 的导数(以分子布局约定)为:
$\frac{\partial \mathbf{Y} }{\partial x}=\left[\begin{matrix} \frac{\partial y_{11}}{\partial x}&\frac{\partial y_{12}}{\partial x}&\cdots&\frac{\partial y_{1n}}{\partial x}\\ \frac{\partial y_{21}}{\partial x}&\frac{\partial y_{22}}{\partial x}&\cdots&\frac{\partial y_{2n}}{\partial x} \\ \vdots&\vdots&\ddots&\vdots\\ \frac{\partial y_{n1}}{\partial x}&\frac{\partial y_{n2}}{\partial x}& \cdots&\frac{\partial y_{nn}}{\partial x} \end{matrix} \right]$

6.标量对向量求导

标量 $y$ 关于向量 $\mathbf{x}=\left[\begin{matrix} x_1\\x_2\\\vdots\\x_n \end{matrix} \right]$ 的求导可以表示为：
$\frac{\partial y}{\partial \mathbf{x}}=\left[\begin{matrix} \frac{\partial y}{\partial x_1}&\frac{\partial y}{\partial x_2}&\cdots&\frac{\partial y}{\partial x_n} \end{matrix} \right]$
此时的向量叫做梯度向量。 $\frac{\partial y}{\partial \mathbf{x}}$ 为标量 $y$ 在空间 $R^n$ 的梯度，该空间以 $x$ 为基。

7.向量对向量求导

向量函数（即函数组成的向量） $\mathbf{y}=\left[\begin{matrix} y_1\\y_2\\\vdots\\y_n \end{matrix} \right]$ 关于向量 $\mathbf{x}=\left[\begin{matrix} x_1\\x_2\\\vdots\\x_n \end{matrix} \right]$ 的导数记作：
$\frac{\partial \mathbf{y} }{\partial \mathbf{x}}=\left[\begin{matrix} \frac{\partial y_1}{\partial x_1}&\frac{\partial y_1}{\partial x_2}&\cdots&\frac{\partial y_1}{\partial x_n}\\ \frac{\partial y_2}{\partial x_1}&\frac{\partial y_2}{\partial x_2}&\cdots&\frac{\partial y_2}{\partial x_n}\\ \vdots&\vdots&\ddots&\vdots\\ \frac{\partial y_n}{\partial x_1}&\frac{\partial y_n}{\partial x_2}&\cdots&\frac{\partial y_n}{\partial x_n} \end{matrix} \right]$
此时获得的矩阵 $\frac{\partial \mathbf{y} }{\partial \mathbf{x}}$ 叫做Jacobian矩阵。

8.标量对矩阵求导

自变量为矩阵X 的标量函数 y 关于矩阵X的导数为：(分子布局约定)
$\frac{\partial y }{\partial \mathbf{X}}=\left[\begin{matrix} \frac{\partial y}{\partial x_{11}}&\frac{\partial y}{\partial x_{21}}&\cdots&\frac{\partial y}{\partial x_{p1}}\\ \frac{\partial y}{\partial x_{12}}&\frac{\partial y}{\partial x_{22}}&\cdots&\frac{\partial y}{\partial x_{p2}}\\ \vdots&\vdots&\ddots&\vdots\\ \frac{\partial y}{\partial x_{1q}}&\frac{\partial y}{\partial x_{2q}}&\cdots&\frac{\partial y}{\partial x_{pq}}\\ \end{matrix} \right]$
注意到这里关于X的梯度的索引就是矩阵X索引的转置。（矩阵的标量函数会涉及到矩阵的迹和行列式）。