深度学习中的Matrix Calculus (1)： Jacobian And Chain Rule_jacobian matrix 'c' calculation 、-CSDN博客

本文链接：https://blog.csdn.net/asasasaababab/article/details/80816869

在深度学习里边，一个最重要的过程是Back Propagation，也就是计算梯度用于做梯度下降优化。然而在BP中，充斥着大量的矩阵微分运算以及各种转化技巧，导致没有学过矩阵论或者矩阵分析的童鞋感到压力山大，所以《深度学习反向求导》这个系列文章主要用最简洁的内容把Matrix Calculus这块的所需内容阐述一遍。

背景：以DNN为例

DNN，也就是隐含层基本上都是全连接这种神经网络，是一类比较容易分析的神经网络。就以这个为例，阐明我们的目标和任务。

DNN的各层前向计算如下：

{Z L = W L A L - 1 + b L, A L = σ (Z L) L = 1, \dots, N .

$\left\{ \begin{array}{lr} Z^L = W^L A^{L-1} +b^L, & \\ A^L = \sigma(Z^L) & L=1,\dots,N.\\ \end{array} \right.$

其中， $Z^L$ 是第 $L$ 层的全连接层（FC）的输出，是一个 $n^L\times1$ 的向量， $A^L$ 是第 $L$ 层的激活层的输出， $A^0=X$ 也就是输入， $W^L$ 是第 $L$ 层的权重（weights），是一个 $n^L\times n^{L-1}$ 的矩阵。整个网络的损失函数（loss function）是：

J = J (Z N)

$J=J(Z^N)$

而BP则是需要计算：

⎧ ⎩ ⎨ ⎪ ⎪ \partial J \partial W L = \partial J \partial Z N \cdot \partial Z N \partial Z N - 1 \cdot \dots \cdot \partial Z L + 1 \partial Z L \cdot \partial Z L \partial W L, \partial J \partial b L = \partial J \partial Z N \cdot \partial Z N \partial Z N - 1 \cdot \dots \cdot \partial Z L + 1 \partial Z L \cdot \partial Z L \partial b L \forall L = 1, 2, \dots, N

$\left\{ \begin{array}{lr} \frac{\partial J}{\partial W^L} = \frac{\partial J}{\partial Z^N}\cdot\frac{\partial Z^N}{\partial Z^{N-1}}\cdot\ \cdots\ \cdot\frac{\partial Z^{L+1}}{\partial Z^{L}}\cdot\frac{\partial Z^L}{\partial W^L}, & \\ \frac{\partial J}{\partial b^L} = \frac{\partial J}{\partial Z^N}\cdot\frac{\partial Z^N}{\partial Z^{N-1}}\cdot\ \cdots\ \cdot\frac{\partial Z^{L+1}}{\partial Z^{L}}\cdot\frac{\partial Z^L}{\partial b^L} & \forall\ L = 1,2,\dots,N\\ \end{array} \right.$

然后：

\partial Z L \partial Z L - 1 = \partial Z L \partial A L - 1 \cdot \partial A L - 1 \partial Z L - 1

$\frac{\partial Z^L}{\partial Z^{L-1}}=\frac{\partial Z^L}{\partial A^{L-1}}\cdot \frac{\partial A^{L-1}}{\partial Z^{L-1}}$

可见这里边有很多应用链式法则和矩阵求导。所以需要把这块仔细研究好。

所以本篇加上后续的文章一共三篇，内容分别是基本的Jacobian（向量对向量求导，面向 $\frac{\partial Z^L}{\partial Z^{L-1}}$ ）这个基本上多元微积分中都学过了，属于回顾；复杂一些的向量和矩阵的函数的求导，主要是迹（trace）的应用(面向 $\frac{\partial J}{\partial Z^N}$ )；对矩阵求导，主要是Kronecker积的应用，面向 $\frac{\partial Z^L}{\partial W^L}$ 。

Vector Calculus

这个部分其实就是多元微积分的内容，也即 $f=f(x,y)$ ，那么 $f$ 的梯度：

▽ f = [\begin{matrix} \frac{\partial f}{\partial x} & \frac{\partial f}{\partial y} \end{matrix}]

$\triangledown f=\begin{bmatrix}\frac{\partial f}{\partial x} & \frac{\partial f}{\partial y}\end{bmatrix}$

例如 $f=f(x,y) = 3x^2y$ 那么 $\triangledown f=\begin{bmatrix}6xy & 3x^2\end{bmatrix}$ .

Matrix Calculus

假如我们除了有 $f$ 这个函数，还有 $g$ 这个函数，那么我们如果把 $f$ 和 $g$ 的梯度按行堆起来，就得到了Jacobian矩阵（雅克比矩阵）：

[▿ f ▿ g] = ⎡ ⎣ ⎢ ⎢ \partial f \partial x \partial g \partial x \partial f \partial y \partial f \partial y ⎤ ⎦ ⎥ ⎥

$\begin{bmatrix} \triangledown f \\ \triangledown g \end{bmatrix} = \begin{bmatrix} \frac{\partial f}{\partial x} & \frac{\partial f}{\partial y} \\ \frac{\partial g}{\partial x} & \frac{\partial f}{\partial y} \end{bmatrix}$

一般的，如果 $\mathbf{x}$ 是一个 $n\times1$ 的向量：

x = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ x 1 x 2 ⋮ x n ⎤ ⎦ ⎥ ⎥ ⎥ ⎥

$\mathbf{x}=\begin{bmatrix}x_1 \\ x_2 \\ \vdots \\ x_n\end{bmatrix}$

y y $\mathbf{y}$ 是一个

m×1 m × 1 $m\times1$ 的向量，每一个元素

yi y i $y_i$ 是

x x $\mathbf{x}$ 的函数：

y = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ y 1 y 2 ⋮ y n ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ f 1 (x) f 2 (x) ⋮ f n (x) ⎤ ⎦ ⎥ ⎥ ⎥ ⎥

$\mathbf{y}=\begin{bmatrix}y_1 \\ y_2 \\ \vdots \\ y_n\end{bmatrix} = \begin{bmatrix}f_1(\mathbf{x}) \\ f_2(\mathbf{x}) \\ \vdots \\ f_n(\mathbf{x})\end{bmatrix}$
那么对应的Jacobian矩阵是：

\partial y \partial x = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ \partial f 1 \partial x 1 \partial f 2 \partial x 1 ⋮ \partial f m \partial x 1 \partial f 1 \partial x 2 \partial f 2 \partial x 2 ⋮ \partial f m \partial x 2 \dots \dots ⋱ \dots \partial f 1 \partial x n \partial f 2 \partial x n ⋮ \partial f m \partial x n ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥

$\frac{\partial \mathbf{y}}{\partial \mathbf{x}}= \begin{bmatrix} \frac{\partial f_1}{\partial x_1} & \frac{\partial f_1}{\partial x_2} & \dots & \frac{\partial f_1}{\partial x_n} \\ \frac{\partial f_2}{\partial x_1} & \frac{\partial f_2}{\partial x_2} & \dots & \frac{\partial f_2}{\partial x_n} \\ \vdots & \vdots & \ddots & \vdots \\ \frac{\partial f_m}{\partial x_1} & \frac{\partial f_m}{\partial x_2} & \dots & \frac{\partial f_m}{\partial x_n} \\ \end{bmatrix}$

Derivative of Element-Wise Operators

这个element-wise，也就是针对向量中每一个元素进行运算，例如两个向量求和、求差，逐元素求乘法，逐元素算一个函数等等，这个很简单，直接对着雅克比矩阵的定义就可以计算出来。（下面的例子懒得打公式，就直接贴图了）

又比如 $\mathbf{y}=\mathbf{Ax}$ ，那么 $\frac{\partial \mathbf{y}}{\partial \mathbf{x}}=\mathbf{A}$ ，那么对于 $y=\sum_i{x_i}$ ，可以写作 $y=\mathbf{1}^T\mathbf{x}$ ，所以梯度也就是 $\frac{\partial y}{\partial \mathbf{x}}=\mathbf{1}^T$

再比如DNN中的 $A^L = \sigma(Z^L)$ ，雅克比矩阵就是

\partial A L \partial Z L = d i a g (σ' (Z L))

$\frac{\partial \mathbf{A^L}}{\partial \mathbf{Z^L}}=diag(\sigma'(\mathbf{Z}^L))$
这是因为逐元素求函数，

aLi=σ(zLi) a i L = σ ( z i L ) $a^L_i=\sigma(z^L_i)$ ，只和自己对应的那个元素求，所以雅克比矩阵是一个对角阵。

链式法则 Chain Rule

链式法则本身其实很简单，如果 $\mathbf{f}: R^m\rightarrow R^n$ , $\mathbf{g}: R^n\rightarrow R^k$ ，那么：

\partial g ( f ( x ) ) \partial x = \partial g \partial f \cdot \partial f \partial x

$\frac{\partial \mathbf{g(f(x))}}{\partial \mathbf{x}} = \frac{\partial \mathbf{g}}{\partial \mathbf{f}} \cdot \frac{\partial \mathbf{f}}{\partial \mathbf{x}}$

这个证明用total derivative就可以证了，很简单的（Hint：
$f(x+\Delta x, y+ \Delta y)-f(x,y)=f(x+\Delta x, y+ \Delta y) - f(x, y+ \Delta y) + f(x, y+ \Delta y) - f(x+\Delta x, y+ \Delta y)$ ）。

所以有如下的表达式：

\partial Z L \partial Z L - 1 = \partial Z L \partial A L - 1 \cdot \partial A L - 1 \partial Z L - 1

$\frac{\partial Z^L}{\partial Z^{L-1}}=\frac{\partial Z^L}{\partial A^{L-1}}\cdot \frac{\partial A^{L-1}}{\partial Z^{L-1}}$

上边已经计算了：

\partial Z L \partial A L - 1 = W L

$\frac{\partial Z^L}{\partial A^{L-1}}=W^L$

\partial A L \partial Z L = d i a g (σ' (Z L))

$\frac{\partial \mathbf{A^L}}{\partial \mathbf{Z^L}}=diag(\sigma'(\mathbf{Z}^L))$

所以：

\partial Z L \partial Z L - 1 = \partial Z L \partial A L - 1 \cdot \partial A L - 1 \partial Z L - 1 = W L \cdot d i a g (σ' (Z L))

$\frac{\partial Z^L}{\partial Z^{L-1}}=\frac{\partial Z^L}{\partial A^{L-1}}\cdot \frac{\partial A^{L-1}}{\partial Z^{L-1}} = W^L \cdot diag(\sigma'(\mathbf{Z}^L))$

这样就得到了一个BP中一个重要的结果。