标量、向量、矩阵微分与自动求导

pi_kaqiu

已于 2022-04-12 09:48:28 修改

阅读量1.1k

点赞数 1

分类专栏：算法文章标签：线性代数深度学习 python

于 2022-04-09 17:06:44 首次发布

本文链接：https://blog.csdn.net/pi_kaqiu/article/details/124063519

版权

算法专栏收录该内容

2 篇文章 0 订阅

订阅专栏

本文探讨了自动求导的概念，包括它与符号和数值求导的区别，以及如何通过计算图来实现。介绍了正向和反向累积两种模式，并详细解析了反向累积的步骤及复杂度。自动求导在深度学习中对于优化模型参数至关重要，而计算图则有助于高效地执行这种优化过程。

摘要由CSDN通过智能技术生成

一图以蔽之(本文内容均为分子布局)：

		标量	向量	矩阵
		x (1,)	x (n, 1)	X (n, k)
标量	y (1,)	$\frac{\partial y}{\partial x}$ (1,)	$\frac{\partial y}{\partial \textbf{x}}$ (1, n)	$\frac{\partial y}{\partial \textbf{X}}$ (k, n)
向量	y (m, 1)	$\frac{\partial \textbf{y}}{\partial {x}}$ (m, 1)	$\frac{\partial \textbf{y}}{\partial \textbf{x}}$ (m, n)	$\frac{\partial \textbf{y}}{\partial \textbf{X}}$ (m, k, n)
矩阵	Y (m, l)	$\frac{\partial \textbf{Y}}{\partial x}$ (m, l)	$\frac{\partial \textbf{Y}}{\partial \textbf{x}}$ (m, l, n)	$\frac{\partial \textbf{Y}}{\partial \textbf{X}}$ (m, l, k, n)

几个重要公式：

$\frac{\partial \left \| \textbf{x} \right \|^{2}}{\partial \textbf{x}}= 2\textbf{x}^{T}$

$\frac{\partial \left \langle \textbf{u},\textbf{v} \right \rangle}{\partial \textbf{x}}=\textbf{u}^{T}\frac{\partial \textbf{v}}{\partial \textbf{x}}+\textbf{v}^{T}\frac{\partial \textbf{u}}{\partial \textbf{x}}$

$\frac{\partial (\textbf{Ax})}{\partial \textbf{x}}=\textbf{A}$

$\frac{\partial (\textbf{x}^{T}\textbf{A})}{\partial \textbf{x}}=\textbf{A}^{T}$

1.自动求导

自动求导计算一个函数在指定值上的导数
它有别于

(1)符号求导（显式计算）

$In[1]:=D\left [ 4x^{3}+x^{2}+3,x \right ]$

$Out[1]=2x+12x^{2}$

(2)数值求导(无需知道f(x)具体内容)

$\frac{\partial f(x)}{\partial x}=\lim_{h\rightarrow 0}\frac{f(x+h)-f(x)}{h}$

通过数值拟合，用一个很小很小的h

2.计算图

将代码分解成操作子
将计算表示成一个无环图

每个圈表示一个输入或计算

显式构造

from mxnet import sym

a = sym.var()
b = sym.var()
c = 2 * a + b
# bind data into a and b later

如Tensorflow/Theano/MXNet

隐式构造

from mxnet import autograde, nd

with autograde.record()
    a = nd.ones((2, 1))
    b = nd.ones((2, 1))
    c = 2 * a + b

如PyTorch/MXNet

3.自动求导的两种模式

链式法则：

$\frac{\partial y}{\partial x}=\frac{\partial y}{\partial u_{n}}\frac{\partial u_{n}}{\partial u_{n-1}}...\frac{\partial u_{2}}{\partial u_{1}}\frac{\partial u_{1}}{\partial x}$

正向累积：

$\frac{\partial y}{\partial x}=\frac{\partial y}{\partial u_{n}}(\frac{\partial u_{n}}{\partial u_{n-1}}(...(\frac{\partial u_{2}}{\partial u_{1}}\frac{\partial u_{1}}{\partial x})))$

反向累积（反向传递）：

$\frac{\partial y}{\partial x}=(((\frac{\partial y}{\partial u_{n}}\frac{\partial u_{n}}{\partial u_{n-1}})...)\frac{\partial u_{2}}{\partial u_{1}})\frac{\partial u_{1}}{\partial x}$