【深度学习基础】自动微分 Automatic Differentiation

No pains, no GANs!

已于 2022-06-06 12:46:08 修改

阅读量896

点赞数 3

分类专栏：深度学习基础文章标签：深度学习人工智能

于 2022-06-06 12:44:52 首次发布

本文链接：https://blog.csdn.net/qq_43491212/article/details/125144532

版权

深度学习基础专栏收录该内容

4 篇文章 0 订阅

订阅专栏

Refs:

1. 自动微分、符号微分、数值微分

自动微分（Automatic Differentiation，AD）有别于符号微分和数值微分，下图中，给出了不同形式的示例。Symbolic Differentiation，从形式上可以看出，它的结果非常复杂，但是准确（与 Matlab 求符号微分相同）。而 Numerical Differentiation 采用了近似，引入步长 h 求某点处的微分，那么 h 就会影响到整个微分的结果，会导致不稳定、不准确。

AD 和其他两个明显的区别，就是基于链式法则，逐步计算。首先，假定了输入节点的导数 $(v, d v) = (x, 1)$ ，而在 for 循环中， $(v, d v)$ 分别是递推计算及其微分形式。具体来说，当输入节点的值确定后，则下一个节点的 $v=4v\cdot (1-v)=4x\cdot (1-x)$ ，且此时的导数 $dv=4dv-8v\cdot dv=4\times1-8x\times1$ ，那么当输入 $x$ 确定时，也就可以知道该节点的值以及对应的导数了。

请添加图片描述

2. 自动微分的形式

更细致一些，自动微分 AD 涉及到了计算图，将整个计算过程，分解为多个元运算，这些元运算会构成一个无环图。以 $f\left(x_{1}, x_{2}\right)=\ln \left(x_{1}\right)+x_{1} x_{2}-\sin \left(x_{2}\right)$ 为例，可以得到下面的计算图，
请添加图片描述
其中 $v_{-1},v_0\dots,v_5$ 就代表每个元运算，如上左表所示，

自动微分又分 $F o r w a r d$ 和 $R e v e r s e$ 两种形式。

2.1 Forward 模式

上面的提到的自动微分过程就是 Forward 模式，计算的是，输入节点的变化对输出的影响。显然，数值和微分可以同时计算，那么它的内存复杂度就是 $O (1)$ 。
在这里插入图片描述
上右表中，是给定 $\dot{v}_{-1}=\dot{x}_1=1$ 求 $\frac{\partial y}{\partial x_{1}}$ ，上面所有的 $\dot{v}$ 都是对 $x_1$ 求偏导，

以 $\dot{v}_1$ 为例，

首先， $\dot{v}_1=\frac{\partial v_1}{\partial x_{1}}$ ，无法直接求解偏导，
根据链式法则， $\dot{v}_1=\frac{\partial v_1}{\partial x_{1}}=\frac{\partial v_1}{\partial v_{-1}}\frac{\partial v_{-1}}{\partial x_1}$ ，
代入并化简， $\dot{v}_1=\frac{\partial \ln v_{-1}}{\partial v_{-1}}\cdot\dot{v}_{-1}=\frac{\dot{v}_{-1}}{v_{-1}}$ ，
最后得到， $\dot{v}_1=\frac{1}{2}$ ，

类似的， $\dot{v}_2 =\frac{\partial v_2}{\partial x_{1}} =\frac{\partial v_{2}}{\partial v_{-1}}\frac{\partial v_{-1}}{\partial x_1}+\frac{\partial v_{2}}{\partial v_{0}}\frac{\partial v_{0}}{\partial x_{1}} =\dot{v}_{-1}v_0+\dot{v}_0v_{-1} =1\times5+0\times2=5$ ，

依次计算，就可以得到 $\dot{y}=\frac{\partial y}{\partial x_1}=\frac{\partial v_5}{\partial x_1}=\dot{v}_5=5.5$ 。

（也要求给定 $x_2$ 的情况，这里只以 $x_1$ 为例，方法类似，不再赘述）

2.2 Reverse 模式

而 Reverse 形式计算的是输出 y 对各个节点的导数，那么我们就需要明确各个元节点的输入以及输出，因此 AD 必须在完成一次正向运算后才能运行，也就意味着，我们要存储所有中间结果，这也就导致了深度学习中显存占用量很高。

在这里插入图片描述
上右表中，给定 $\bar{v}_{5}=\frac{\partial y}{\partial v_5}=\frac{\partial y}{\partial y}=\bar{y}=1$ ，

$v_4$ 是 $v_5$ 的输入，已知 $v_5$ 和 $\bar v_5$ 的情况下，就可以求 $\bar v_4$ ，
在这里插入图片描述

首先， $\bar v_4=\frac{\partial y}{\partial v_4}$ ，无法直接求解偏导，
根据链式法则， $\bar v_4=\frac{\partial y}{\partial v_4}=\frac{\partial y}{\partial v_5}\frac{\partial v_5}{\partial v_4}$ ，
代入并化简， $\bar v_4=\bar v_5\frac{\partial v_5}{\partial v_4}$ ，
最后得到， $\bar v_4=\bar v_5 \times1=1$ ，

$v_0$ 是 $v_2$ 和 $v_3$ 的输入，那么在求 $\bar v_0$ 时，要同时考虑两者，
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-uucn9F97-1654490235567)(Automatic Differentiation/image-20220605230551805.png)]

首先，可以根据 $v_3$ 和 $\bar v_3$ ，求得 $\bar v_0=\frac{\partial y}{\partial v_0}=\frac{\partial y}{\partial v_3}\frac{\partial v_3}{\partial v_0}=\bar v_3\cos v_0=-0.284$ ，
然后，还需要叠加 $v_2$ 带来的偏导，即 $\bar v_0=\bar v_0 + \frac{\partial y}{\partial v_2}\frac{\partial v_2}{\partial v_0}=\bar v_0 + \bar v_2v_{-1}=-0.284+2=1.716$ ，

根据输出，可以同时得到两个输入的偏导，计算方法类似。

2.3 复杂度

2.3.1 雅克比矩阵

以上都是假设了输出为标量，如果是任意维的张量的话，就要用到雅克比矩阵了。

假设有 $y = f (x)$ ，其中 $x=\langle x_1,x_2,\ldots,x_n \rangle$ ， $y=\langle y_1,y_2,\ldots,y_m \rangle$ ，那么 y 对 x 的梯度可以表示为如下的 $J a c o b i a n$ 矩阵，

$J=\left(\begin{array}{ccc} \frac{\partial y_{1}}{\partial x_{1}} & \cdots & \frac{\partial y_{1}}{\partial x_{n}} \\ \vdots & \ddots & \vdots \\ \frac{\partial y_{m}}{\partial x_{1}} & \cdots & \frac{\partial y_{m}}{\partial x_{n}} \end{array}\right)$

在这个过程中，通常不显式地构造 $J a c o b i a n$ 矩阵，而是直接计算 JVP（Jacobian vector product），来代替实际的梯度，

$\bar{x}_{j}=\sum_{i} {v_{i}} \frac{\partial y_{i}}{\partial x_{j}}$ ，

可以将其转化为矩阵运算，

$\bar{x}={v}^{\top} J$ ，

其中， $v=\langle v_1,v_2,\ldots,v_m \rangle^\top$ ，维度和输出维度一致。矩阵维度的计算为 $m)\times(m, n)=(1,n)$ 。

以下是调用 backward 对多维输出进行反向传播，需要确定一个与输出大小一致的输入张量，一般取 $\mathbf1$ ，

x = torch.randn(4,5, requires_grad=True)
y = (x+1).pow(2).sum(dim=1)
y.backward(torch.ones_like(y))
print(f"First call\n{x.grad}")

2.3.2 计算复杂度

假设有 $a = f (x), b = g (a), y = h (b)$ 代表不同的层，根据链式法则和雅克比矩阵，可以得到，

$\frac{\partial y}{\partial x}=\frac{\partial y}{\partial b}\frac{\partial b}{\partial a}\frac{\partial a}{\partial x}$ ，

那么，每个雅克比矩阵的大小分别为 $|y|\times|b|, |b|\times|a|,|a|\times|x|$ ，其中 $∣ ∣$ 表示向量维度，那么 $∣ a ∣$ 和 $∣ b ∣$ 可以理解为网络中间层的维度， $∣ x ∣$ 和 $∣ y ∣$ 分别为输入特征维度和和输出特征维度。

如果用 $F o r w a r d$ 模式来计算自动微分，如下所示，

$\frac{\partial y}{\partial x}=\frac{\partial y}{\partial b}(\frac{\partial b}{\partial a}\frac{\partial a}{\partial x})$

首先，计算括号内两个雅克比矩阵的乘法，计算量为 $∣ b ∣ ∣ a ∣ ∣ x ∣$ ，然后在计算括号外的，带来的计算量为 $∣ y ∣ ∣ b ∣ ∣ x ∣$ ，那么总的计算量就是 $∣ b ∣ ∣ a ∣ ∣ x ∣ + ∣ y ∣ ∣ b ∣ ∣ x ∣$ 。

如果用 $R e v e r s e$ 模式来计算自动微分，如下所示，

$\frac{\partial y}{\partial x}=(\frac{\partial y}{\partial b}\frac{\partial b}{\partial a})\frac{\partial a}{\partial x}$

首先，计算括号内两个雅克比矩阵的乘法，计算量为 $∣ y ∣ ∣ b ∣ ∣ a ∣$ ，然后在计算括号外的，带来的计算量为 $∣ y ∣ ∣ a ∣ ∣ x ∣$ ，那么总的计算量就是 $∣ y ∣ ∣ b ∣ ∣ a ∣ + ∣ y ∣ ∣ a ∣ ∣ x ∣$ 。

假设 $∣ a ∣ = ∣ b ∣$ ，则两种模式的计算量就差在 $∣ x ∣$ 和 $∣ y ∣$ 的维度，

当输入特征维度 $∣ x ∣$ 大于输出特征维度 $∣ y ∣$ 时，Reverse 模式的计算量小，
当输入特征维度 $∣ x ∣$ 小于输出特征维度 $∣ y ∣$ 时，Forward 模式的计算量小。

在 Pytorch、TensorFlow 等框架中，都采用了 Reverse 模式。一般情况下，输出，即损失函数，为一个标量，而输入是一个多维向量，输入维度大于特征维度，因此 Reverse 模式的计算量小。如果中间层的维度有增有减的话，就得根据上面的方式，依次统计所有相邻雅克比矩阵相乘的计算量了，但是往往会忽略这一点，都采用 Reverse 模式。

2.3.3 内存复杂度

由于 Forward 模式，前向运算和自动微分是可以同时进行的，所以内存复杂度很低，而 Reverse 模式，二者无法同时运算，需要存储前向运算的所有结果，然后在进行自动微分，所以内存复杂度高。

2.4 两种模式的区别

	Reverse	Forward
前向运算和自动微分是否可以同时进行？	必须先完成所有的前向运算，才能 AD	前向运算和 AD 可以同时进行
一次从输入到输出的运算，	可以得到所有节点的导数	只能得到一个输入节点的导数
当中间层维度相同，输入维度大于输出维度时，	计算复杂度比较小，内存复杂度大	计算复杂度比较大，内存复杂度小