【自动微分】前向微分和反向微分

最新推荐文章于 2022-09-25 09:14:15 发布

hanyudebaby

最新推荐文章于 2022-09-25 09:14:15 发布

阅读量1.3k

点赞数

文章标签：机器学习

本文链接：https://blog.csdn.net/hanyudebaby/article/details/125051795

版权

前向和反向微分都和Jacobian矩阵相关，同时它也可以帮助理解，所以从Jacobian矩阵谈起。

1. Jacobian Matrix雅各比矩阵

给定函数 $R^n \rightarrow R^m$ 和向量 $Y\in{R^m}$ 使得 $\forall{X}\in{R^n}$ 都有
$A (X) = L (X) + Y$
称 $A (X)$ 是一个仿射函数.
对于一个点 $X^{(0)}\in{R^m}$ ，希望找到一个仿射函数 $A$ 来近似函数 $f$ ，即尽可能使
$A(X^{(0)})=f(X^{(0)})$
于是使
$Y=f(X^{(0)})-L(X^{(0)})$
利用线性函数的性质有
$A(X)=L(X-X^{(0)})+f(X^{(0)})$
若 $f$ 在 $X^{(0)}\in{R^n}$ 处可微
$\lim_{X\rightarrow{X^{(0)},X\in{R^n}}}\frac{\|f(X)-(L(X-X^{(0)})+f(X^{(0)}))\|}{\|X-X^{(0)}\|}=0$
$L$ 是 $f$ 在 $X^{(0)}$ 的导数。于是设求导对应的矩阵为 $J$ ,引入 $R^n$ 空间的标准基 $e_1,e_2,...,e_n$ 考虑在方向 $j$ 上对于点 $X^{(0)}$ 有微小变化的向量 $X^{(j)}=X^{(0)}+te_j,j=1,2,...,n$ ,即
$L(X-X^{(0)})= tJe_j$
由导数的定义得
$\lim_{X\rightarrow{X^{(0)},X\in{R^n}}}\frac{f(X^{(j)})-f(X^{(0)})}{t}=Je_j$
等号右边表示这是矩阵 $J$ 的第j列，等号左边即为 $f$ 关于 $X^{(j)}$ 的偏导数 $\frac{\partial{f}}{\partial{X^{(j)}}}(X^{(0)}).$

下面有
$f(X)=\left[ \begin{matrix} f_1(X^{(0)}) \\ f_2(X^{(0)}) \\ ...\\ f_m(X^{(0)}) \\ \end{matrix} \right]$
那么有矩阵
$\left[ \begin{matrix} \frac{\partial{f}}{\partial{X^{(1)}}}(X^{(0)})&& \frac{\partial{f}}{\partial{X^{(2)}}}(X^{(0)})&& \cdots&& \frac{\partial{f}}{\partial{X^{(n)}}}(X^{(0)})&& \end{matrix} \right]$
$=\left[ \begin{matrix} \frac{\partial{f_1}}{\partial{X^{(1)}}}(X^{(0)}） && \frac{\partial{f_1}}{\partial{X^{(2)}}}(X^{(0)}）&& \cdots&& \frac{\partial{f_1}}{\partial{X^{(n)}}}(X^{(0)}）\\ \\ \frac{\partial{f_2}}{\partial{X^{(1)}}}(X^{(0)}） && \frac{\partial{f_2}}{\partial{X^{(2)}}}(X^{(0)}）&& \cdots&& \frac{\partial{f_2}}{\partial{X^{(n)}}}(X^{(0)}）\\ \\ \frac{\partial{f_3}}{\partial{X^{(1)}}}(X^{(0)}） && \frac{\partial{f_3}}{\partial{X^{(2)}}}(X^{(0)}）&& \cdots&& \frac{\partial{f_3}}{\partial{X^{(n)}}}(X^{(0)}）\\ \vdots&&\vdots&&\ddots&&\vdots\\ \frac{\partial{f_m}}{\partial{X^{(1)}}}(X^{(0)}） && \frac{\partial{f_m}}{\partial{X^{(2)}}}(X^{(0)}）&& \cdots&& \frac{\partial{f_m}}{\partial{X^{(n)}}}(X^{(0)}）\\ \end{matrix} \right]$
称此 $J_{m\times{n}}(X^{(0)})$ 为 $f$ 在点 $X^{(0)}$ 的Jacobian矩阵或导数矩阵.
则有 $J_{m\times{n}}(X)$ 是函数 $f$ 的Jacobian矩阵，它表示了一个多维向量函数的最佳线性逼近。

2. Automatic Differentiation自动微分

自动微分是介于符号计算和数值计算之间的一种求微分方式，先将符号微分作为基本的算子，用基本算子将input/中间结果组织起来得到新的中间结果并保存起来，而后应用于整个函数的微分，其本质是图计算。
主要利用了链式法则(Chain rule)，有前向微分(Forward/Tangent Differentiation)和反向微分(Reverse/Adjoint Differentiation)两个模式，选择何种模式取决于input的维度和output的维度，以能更快速高效地求微分。

链式法则:
$Suppose\enspace v_n(v_{n-1}(v_{n-2}\cdots(v_1(\mathbf{x})))) ,then\\ \frac{d\mathbf{y}}{d\mathbf{{x}}}= \frac{d\mathbf{y}}{dv_n} \frac{dv_{n}}{dv_{n-1}} \frac{dv_{n-1}}{dv_{n-2}} \cdots \frac{dv_{2}}{dv_{1}} \frac{dv_1}{d\mathbf{{x}}}$
可以设 $v_0=\mathbf{x}， \frac{dv_0}{dv_0}=1$
前向微分，即是从右向左计算，而反向微分反之。
那么计算是如何进行的呢？

2.1 Forward Differentiation前向微分

引入Tangent derivative:
$\dot{y}=\frac{\partial{y}}{\partial{x}}$
x是choosen variable，就是 $\partial{x}$ 在分子中保持不变。

先简单地考虑函数 $f_1(x_1,x_2)=x_2\sin{x_1}+x_2^2$ ，输入.
对于变量 $x_1$ ,有
$v_0=x_1 \enspace\enspace \dot{v_0}=\frac{\partial{v_0}}{\partial{x_1}}=1 \\ v_1=x_2 \enspace\enspace \dot{v_1}=\frac{\partial{v_1}}{\partial{x_1}}=0 \\ v_2=\sin{v_0} \enspace\enspace \dot{v_3}=\frac{\partial{v_2}}{\partial{x_1}}=\dot{v_0}\cos{v_0}=\cos{x_1} \\ v_3=v_1v_2 \enspace\enspace \dot{v_3}=\frac{\partial{v_3}}{\partial{x_1}}= \dot{v_1}v_2+v_1\dot{v_2}=x_2\cos{x_1} \\ v_4=v_1^2 \enspace\enspace \dot{v_4}=\frac{\partial{v_4}}{\partial{x_1}}= 2v_1\dot{v_1}=0 \\ v_5= v_3+v_4 \enspace\enspace \dot{v_5}=\frac{\partial{v_5}}{\partial{x_1}}= \dot{v_3}+\dot{v_4}=x_2\cos{x_1} \\$
v_6是我们要求的 $\frac{\partial{f_1}}{\partial{x_1}}$ .
同理，对于x_2，再进行一次上述操作.
$v_0=x_1 \enspace\enspace \dot{v_0}=\frac{\partial{v_0}}{\partial{x_2}}=0 \\ v_1=x_2 \enspace\enspace \dot{v_1}=\frac{\partial{v_1}}{\partial{x_2}}=1 \\ v_2=\sin{v_0} \enspace\enspace \dot{v_2}=\frac{\partial{v_2}}{\partial{x_2}}=\dot{v_0}\cos{v_0}=0 \\ v_3=v_1v_2 \enspace\enspace \dot{v_3}=\frac{\partial{v_3}}{\partial{x_2}}=\dot{v_1}v_2+v_1\dot{v_2}=\sin{x_1} \\ v_4=v_1^2 \enspace\enspace \dot{v_4}=\frac{\partial{v_4}}{\partial{x_2}}= 2v_1\dot{v_1}=2x_2 \\ v_5= v_3+v_4 \enspace\enspace \dot{v_5}=\frac{\partial{v_5}}{\partial{x_2}}= \dot{v_3}+\dot{v_4}=\sin{x_1}+2x_2 \\$
v_6是我们要求的 $\frac{\partial{f_1}}{\partial{x_2}}$
当我们给一个input时，每一个中间变量 $v_i$ 及其 $\dot{v_i}$ 都可以求出其值。

如果我们再给一个 $f_2$ 那么我们可以并行地对 $\frac{\partial{f_i}}{\partial{x_1}}，i=1，2$ 和进行求算，它们共用同一套基础算子。对 $\frac{\partial{f_i}}{\partial{x_1}}，i=1，2$ 求算完后，再对 $\frac{\partial{f_i}}{\partial{x_2}}，i=1，2$ 进行求算。

从上面的例子可以看到，每当我们对input中的一个 $x_i$ 进行一次单独的前向传递；对于不同的 $x_i$ ，需要重复进行前向传递。
可以用雅各比矩阵来形象地解释：在前向微分模式下，每对一个 $x_i，i=1，2，...n$ 做一次前向传递都会输出雅各比矩阵相对应的一列，这个列向量的所有元素都是可以并行计算出来的；要产生完整的雅各比矩阵，将会重复n次这样的计算。

如何编程实现上面的计算？
1）运算符重载：由于前向微分的顺序和求算函数值的顺序是一样的，所以可以写一个类，在类中进行运算符重载，以处理导数运算。
2）源代码转换：根据输入的原函数生成一个新的函数，将其暴露给编译器，这比运算符重载更高效，但实现起来也更困难。

回到理论：
对于函数 $R^n \rightarrow R^m$ ，当 $n\ll{m}$ 时，前向微分可以节省很多时间。
但在机器学习等领域，我们要面对的是几乎都是 $n\gg{m}$ 的情况。于是，我们还有另一个适用于这种条件的模式：反向微分。

2.2 Reverse Differentiation反向微分

引入Adjoint derivative:
$\bar{y}=\frac{\partial{y}}{\partial{x}}$
y是choosen variable，就是 $\partial{y}$ 在分子中保持不变。

我们回忆一下，在前向微分中前向传递计算中间变量的同时计算其导数，最终自然而然地就求得了原函数的导数。

而对于反向微分，我们有两部分操作：
对于给定的函数 $f(x_1,x_2,...,x_n)$ 和一个input。
step 1:
一个计算中间变量，同时将每个中间变量的依赖关系存起来（就是建立一个有向图），而非同时计算相对应的导数。
step 2:
完成step1后，我们会得到原函数的输出，于是我们用这个输出计算其偏导数 $\bar{f}$ ,将它看作一个中间变量，然后从这里反向传递，一次性求 $\bar{x_1},\bar{x_2},...,\bar{x_n}$ 。有下面式子:
$\bar{v_i}=\frac{\partial{f}}{\partial{v_i}}= \sum_{j:child\enspace of \enspace i}\bar{v_j} \frac{\partial{v_j}}{\partial{v_i}}$

可以知道，在step1前向传递时我们要记录下来的是 $\frac{\partial{f}}{\partial{v_i}}$ ，而 $\bar{v_j}$ 则是在反向传递是要做的计算。容易知道，对于最后一个节点(也就是input对应的函数值)，其 $\bar{v_j}=1$ .

还是用前向微分给的函数举例子:
$f_1(x_1,x_2)=x_2\sin{x_1}+x_2^2$

step1 : 左列是中间值，右列是需要记录的节点关系。（在反向传递是，箭头右边的是子节点）
$v_0=x_1 \enspace\enspace v_0 \rightarrow{v_2}:\frac{\partial{v_2}}{\partial{v_0}}= \cos{v_0}=\cos{x_1} \\ v_1=x_2 \enspace\enspace v_1 \rightarrow{v_3}:\frac{\partial{v_3}}{\partial{v_1}}=v_2=\sin{v_0}=\sin{x_1}, v_1 \rightarrow{v_4}:\frac{\partial{v_4}}{\partial{v_1}}=2v_1=2x_2 \\ v_2=\sin{v_0} \enspace\enspace v_2\rightarrow{v_3}:\frac{\partial{v_3}}{\partial{v_2}}=v_1=x_2 \\ v_3=v_1v_2 \enspace\enspace v_3\rightarrow{v_5}:\frac{\partial{v_5}}{\partial{v_3}}=1 \\ v_4=v_1^2 \enspace\enspace v_4 \rightarrow{v_5}:\frac{\partial{v_5}}{\partial{v_4}}=1 \\ v_5= v_3+v_4 \enspace\enspace 无子节点 \\$

step2 : 反向传递时，从 $\frac{\partial{f}}{\partial{v_5}}=\frac{\partial{v_5}}{\partial{v_5}}=1$ 开始，有需要的数据就从step1存下来的东西里找。
$\bar{v_5}=1\\ \bar{v_4}=\bar{v_5}\frac{\partial{v_5}}{\partial{v_4}}=1\\ \bar{v_3}=\bar{v_5}\frac{\partial{v_5}}{\partial{v_3}}=1\\ \bar{v_2}=\bar{v_3}\frac{\partial{v_3}}{\partial{v_2}}=x_2\\ \bar{v_1}=\bar{v_3}\frac{\partial{v_3}}{\partial{v_1}}+\bar{v_4}\frac{\partial{v_4}}{\partial{v_1}}=\sin{x_1}+2x_2\\ \bar{v_0}=\bar{v_2}\frac{\partial{v_2}}{\partial{v_0}}=x_2\cos{x_1}\\ 其中,\bar{x_1}=\bar{v_0},\bar{x_2}=\bar{v_1}$
若
$f(X)=\left[ \begin{matrix} f_1 \\ f_2 \\ ...\\ f_m \\ \end{matrix} \right]$
那么，要对每一个 $f_i,i=1,2,3,...,m$ 进行一次反向微分操作，即可获得原函数完整的Jacobian矩阵。

同样地，用Jacobian矩阵来理解，在每对一个 $f_i$ 仅从一次反向微分后，都会产生原函数Jacobian矩阵的一行， $n\gg{m}$ 的情况下，能很好减少计算量。

3.参考资料

[1]https://www.youtube.com/watch?v=wG_nF1awSSY
[2]https://blog.csdn.net/chen64515/article/details/109472926?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522165375802616782248588691%2522%252C%2522scm%2522%253A%252220140713.130102334…%2522%257D&request_id=165375802616782248588691&biz_id=0&utm_medium=distribute.wap_search_result.none-task-blog-2_allsobaiduend~default-1-109472926-null-null.wap_first_rank_v2_rank_v29&utm_term=%E9%9B%85%E5%8F%AF%E6%AF%94%E7%9F%A9%E9%98%B5%E5%92%8C%E6%A2%AF%E5%BA%A6&spm=1018.2118.3001.4187
[3]https://www.cnblogs.com/simplex/articles/6777895.html
[4]https://math.stackexchange.com/questions/2195377/reverse-mode-differentiation-vs-forward-mode-differentiation-where-are-the-be/3119199#3119199
[5]https://blog.csdn.net/qq_38640439/article/details/81674466?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522165383246716782395320562%2522%252C%2522scm%2522%253A%252220140713.130102334…%2522%257D&request_id=165383246716782395320562&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2_allsobaiduend~default-3-81674466-null-null.142^v11pc_search_result_control_group,157^v12control&utm_term=自动微分&spm=1018.2226.3001.4187
[6]https://www.youtube.com/watch?v=jS-0aAamC64

hanyudebaby

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
【自动微分】前向微分和反向微分

前向和反向微分都和Jacobian矩阵相关，同时它也可以帮助理解，所以从Jacobian矩阵谈起。1. Jacobian Matrix雅各比矩阵给定函数f:Rn→Rmf: R^n \rightarrow R^mf:Rn→Rm和向量Y∈RmY\in{R^m}Y∈Rm 使得 ∀X∈Rn\forall{X}\in{R^n}∀X∈Rn 都有A(X)=L(X)+YA(X)=L(X)+YA(X)=L(X)+Y称A(X)A(X)A(X)是一个仿射函数.对于一个点X(0)∈RmX^{(0)}\in{R^m}X
复制链接

扫一扫