神经常微分方程（NODE）介绍

最新推荐文章于 2023-04-25 20:02:30 发布

夜半罟霖

最新推荐文章于 2023-04-25 20:02:30 发布

阅读量1.7k

点赞数 3

分类专栏：深度学习论文文章标签：机器学习人工智能深度学习

本文链接：https://blog.csdn.net/Dr_maker/article/details/126718860

版权

深度学习论文专栏收录该内容

24 篇文章 4 订阅

订阅专栏

NODE

Neural Ordinary differential equation是对ResNet或者RNN模块的一种连续化结果，二者每个block的计算公式如下：
$h_{t+1}=h_t+f(h_t,\theta_t,t)$
对其进行适当的变换¹可以得到：
$\begin{aligned} h_{t+1}&=f(h_t,\theta_t,t)+h_t\\ &=\frac{\Delta_t}{\Delta_t}f(h_t,\theta_t,t)+h_t\\ &=\Delta_t\frac{f(h_t,\theta_t,t)}{\Delta_t}+h_t \end{aligned}$
这个式子实际上就是差分的计算公式（或者说是欧拉方法的离散形式）²，如果在此处忽略掉分母处的 $\Delta_t$ ，则 $f(h_t,\theta_t)$ 就可认为是在计算当前时刻系统的导数，而 $h_t$ 则为每个时刻系统的输出值。那么RNN就可认为是在求解一个时序系统 $f(h_t,\theta_t)$ ，该系统每隔 $\Delta_t$ 时间输出一个值。实际应用中我们想要模拟的系统可能是在连续时刻输出值，或者是非等间隔时间输出.此时这样离散的求解形式就不再适用，可将block层数不断堆叠，采样间隔逐渐减小，转化成常微分方程的形式进行求解：
$\frac{dh_{t+1}}{dt}=f(h_t,\theta_t,t)$
从而给定初始状态 $h_{t0}$ 的情况下，我们可以利用网络得到任意时刻的系统输出：
$h(t)=h(t_0)+\int_{t_0}^{t}f(h(u),\theta(u),u)du$
当 $f$ 为用神经网络模拟的系统时，这就是一个NODE。其中 $\theta(u)$ 是网络的参数（实际上此时并不随着时刻变化，因为不再分为多个block， $\theta(u)=\theta$ ）， $h (t)$ 为网络在 $t$ 时刻的输出， $h(t_0)$ 为系统的初始状态。而这一积分虽然没有解析解，但目前已经有许多工具可以对其进行近似求解，因此无需关注具体求解细节，我们可以得到系统任意时刻的输出为：
$ODEsolver(h(t_0),f,t_0,t_1,\theta_t)$
前向传播的问题解决了来看反向传播，为了优化网络的参数需要求取损失函数对 $\theta_t$ 的导数。因此需要计算损失函数对求解器的导数，再计算求解器输出对于 $\theta_t$ 的导数，如果直接使用链式求导法则求梯度来反向传播，就意味着我们只能使用可微的求解器。同时这些求解器都往往以迭代的形式工作的（类似于ResNet每个block），前向传播过程中需要保存每一次的结果用于反向传播的计算。如果要求系统模拟的精度非常高，迭代次数就会很多，需要保存非常大的计算图，很浪费资源。因此反向传播过程采用了伴随灵敏度法，解决要保存前向传播时所有激活状态的弊端。³具体推导过程如²中所示，不再赘述。
总而言之，NODE用来在网络中代替Resblock模块，NODE就相当于多个Resblock的级联。假定输入为系统 $t_0$ 时间点的状态，使用网络 $f$ 对真实系统的动态特性进行模拟，通过ODE求解这样一个系统在 $t_1$ 时刻的状态（设置 $t_0,t_1]=[0,1]$ ），利用反向传播来更新系统的参数。需要获得系统在多个时间点输出时，就假定输入为为系统 $t_0$ 时间点的状态时，设置多个时间点 $t_1,t_2...t_N$ ，以同样的方式求解即可。
与ResNet相比，NODE的优势在于参数量少，耗费的计算资源少。这一点不难理解，因为NODE虽然可以认为是无限多个Resblock的连续化，但由于网络参数也不再随着时间点变化( $\theta(t)\rightarrow\theta$ )，因此参数量更少。而在实际运算过程中，虽然ODE同样是以迭代的形式如同ResNet一样前向计算，但使用了伴随灵敏度法反向传播的ODE不用在前向传播过程中保存状态，因此内存为 $O (1)$ 。此外，NODE方法对于准曲率和效率的追求是可控的，通过控制ODE solver的tolerance我们可以控制系统求解所需的时间。需要高精度时就使用较小的tolerance，反之亦然。
此外在具体应用层面，由于其输出时间点的连续性，我们可以用NODE对序列数据进行插值或者是预测。假定序列数据可以通过另一条隐状态组成的序列来表征，那么我们可以使用encoder来获得序列数据在初始时刻的隐状态 $z_0$ ，再使用NODE来模拟后续观测时刻的隐状态 $z_1,z_2,...,z_N$ ，最后使用Decoder将隐状态序列重新映射回数据序列。以这样一种VAE的模式训练网络，我们就可以利用NODE获得任意时刻的隐状态，再通过decoder就能获得任意时刻的序列数据，无论是已知数据的插值还是未来数据的预测都可以完成。图示如下：
在这里插入图片描述