论文解读：Seven-League Scheme

最新推荐文章于 2024-10-18 19:57:39 发布

James Iffen

最新推荐文章于 2024-10-18 19:57:39 发布

阅读量342

点赞数 4

分类专栏：随机过程神经网络论文解读文章标签：神经网络概率论算法

本文链接：https://blog.csdn.net/JamesYuyi/article/details/138618784

版权

随机过程同时被 3 个专栏收录

6 篇文章 0 订阅

订阅专栏

论文解读

2 篇文章 0 订阅

订阅专栏

神经网络

1 篇文章 0 订阅

订阅专栏

论文解读

【The Seven-League Scheme Deep Learning for Large Time Step Monte Carlo Simulations of Stochastic Differential Equations】

文章目录

针对 SDE
$dY(t)=a(t,Y(t),\theta)dt+b(t,Y(t),\theta)dW(t),\quad 0\leq t\leq T$

注意 $\theta$ 表示 SDE 本身的参数。

7L-Scheme

$Y(t_i+\Delta t)|Y(t_i)\approx g_m(X)=\sum_{j=0}^{m-1}\hat{\alpha}_j(\hat{Y}_i,t_i,t_{i+1},\theta)X^j$ ，其中 $\Delta t=t_{i+1}-t_i$ ，此时如果使用想得到映射关系，有两种神经网络训练方式：（1）训练多项式系数 $\hat{\alpha}_j$ ；（2）直接训练配置点 $y_j$ ，再利用多项式插值公式推知多项式系数。

下面介绍如何训练配置点 $y_j$ ：我们假定配置点对 $x_j,y_j)$ 中 $x_j$ 已经选取好，具体的选取规则在后文中讨论，而目标分布 $Y_{i+1}|\hat{Y}_i$ 的对应配置点 $y_j(t_{i+1})$ 是我们需要获得的，在获得配置点对（使用SCMC 方法）后，我们可以将不同时刻、不同条件下配置点的关系的映射关系写作

$y_j(t_{i+1})|\hat{Y}_i=H_j(\hat{Y}_i,t_i,t_{i+1}-t_i,\theta)$

注意到，我们这里并不将配置点 $x_j$ 作为自变量放入映射关系，而是将不同配置点 $x_j$ 处的映射关系 $H_j$ 分开训练，这意味着，所有用于训练 $H_j$ 的配置点对应当形如 $(x_j,y_j(t)|\hat{Y}_{t'})$ .

具体流程如下：

Step 1【利用高精度的离散网络生成高精度样本】

对于随机过程 $Y(\tau),\tau\in[0,\tau_{max}]$ ，设置高精度的离散时间网格 $0<\tau_1<\cdots<\tau_N\leq\tau_{max}$ ，假设我们生成了 $M_S$ 条离散路径，那么意味着我们对于各种不同的时间间隔（例如 $2\Delta\tau,3\Delta\tau$ ）都有了 $M_S$ 对配置点（这里要求在第 $j$ 条离散路径上生成随机变量时都使用该条路径对应的配置点 $x_j$ ），即我们得到的各时间点处的配置点 $y_j$ 应当形如
$\hat{y}_j(\tau_i)=F_{\hat{Y}_i}^{-1}(F_X(x_j))$

使用 $F_{\hat{Y_i}}$ 而非 $F_{Y_i}$ 的原因是我们无法获得分布函数的解析形式，只能通过经验分布函数近似。

在已经生成 $N_S$ 条路径的基础上，可以用内层嵌套 MC 模拟生成条件样本点，我们将第 $j$ 条路径上内层嵌套所使用的第 $k$ 个配置点记作 $x_{k|j}$ （事实上，我们最后使用的是和上面过程相同的配置点），于是得到的配置点形如
$\hat{y}_{k|j}(\tau_{i+1}):=\hat{y}_k(\tau_{i+1})|\hat{y}_j(\tau_i)=F^{-1}_{\hat{Y}_{i+1}|\hat{Y}_i=\hat{y}_j(\tau_i)}(F_X(x_{k|j}))$

（上述过程中尚未完成的部分：分布函数的近似如何解决？）

Step 2【将高精度样本用于神经网络训练】

为了方便说明，按照论文中所说，我们标明前面提到的四种配置点：

$x_j$ : the original collocation points
$\hat{x}_j$ : original conditional collocation points
$\hat{y}_j$ : the marginal SC points
$\hat{y}_k|\cdot$ : the conditional SC points

注意到两点：（1） $\hat{x}_j$ 即为前面提到的 $x_{k|j}$ ，这里事实上将 $x_{k|j}$ 中的 $j$ 省略掉，原因正是因为我们将把 $x_{k|j}$ 对应的配置点对 $(x_{k|j},\hat{y}_{k|j}(\tau_{i+1}))$ 都作为 $H_k$ 的输入，而前面我们已经提到过， $H_k$ 描述的是不同时间间隔、条件、参数下与 $x_k$ 对应的配置点 $y$ 之间的映射关系，因此用于 $H_k$ 输入的配置点对都应是 $x_k$ 生成的；（2）事实上，the marginal SC points 可以视作以 $Y_0$ 为条件的 conditional SC points.

综合上述两点，四种配置点其实本质上只是两种（作为四种也一样，只是在训练时多训练一组 $H_j(Y_0,\cdots)$ ）， $x_j$ 与 $y_j|\cdot,j=1,2,\cdots,m$ , 在此基础上，我们将所有 $(x_j,y_j|\cdot)$ 的点对作为输入训练 $H_j$ ，得到近似 $\hat{H}_j,j=1,2,\cdots,m$ .

注意 $\hat{H}_j(\hat{Y}_i,t_i,t_{i+1}-t_i,\theta)$ 的自变量，得到了 $\hat{H}_j$ 意味着，我们可以在任意条件、任意时间间隔、任意参数下（当然是在良定范围内），生成配置点 $x_j$ 对应的 $y$ ，这是神经网络训练的意义，但是注意到，我们此时仍然只能生成所需分布的配置点 $x_j$ 对应的样本，距离目标“生成所需分布的样本”还差一步。

Step 3【多项式插值得到 $x$ 与 $y$ 的映射关系】

使用 SCMC 的过程主要分为两步：（1）生成所需分布的配置点对；（2）利用多项式插值等方法找到映射关系。Step 1.2 的作用是，使我们能够在任意条件分布下生成配置点对（解放了对条件 $\hat{Y}_i$ 和时间 $t_i,\Delta t$ 的限制），那么在这一步我们将完成多项式插值。

我们希望在一些其他的时间间隔上得到样本，比如在更大步长的等间距时间 $t_i=i\cdot T/N$ 上生成样本路径。

Step 3.1【解放条件、时间】

假定已经得到了 $t_i$ 时刻的某个样本 $\hat{Y}_i$ ，我们可以通过 $\hat{H}_j, j=1,2,\cdots,m$ 生成 $x_j,j=1,\cdots,m$ 分别对应的 $y_j|\cdot$ , 即
$\hat{y}_j(t_{i+1})|\hat{Y}_i=\hat{H}_j(\hat{Y}_i,t_i,t_{i+1}-t_i,\theta),j=1,2,\cdots,m$

Step 3.2【解放配置点】

此时我们有条件分布 $Y(t_{i+1}|\hat{Y}_i)$ 的 $m$ 个配置点对 $(x_j,\hat{y}_j(t_{i+1})|\hat{Y}_i)$ ，基于此使用多项式插值找到 $x$ 与 $y$ 之间的映射关系。可以使用如 Lagrange 插值公式等多项式插值技术，或直接用待定系数法转化为线性方程组求解。最终我们会得到映射关系 $g_m$ （ $m$ 表示我们用 $m$ 个点对生成的多项式插值函数），此时我们可以解放 $x_j$ ，即我们可以生成该条件分布的任意样本：
$\hat{Y}_{i+1}|\hat{Y}_i=g_m(\hat{X}_{i+1})$

将 $x_j$ 解放为 $X$ 的任意样本 $\hat{X}_{i+1}$ .

至此，我们完成了在 $t_{i+1}$ 时刻生成样本的工作，接下来不断往后推移可以得到所需的样本路径。

7L-CDC: An efficient large time step scheme, Compression-Decompression Variant

在 Step 3 中，我们在每个时刻的每个条件样本 $\hat{Y}_i$ 上应用训练出的 $\hat{H}_j$ 去生成 $m$ 个配置点对，这样的计算成本可能较大，特别是在生成路径数量较多的时候，比如生成 10000 条路径时使用 $\hat{H}_j$ 的次数是生成 100 条路径时的 100 次。我们希望尽可能少的使用 $\hat{H}_j$ 去计算，特别地，与生成路径条数无关，而更多地用多项式函数替代它。这给出了 compression-decompression (CDC) variant，简记为 7L-CDC scheme.

注意我们只针对 online prediction phase，即神经网络已经训练完成后，简化用训练好的映射函数去计算的过程，offline training phase 没有任何变化。

在本节中，我们将 original collocation points 和 original conditional collocation points 作区分，因为这涉及到计算量大小。

$M_S$ 表示生成外层路径的数量， $M_C$ 表示嵌套 MC 时内层模拟的次数，于是，在每个时刻 $t_i$ ，我们会根据 $M_S$ 个original SC points $x_1,\cdots,x_{M_S}$ 生成 $M_S$ 个 marginal SC points $\hat{y}_1(t_i)|Y_0,\cdots,\hat{y}_{M_S}(t_i)|Y_0$ ，在每个 marginal SC point 上，根据 $M_C$ 个 original conditional collocation points $\hat{x}_1,\cdots,\hat{x}_{M_C}$ 生成 $M_C$ 个 conditional SC points $\hat{y}_1(t_{i+1})|\hat{y}_j(t_i),\cdots,\hat{y}_{M_C}(t_{i+1})|\hat{y}_j(t_i)$ . 为了方便表示，将 $t_i$ 时刻需要生成的样本点写成矩阵 $\hat{C}_i$
$\hat{C}_i=\begin{pmatrix} -&-&\hat{x}_1&\hat{x}_2&\cdots&\hat{x}_{M_C}\\ x_1&\hat{y}_1(t_i)|Y_0&\hat{y}_1(t_{i+1})|\hat{y}_1(t_i)&\hat{y}_2(t_{i+1})|\hat{y}_1(t_i)&\cdots&\hat{y}_{M_C}(t_{i+1})|\hat{y}_1(t_i)\\ x_2&\hat{y}_2(t_i)|Y_0&\hat{y}_1(t_{i+1})|\hat{y}_2(t_i)&\hat{y}_2(t_{i+1})|\hat{y}_2(t_i)&\cdots&\hat{y}_{M_C}(t_{i+1})|\hat{y}_2(t_i)\\ \vdots&\vdots&\vdots&\vdots&\vdots&\vdots\\ x_{M_S}&\hat{y}_{M_S}(t_i)|Y_0&\hat{y}_1(t_{i+1})|\hat{y}_{M_S}(t_i)&\hat{y}_2(t_{i+1})|\hat{y}_{M_S}(t_i)&\cdots&\hat{y}_{M_C}(t_{i+1})|\hat{y}_{M_S}(t_i) \end{pmatrix}_{(M_S+1)\times(M_C+2)}$

我们已经说过，要将两种配置点对（条件与非条件）分开处理，相应的，我们在训练时也将训练两组神经网络，分别记为 $\hat{H}_j^{(M_C)},j=1,\cdots,M_C$ 和 $\hat{H}_j^{M_S},j=1,\cdots,M_S$ ，具体地， $\hat{C}_i$ 中的点将如下生成：

$c_{i,j,k}:=\hat{y}_k(t_{i+1})|\hat{y}_j(t_i)=\hat{H}_k^{(M_C)}(\hat{y}_j(t_i),t_i,t_{i+1}-t_i,\theta)\\ \hat{y}_j(t_i)|Y_0=\hat{H}_j^{(M_s)}(Y_0,t_0,t_i-t_0,\theta)$

在 CDC 算法中，我们主要替换掉了原算法的 Step 3.1，将利用 $\hat{H}_j$ 生成所有需要的conditional SC points 的过程，替换为，利用 $\hat{H}_j$ 生成 marginal SC point 条件下的 conditional SC points，再使用多项式插值解放条件。

即利用相同 original conditional collocation point（ $\hat{x_j}$ ）对应的 $M_S$ 个点对 $\{(\hat{y}_1(t_i)|Y_0,\hat{y}_k(t_{i+1})|\hat{y}_1(t_i)),(\hat{y}_2(t_i)|Y_0,\hat{y}_k(t_{i+1})|\hat{y}_2(t_i)),\cdots,(\hat{y}_{M_S}(t_i)|Y_0,\hat{y_k}(t_{i+1})|\hat{y}_{M_S}(t_i))\}$ 生成多项式插值函数 $g_{k,M_S}$ ，其中 $k$ 表示第 $k$ 个 original conditional collocation point（ $\hat{x}_k$ ）， $M_S$ 仍然表示插值点个数。得到 $g_{k,M_S}$ 后，我们就可以解放条件，生成任意条件下的样本，
$\hat{y}_k^*(t_{i+1})|\hat{Y}_i^*=\hat{g}_{k,M_S}(\hat{Y}_i^*),\quad k=1,2,\cdots,M_C$

在上面过程中已经完成了对条件的解放，类似 Step 3.3，我们继续用多项式插值完成对配置点的解放，利用点对 $\{(\hat{x}_1,\hat{y}_1(t_{i+1})|\hat{Y}_i^*),(\hat{x}_2,\hat{y}_2^*(t_{i+1})|\hat{Y}_i^*),\cdots,(\hat{x}_{M_C},\hat{y}_{M_C})(t_{i+1}|\hat{Y}_i^*)\}$ ，作多项式插值，得到 $g_{MS,MC}$ ，至此，可以用 $g_{M_S,M_C}$ 生成下一时间的样本，
$\hat{Y}_{i+1}^*|\hat{Y}_i^*=g_{M_S,M_C}(\hat{X}_{i+1})$

算法对比

下面我们计算在 online prediction phase，原算法和 7L-CDC 算法的计算复杂度：再次说明记号， $N$ 表示时间间隔数， $M$ 表示所需模拟路径数， $M_S$ 表示 original collocation points 个数， $M_C$ 表示 original conditional collocation points 个数。

则在 Step 3.1 阶段，在 $t_i$ 时间处，原算法需要对每条路径上的样本生成 $M_C$ 个 conditional SC points，在拟合出多项式函数后，再生成一个样本，因此，用 $\hat{H}$ 计算 $M\times M_C$ 个样本，用多项式计算 $M$ 个样本; 7L-CDC 算法则需要用 $\hat{H}$ 计算 $M_C\times M_S$ 个 conditional SC points 和 $M_S$ 个 marginal SC points，然后用拟合出的多项式函数为每条路径计算 $M_C$ 个配置点，再次拟合后再计算一个样本，因此，共用 $\hat{H}$ 计算 $M_C\times M_S+M_S$ 个样本，用多项式计算 $M\times M_C+M$ 个样本。
分别将和多项式插值函数计算的时间记为 $t_A$ 和 $t_I$ ，则原算法每时间步耗时 $t_AMM_C+t_IM$ ，7L-CDC 算法每步耗时 $t_A(M_CM_S+M_S)+t_I(MM_C+M)$ ，则耗时比例为
$\gamma=\dfrac{t_{7L-CDC}}{t_{7L}}\approx\dfrac{t_AM_S+t_IM}{t_AM}=\dfrac{t_I}{t_A}+\dfrac{M_S}{M}$