高阶完全非线性偏微分方程组的机器学习近似算法(笔记)

最新推荐文章于 2025-03-15 14:58:48 发布

闵帆

最新推荐文章于 2025-03-15 14:58:48 发布

阅读量2k

点赞数 3

分类专栏：开发笔记文章标签：机器学习

本文链接：https://blog.csdn.net/minfanphd/article/details/109673266

版权

开发笔记专栏收录该内容

11 篇文章

订阅专栏

本文探讨了使用机器学习和深度学习方法解决高维非线性偏微分方程（PDE）的问题，特别是通过第二阶后向随机微分方程（2BSDE）的关联。文章详细介绍了2BSDE方法，解释了PDE的数学表述，包括对时间和空间的偏导数，以及与2BSDE的联系。此外，还讨论了PDE与2BSDE的融合，并展示了网络结构和训练过程，但未提供具体训练数据。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

本文是对论文Machine learning approximation algorithms for high-dimensional fully nonlinear partial differential equations and second-order backward stochastic dierential equations的初步理解，仅作为笔记。读者切勿被误导。
该文提供的代码将在https://github.com/FanSmale/MFPDE中给出。

1. 引言

偏微分方程(partial differential equation, PDE)是金融、物理领域建模的基础。
有许多解非线性二维偏微分方程组(nonlinear parabalic PDEs) 的近似解法，其中有些依赖于PDE解的适当表示，如基于二阶后向随机微分方程组(second-order backward stochastic differential equations, 2BSDE)的概率表示。

2. 深度2BSDE方法

可参考文献[22-23].

2.1 完全非线性二阶偏微分方程组

令

$\in \mathbb{N} = \{1, 2, 3, \dots\}$ 表示维度;
$\in (0, \infty)$ 表示终止时间点;
$\in C^{1, 2}([0, T] \times \mathbb{R}^d, \mathbb{R})$ ;
- 其中 $\in [0, T]$ 表示时间点;
- $\in \mathbb{R}^d$ 表示 $d$ 维实数向量, 它与时间 $t$ 相关, 可以写成 $x (t)$ ;
- $\in \mathbb{R}$ .
- 注意: $C$ 表示可导; $C^{1, 2}$ 表示对时间 $t$ 一阶可导, 对空间 $x$ 二阶可导.
$\in C([0, T] \times \mathbb{R}^{d} \times \mathbb{R} \times \mathbb{R}^d \times \mathbb{R}^{d \times d}, \mathbb{R})$ 函数有5个参数, 值域为实数;
$\in C(\mathbb{R}^d, \mathbb{R})$ 函数定义域为 $d$ 维向量, 值域为实数;
假设对任意 $\in [0, T)$ , $\in \mathbb{R}^d$ 满足 $u (T, x) = g (x)$ (注意: 从这里可以看出是终值问题, 即根据时间 $T$ 的数据, 反推之前的数据);
$u$ 对 $t$ 的偏微分满足
$\frac{\partial u}{\partial t}(t, x) = f(t, x, u(t, x), (\nabla_x u)(t, x), (\mathrm{Hess}_x u)(t, x)) \tag{1}$
问题及回答:
- 为什么把偏微分的函数做成5个参数？是为了线性吗？猜测：相当于程序设计中的函数封装。由于直接求偏微分，表达式太长了，就先把函数 $(\nabla_x u)(t, x)$ 和 $(\mathrm{Hess}_x u)(t, x)$ 写出来。
- $(\nabla_x u)(t, x)$ 是什么函数？回答：梯度，即 $u (t, x)$ 对于向量 $x$ 的偏导。
- $(\mathrm{Hess}_x u)(t, x)$ 是什么函数？海森矩阵相关？回答：先对 $u (t, x)$ 求向量 $x$ 的偏导，获得 $d$ 维向量；再对该向量求向量 $x$ 的偏导，获得 $\times d$ 的矩阵。
- $u (t, x)$ 关于 $t$ 的偏微分，为什么要用它关于 $x$ 的一阶、二阶偏微分来表示？回答: 因为 $x = x (t)$ , 是关于 $t$ 的函数。
- 函数 $g$ 在下一节才用到，这里为什么出现？回答: 表示终值的函数。

2.2 完全非线性二阶偏微分方程组与2BSDE的联系

令

$(\Omega, \mathcal{F}, \mathbb{P})$ 为一个概率空间;
$\times \Omega \rightarrow \mathbb{R}^d$ 标准的布朗运动;
$\mathbb{F} = (\mathbb{F}_t)_{t \in [0, T]}$ 是由 $W$ 产生的正则滤波(normal filtration);
$\times \Omega \rightarrow \mathbb{R}$ ;
$\times \Omega \rightarrow \mathbb{R}^d$ ;
$\Gamma: [0, T] \times \Omega \rightarrow \mathbb{R}^{d \times d}$ ;
$\times \Omega \rightarrow \mathbb{R}^d$ ;
$\begin{array}{ll}Y_t = & g(\xi + W_T) - \int_{t}^T (f(s, \xi + W_s, Y_s, Z_s, \Gamma_s) + \frac{1}{2} \mathrm{Trace}(\Gamma_s)) \mathrm{d}s \\ & - \int_{t}^T \langle Z_s, \mathrm{d} W_s \rangle_{\mathbb{R}^d}\end{array} \tag{2}$
$Z_t = Z_0 + \int_{0}^t A_s \mathrm{d}s + \int_{0}^t \Gamma_s \mathrm{d}W_s \tag{3}$
注: $Y_t$ 的计算关注 $[t, T]$ , 而 $Z_t$ 的计算关注 $[0, t]$ .
在合适的平滑与正则假设下，式(1)与式(2)(3)存在如下关联：
$Y_t = u(t, \xi + W_t) \in \mathbb{R} \tag{4.1}$
注: $Y_t$ 与式(1)的第3个参数对应, 即原函数。不知道为什么把参数中的随机事件 $\omega \in \Omega$ 省略了；
$Z_t = (\nabla_x u)(t, \xi + W_t) \in \mathbb{R}^d \tag{4.2}$
注: $Z_t$ 与式(1)的第4个参数对应；
$\Gamma_t = (\mathrm{Hess}_x u)(t, \xi + W_t) \in \mathbb{R}^{d \times d} \tag{5}$
注: $\Gamma_t$ 与式(1)的第5个参数对应；
$A_t = (\frac{\partial}{\partial t} \nabla_x u)(t, \xi + W_t) + \frac{1}{2} (\nabla_x \Delta_x u)(t, \xi + W_t) \in \mathbb{R}^d \tag{6}$

2.3 合并PDE与2BSDE

由式 (2)(3)，对于任意 $\leq \tau_1 \leq \tau_2 \leq T$ ,
$\begin{array}{ll}Y_{\tau_2} = & Y_{\tau_1} + \int_{\tau_1}^{\tau_2} \left(f(s, \xi + W_s, Y_s, Z_s, \Gamma_s) + \frac{1}{2} \rm{Trace}(\Gamma_s)\right)\rm{d} s\\ & + \int_{\tau_1}^{\tau_2} \langle Z_s, \rm{d} W_s \rangle_{\mathbb{R}^d} \end{array}\tag{7}$
和
$Z_{\tau_2} = Z_{\tau_1} + \int_{\tau_1}^{\tau_2} A_s \mathrm{d}s + \int_{\tau_1}^{\tau_2} \Gamma_s \mathrm{d} W_s \tag{8}$

问题：
- 为什么(2)式用了两个减号，而(7)式是两个加号？回答：把 $\tau_1$ 和 $\tau_2$ 直接代入(2)式，再相减，可得(7)式。
  将(5)(6)代入(7)(8)可得
  $\begin{array}{ll}Y_{\tau_2} = & Y_{\tau_1} + \int_{\tau_1}^{\tau_2} \langle Z_s, \mathrm{d} W_s \rangle_{\mathbb{R}^d}\\ & + \int_{\tau_1}^{\tau_2} \left(f(s, \xi + W_s, Y_s, Z_s, (\mathrm{Hess}_x u)(s, \xi + W_s)) + \frac{1}{2} \rm{Trace}\left((\mathrm{Hess}_x u)(s, \xi + W_s)\right)\right)\mathrm{d} s\end{array} \tag{9}$
  和
  $\begin{array}{ll}Z_{\tau_2} = & Z_{\tau_1} + \int_{\tau_1}^{\tau_2} \left((\frac{\partial}{\partial t} \nabla_x u)(s, \xi + W_s) + \frac{1}{2} (\nabla_x \Delta_x u)(s, \xi + W_s) \right) \mathrm{d}s \\& + \int_{\tau_1}^{\tau_2} (\mathrm{Hess}_x u)(s, \xi + W_s) \mathrm{d} W_s\end{array} \tag{10}$

附录A. 程序

输入:
- 函数 $f$ : 34–35 行
- 函数 $g$ : 38–39 行
- 居然没有 $d$ (它是常量)
输出:
- 预测值?
网络
- 单层: 54–68 行；
- 单时间片网络(2个隐藏层): 42–52行；
- 计算 Gamma (113行) 和 A (117行)的网络是分离的。
训练过程
- 网络网络训练: 155–171 行
关于总体结构
- 不同时间片的网络并未串联。从113和117行可以看出，网络的输入均为 $x$ (即 X)。但从 $x$ 的更新（118行）仅与 $\mathrm{d}W$ 有关，而 $\mathrm{d}W$ 是一个随机数（119行）。从这个角度来看，该算法没未用到"深度”网络。
- $Y$ 的更新（108行）与 $x$ 的更新（118行）是一个渐变（迭代）的过程，考虑了每次的布朗运动 ( $\mathrm{d}W$ )。
- 相比而言，函数 $g$ 的计算（125行）仅考虑了终止时间 ( $T$ 时刻) 的 $x$ 值。