Is $L^2$ Physics-Informed Loss Always Suitable for Training Physics-Informed Neural Network

最新推荐文章于 2024-07-17 10:32:13 发布

xuelanghanbao

最新推荐文章于 2024-07-17 10:32:13 发布

阅读量136

点赞数

分类专栏：论文阅读文章标签：深度学习论文阅读 python 机器学习神经网络

本文链接：https://blog.csdn.net/qq_26157437/article/details/131317984

版权

论文阅读专栏收录该内容

31 篇文章 4 订阅

订阅专栏

论文阅读：Is $L^2$ Physics-Informed Loss Always Suitable for Training Physics-Informed Neural Network

Is $L^2$ Physics-Informed Loss Always Suitable for Training Physics-Informed Neural Network
总结

Is $L^2$ Physics-Informed Loss Always Suitable for Training Physics-Informed Neural Network

问题分析

稳定性

在神经网络的训练过程中，当且仅当损失项 $\ell_{\Omega,p}(u)$ 和 $\ell_{\partial\Omega,p}(u)$ 均为零时， $u (x)$ 才是 PDE 的精确解。然而，在实践中，由于优化过程的随机性或神经网络的表达能力，通常只能获得很小但非零的损失值。在这种情况下，自然会出现一个问题：具有较小损失的学习结果 $u (x)$ 是否对应于精确解 $u * (x)$ 的良好逼近？这种性质与 PDE 中的稳定性高度相关。

假设 $Z_1、Z_2、Z_3$ 是三个 Banach 空间。如果当 $\lVert\bar{\mathcal{L}u}(x)-\dot{\varphi}(x)\rVert_{Z_1},\lVert\mathcal{B}u(x)-\bar{\psi}(x)\rVert_{Z_2}\to0.$ 时，对任意 $u$ 存在 $\|u^*(x)-u(x)\|_{Z_3}=O(\|\mathcal{L}u(x)-\varphi(x)\|_{Z_1}+\|\mathcal{B}u(x)-\psi(x)\|_{Z_2})$ ，则认为PDE 定义为是 $Z_1, Z_2, Z_3)$ -稳定的。

通过上述定义可以看出，如果一个PDE是 $(L^2(\Omega),L^2(\partial\Omega),Z)$ -稳定的，那么就可以使用 $L^2$ 范数来最小化物理信息损失 $;\|\mathcal{L}u(x)-\varphi(x)\|_{L^{2}(\Omega)}^{2}$ 和 $\|\mathring{\mathcal{B}}u(x)-\psi(x)\|_{L^{2}(\partial\Omega)}^{2}$ 并且，当损失趋近于零时，结果必然是精确解。

但是，这种稳定性并不广泛存在于PDE中，有很多不稳定的方程，比如：逆热方程。同时，即使方程是稳定的，也不一定是 $(L^2(\Omega),L^2(\partial\Omega),Z)$ -稳定的。比如一些实际的高维HJB方程是稳定的，但不是 $(L^2(\Omega),L^2(\partial\Omega),Z)$ -稳定的，使用 $L^2$ 范数将无法在实践中找到近似解。

以一类HJB方程为例，其成本率函数为： $r(x,m)=a_1|m_1|^{\alpha_1}+\cdots+a_n|m_n|^{\alpha_n}-\varphi(x,t).$ 对应的 Hamilton-Jacobi-Bellman 方程可以改写为：
$\begin{cases}\mathcal{L}_{HJB}u:=\partial_t u(x,t)+\frac{1}{2}\sigma^2\Delta u(x,t)-\sum\limits_{i=1}^n A_i|\partial_{x_i}u|^{c_i}=\varphi(x,t)&(x,t)\in\mathbb{R}^n\times[0,T]\\ \mathcal{B}_{HJB}u:=u(x,T)=g(x)\quad&x\in\mathbb{R}^n\end{cases},$

其中， $A_i=(a_i\alpha_i)^{-\frac{1}{\alpha_i-1}}-a_i(a_i\alpha_i)^{-\frac{\alpha_i}{\alpha_i-1}}\in(0,+\infty)$ ， $c_i=\frac{\alpha_i}{\alpha_i-1}\in(1,\infty)$ . 对于函数 $f:X\to\mathbb{R}$ ,其中 $X$ 是一个可测空间，用 $\text{supp} f$ 表示 $f$ 的支集，即 $\{x\in X:f(x)\neq0\}$ 的闭包。

Sobolev 空间

分析 PDE 的一个重要概念是 Sobolev 空间，其定义如下：

对于 $m\in\mathbb{N},p\in[1,+\infty)$ 和一个开集 $\Omega \subset \mathbb{R}^n$ , Sobolev 空间 $W^{m,p}(\Omega)$ 定义为 $\{f(x)\in L^p(\Omega):D^\alpha f\in L^p(\Omega),\forall\alpha\in\mathbb{N}^n,|\alpha|\le m\}$ . 函数空间 $W^{m,p}(\Omega)$ 具备 Sobolev 范数：
$\begin{aligned} & \\ &\|f\|_{W^{m,p}(\Omega)}& =\left(\sum\limits_{|\alpha|\leq m}\|D^\alpha f\|_{L^p(\Omega)}^p\right)^\frac{1}{p}. \end{aligned}$
上述定义同样适用于时空域上的函数 $\subseteq \mathbb{R}^n \times [0,T]$ ,稍微更改符号即可得到 $:W^{m,p}(Q)\stackrel{.}{=}\{f(x,t)\in L^{p}(Q)\stackrel{.}{:}{{D}}^{\alpha}f\in L^p(Q),\forall\alpha\in\mathbb{N}^n,|\alpha|\leq m\}$

其中， $D^\alpha$ 仅对空间变量 $x$ 进行运算。范数 $\|\cdot\|_{W^{m,p}(Q)}$ 也可以类似进行定义。

HJB方程的稳定性

值函数 u(x, t) 是以下偏微分方程的唯一解，称为 Hamilton-Jacobi-Bellman 方程：
$\begin{cases}\partial_t u(x,t)+\frac{1}{2}\sigma^2\Delta u(x,t)+\min\limits_{m\in\mathcal{M}}[r(x,m(t,x),t)+\nabla u\cdot m_t]=0\\ u(x,T)=g(x).\end{cases}$
其中 $\mathcal{M}$ 表示一组可能的控制函数。

对于 $\ge 1$ 令 $r_0= \frac {(n+2)q} {n+q}$ ，假设下述不等式对 $p, q$ 以及 $r_0$ 成立：
$p\ge\max\left\{2,\left(1-\frac{1}{\bar{c}}\right)n\right\};q>\frac{(\bar{c}-1)n^2}{(2-\bar{c})n+2};\frac{1}{r_0}\ge\frac{1}{p}-\frac{1}{n}$
其中 $\bar c= \max\limits_{1\leq i\leq n}c_i $ ,于是，对于任意的 $\in [1,r_0)$ 以及任何有界开集 $\subseteq \mathbb{R}^n \times [0,T]$ ，上述公式就是 $(L^p(\mathbb{R}n\times[0,T]),L^q(\mathbb{R}n),W^{1,r}(Q)) $ -稳定的，对于 $\bar{c}\leq2.$

上述证明指出，当 $\Omega (n)$ 时，上文提到的HJB方程是 $L^p,L^q,W^{1,r})$ -稳定的

因此，当状态函数 n 的维数很大时，如果 p 和 q 很小，则上文中提到的 HJB 方程是 $L^p,L^q,W^{1,r})$ -不稳定的。此外，由于根据定义 $L^{r}{=}W^{0,r}$ ，这也意味着上文中提到的 HJB 方程甚至不是 $L^p,L^q,L^r)$ -稳定的。因此，对于高维 HJB 问题，如果使用经典的 $L^2$ 物理信息损失来训练 PINN，即使损失非常小，学习到的解也可能与 $u^*$ 相距任意远。

解决方法

上述结果表明，我们应该在损失项 $\ell_{\Omega,p}(u)$ 和 $\ell_{\partial\Omega,p}(u)$ 中使用较大的 $p$ 和 $q$ 值，以保证对于高维 HJB 的近似解 $u$ 足够接近 $u^∗$ 。由于当 $p$ 很大时， $L^p$ 范数和 $L^\infty$ 范数的行为相似。因此可以用 $L^\infty$ 范数代替 $L^p$ 范数，直接优化 $\ell_{\Omega,\infty}(u)$ 和 $\ell_{\partial\Omega,\infty}(u)$ 。总的来说，训练目标可以表述为：
$\min\limits_{u}\ell_{\infty}(u)=\sup\limits_{x\in\Omega}|\mathcal{L}u(x)-\varphi(x)|+\lambda\sup\limits_{x\in\partial\Omega}|\mathcal{B}u(x)-\psi(x)|$
上式可以看作是一个最小-最大优化问题。内环是一个最大化问题，用于在 $\Omega$ 和 $\partial\Omega$ 上找到 $u$ 最违反 PDE 的数据点，外环是一个最小化问题，用于找到 $u$ （即神经网络参数），使这些点上的损失最小化。

在深度学习中，这种最小-最大优化问题得到了深入研究，而对抗训练是许多应用中最有效的学习方法之一。本文利用对抗性训练实现。在每个训练步骤中，模型参数和数据点都会迭代更新。首先固定模型 $u$ 并随机采样数据点 $x^{(1)},\dots,x^{(N_1)} \in \Omega$ 和 $x^{(1)},\dots,x^{(N_2)} \in \partial \Omega$ ，作为随机内循环优化的初始化。然后执行基于梯度的方法来获得具有大的逐点物理信息损失的数据点，内循环更新规则如下：
$\begin{gathered} x^{(k)} \leftarrow\operatorname{Project}_{\Omega}\left(x^{(k)}+\eta\operatorname{sign}\nabla_{x}\left({\cal L}u_{\theta}(x^{(k)})-\varphi(x^{(k)})\right)^{2}\right) \\ \tilde{x}^{(k)} \leftarrow\operatorname{Project}_{\partial\Omega}\left(\tilde{x}^{(k)}+\eta\operatorname{sign}\nabla_x\left(\mathcal{B}u_\theta(\tilde{x}^{(k)})-\psi(\tilde{x}^{(k)})\right)^2\right) \end{gathered}$
其中 $\operatorname{Project}_{\Omega}$ 和 $\operatorname{Project}_{\partial\Omega}$ 用于将点投影到域内。当内循环结束后，就固定生成的数据点并计算梯度更新参数：
$g\leftarrow\nabla_\theta\left(\frac{1}{N_1}\sum_{i=1}^{N_1}\left(\mathcal{L}u_\theta(x^{(i)})-\varphi (x^{(i)})\right)^2+\lambda\cdot\frac{1}{N_2}\sum_{i=1}^{N_2}\left(\mathcal{B}u_\theta(\tilde{x}^{(i)})-\psi(\tilde{x}^{(i)})\right)^2\right)$

完整算法

在这里插入图片描述

实验结果

作者在高维线性二次高斯控制问题上进行了试验，并作了消融实验。

高维线性二次高斯控制问题

HJB方程：
$\begin{cases}\partial_t u(x,t)+\Delta u(x,t)-\mu\|\nabla_x u(x,t)\|^2=0&x\in\mathbb{R}^n,t\in[0,T]\\ u(x,T)=g(x)&x\in\mathbb{R}^n,\end{cases}$
精确解为：
$u(x,t)=-\frac{1}{\mu}\ln\left(\int_{\mathbb{R}^n}(2\pi)^{-n/2}\mathrm{e}^{-\|y\|^2/2}\cdot\mathrm{e}^{-\mu g(x-\sqrt{2(T-t)}y)}\mathrm{d}y\right)$
其中， $\mu =1, T=1$ , 成本函数为 $g(x)=\ln\left(\frac{1+\|x\|^2}{2}\right)$

在这里插入图片描述

左侧为精确解 $u^∗$ ；中间为 $L^2$ 损失的原始 PINN 方法和本文的对抗训练方法的学习解 $u$ ；右侧为逐点绝对误差 $u − u^∗|$ 。由于原方程是一个高维函数，因此这里显示的是其二维域上的可视化。具体来说，就是将函数 $u(x_1,x_2,0,\cdots,0;0)$ 中 $x_1, x_2 \in [0, 1]$ 这两个变量可视化，其中水平轴和垂直轴分别对应于 $x_1$ 和 $x_2$ 。