论文阅读:DMIS Dynamic Mesh-Based Importance Sampling for Training Physics-Informed Neural Networks
DMIS Dynamic Mesh-Based Importance Sampling for Training Physics-Informed Neural Networks
PINN
PINN 通过拟合以下 PDE 的潜在解
u
(
t
,
x
)
u(t,\boldsymbol{x})
u(t,x) 来学习近似解
u
^
(
t
,
x
;
θ
)
\hat{u}(t,x;\boldsymbol{\theta})
u^(t,x;θ)
KaTeX parse error: Got function '\boldsymbol' with no arguments as subscript at position 61: …t}+\mathcal{N}_\̲b̲o̲l̲d̲s̲y̲m̲b̲o̲l̲{x}[u]=0,\bolds…
其中
θ
\boldsymbol{\theta}
θ 是PINN的可学习参数,KaTeX parse error: Got function '\boldsymbol' with no arguments as subscript at position 13: \mathcal{N}_\̲b̲o̲l̲d̲s̲y̲m̲b̲o̲l̲{x} 表示由空间导数组成的微分算子,
u
0
(
x
)
u_0(x)
u0(x)是初始条件,
g
(
x
)
g(x)
g(x) 是边界条件,
x
x
x 是
D
D
D 维位置向量,
Ω
\Omega
Ω 是
R
D
\mathbb{R}^{D}
RD 的子集,其边界为
∂
Ω
\partial\Omega
∂Ω 。为了后续讨论方便,将时间
t
t
t 和空间向量
x
x
x 组成的输入向量记为
x
x
x。 PINN 的优化目标是在满足边界条件和初始条件的约束下最小化偏微分方程的残差:
θ
∗
=
arg
min
θ
r
f
(
θ
)
s
.
t
.
r
i
(
θ
)
=
0
,
r
b
(
θ
)
=
0
\begin{aligned} \boldsymbol{\theta}^*=\arg\min_{\boldsymbol{\theta}}r_f(\boldsymbol{\theta}) \\ s.t.r_{\boldsymbol{i}}(\boldsymbol{\theta})=0,r_{\boldsymbol{b}}(\boldsymbol{\theta})=0 \end{aligned}
θ∗=argθminrf(θ)s.t.ri(θ)=0,rb(θ)=0
其中
r
f
(
θ
)
、
r
i
(
θ
)
r_f(\boldsymbol{\theta})、r_{\boldsymbol{i}}(\boldsymbol{\theta})
rf(θ)、ri(θ) 和
r
b
(
θ
)
r_{\boldsymbol{b}}(\boldsymbol{\theta})
rb(θ) 分别是偏微分方程、初始条件和边界条件的残差。当然,由于上式很难求解,因此 PINN 通常将约束视为惩罚项,并将约束优化问题转化为无约束优化问题:
θ
∗
=
arg
min
θ
r
f
(
θ
)
+
λ
1
r
i
(
θ
)
+
λ
2
r
b
(
θ
)
\theta^*=\arg\min_{\boldsymbol{\theta}}r_f(\boldsymbol{\theta})+\lambda_1r_i(\boldsymbol{\theta})+\lambda_2r_b(\boldsymbol{\theta})
θ∗=argθminrf(θ)+λ1ri(θ)+λ2rb(θ)
其中
λ
1
\lambda_1
λ1 和
λ
2
\lambda_2
λ2 是权重。 PINN 的常见做法是通过蒙特卡罗近似来拟合
θ
\boldsymbol{\theta}
θ。当然,也可以写成如下形式:
θ
∗
≈
arg
min
θ
L
f
+
λ
1
L
i
+
λ
2
L
b
\theta^*\approx\arg\min_{\boldsymbol{\theta}}\mathcal{L}_f+\lambda_1\mathcal{L}_i+\lambda_2\mathcal{L}_b\
θ∗≈argθminLf+λ1Li+λ2Lb
PINN从时空域统一生成搭配点,并采用小批量随机梯度下降法(SGD)来优化参数。关注有助于参数优化的数据点是一种更有效的采样策略。蒙特卡罗近似提供了数学工具(称为重要性抽样)来设计这种抽样方法。
重要性采样方法
PDE 残差、初始条件和边界条件的数据集分别用
N
f
N_f
Nf 、
N
i
N_i
Ni 和
N
b
N_b
Nb 表示。一般来说,mini-bitches分别从
N
f
N_f
Nf 、
N
i
N_i
Ni 和
N
b
N_b
Nb 中均匀采样。根据蒙特卡洛近似,可以引入更高效的采样方法。由于边界条件和初始条件是惩罚项,因此本文只在
N
f
N_f
Nf 的采样中引入重要性采样。 PDE残差
L
f
L_f
Lf结合重要性采样的损失如下所示:
L
f
=
1
∣
N
f
∣
∑
i
=
1
∣
N
f
∣
α
i
ℓ
f
(
x
i
;
θ
)
,
α
i
=
p
i
q
i
\mathcal{L}_f=\frac1{|N_f|}\sum_{i=1}^{|N_f|}\alpha_i\ell_f(\mathrm{x}_i;\boldsymbol{\theta}),\mathrm{~}\alpha_i=\frac{p_i}{q_i}
Lf=∣Nf∣1i=1∑∣Nf∣αiℓf(xi;θ), αi=qipi
其中
∣
N
f
∣
|N_f|
∣Nf∣ 是
N
f
N_f
Nf 的大小,
ℓ
f
\ell _f
ℓf 是每个数据点的偏微分方程残差,
α
i
、
p
i
\alpha_i、p_i
αi、pi 和
q
i
q_i
qi 分别是数据点
x
i
x_i
xi 的样本权重、采样概率和替代采样概率。考虑到小批量通常是通过均匀采样获得的,当
p
i
p_i
pi 等于
1
∣
N
f
∣
\frac1{|N_f|}
∣Nf∣1 时,对于
i
∈
{
1
,
2
,
⋅
⋅
⋅
,
∣
N
f
∣
}
i \in \{1, 2, · · · , |N_f |\}
i∈{1,2,⋅⋅⋅,∣Nf∣} 时的
α
i
\alpha_i
αi 的计算如下:
α
i
=
1
∣
N
f
∣
q
i
,
i
∈
{
1
,
2
,
⋯
,
∣
N
f
∣
}
\alpha_i=\frac1{|N_f|q_i},\mathrm{~}i\in\{1,2,\cdots,|N_f|\}
αi=∣Nf∣qi1, i∈{1,2,⋯,∣Nf∣}
重要性采样的关键问题是确定
i
∈
{
1
,
2
,
⋅
⋅
⋅
,
∣
N
f
∣
}
i \in \{1, 2, · · · , |N_f |\}
i∈{1,2,⋅⋅⋅,∣Nf∣} 的
q
i
q_i
qi,希望找到最佳的替代采样分布,使收敛速度最快。假设收敛率定义为:
C
(
t
)
=
−
E
f
[
∥
θ
(
t
+
1
)
−
θ
∗
∥
2
2
−
∥
θ
(
t
)
−
θ
∗
∥
2
2
]
C^{(t)}=-\mathbb{E}_f[\|\theta^{(t+1)}-\theta^*\|_2^2-\|\theta^{(t)}-\theta^*\|_2^2]
C(t)=−Ef[∥θ(t+1)−θ∗∥22−∥θ(t)−θ∗∥22]
其中
C
(
t
)
C^{(t)}
C(t) 是步骤
t
t
t的收敛速度,
θ
(
t
)
θ^{(t)}
θ(t) 和
θ
(
t
+
1
)
θ^{(t+1)}
θ(t+1) 分别是步骤
t
t
t和
t
+
1
t+1
t+1的参数。
赵和张(Stochastic Optimization with Importance Sampling for Regularized Loss Minimization)证明了搭配点的最佳采样概率由
q
∗
∝
∥
∇
θ
ℓ
f
(
x
,
θ
)
∥
2
q^{*}\propto\|\nabla_{\boldsymbol{\theta}}\ell_{f}(\mathrm{x},\boldsymbol{\theta})\|_{2}
q∗∝∥∇θℓf(x,θ)∥2 决定。然而,这种理论上最优采样方法的计算成本是不可接受的,需要寻找替代方法。受 Katharopoulos 和 Fleuret (Biased Importance Sampling for Deep Neural Network Training) 的启发,DMIS 采用了理论最优公式的近似计算。
q
i
(
t
)
=
ℓ
f
(
x
i
,
θ
(
t
)
)
∑
j
=
1
N
f
ℓ
f
(
x
j
,
θ
(
t
)
)
,
i
∈
{
1
,
2
,
⋯
,
∣
N
f
∣
}
q_i^{(t)}=\frac{\ell_f(\mathrm{x}_i,\boldsymbol{\theta}^{(t)})}{\sum_{j=1}^{N_f}\ell_f(\mathrm{x}_j,\boldsymbol{\theta}^{(t)})},\quad i\in\{1,2,\cdots,|N_f|\}
qi(t)=∑j=1Nfℓf(xj,θ(t))ℓf(xi,θ(t)),i∈{1,2,⋯,∣Nf∣}
其中
q
i
(
t
)
q^{(t)}_i
qi(t) 是
x
i
x_i
xi 在步骤
t
t
t 的采样概率。 Katharopoulos 和 Fleuret (2017) 还证明,上述方程不会改变采样概率的顺序,即
∀
i
,
j
∈
{
1
,
2
,
⋯
,
∣
N
f
∣
}
\forall i,j\in\{1,2,\cdots,|N_f|\}
∀i,j∈{1,2,⋯,∣Nf∣},若
q
i
∗
<
q
j
∗
q_i^*<q_j^*
qi∗<qj∗ ,则可得
q
i
(
t
)
<
q
j
(
t
)
q_i^{(t)}<q_j^{(t)}
qi(t)<qj(t) 。因此,上式是一个合理的近似。然而,作者发现通过上式计算的样本权重会导致初始阶段训练不稳定。这个问题是由高损失的数据点引起的,这会导致局部梯度急剧变化。为了解决这个问题,作者引入了一个超参数
β
\beta
β 来调整
α
\alpha
α。当
β
>
1
\beta > 1
β>1 时,对损失较高的数据点施加更大的惩罚,结果表示为
α
′
\alpha ^\prime
α′:
α
i
′
=
(
1
∣
N
f
∣
q
i
)
β
,
β
∈
[
1
,
+
∞
)
,
i
∈
{
1
,
2
,
⋯
,
∣
N
f
∣
}
\alpha_i^{\prime}=(\frac1{|N_f|q_i})^\beta,\mathrm{~}\beta\in[1,+\infty),\mathrm{~}i\in\{1,2,\cdots,|N_f|\}
αi′=(∣Nf∣qi1)β, β∈[1,+∞), i∈{1,2,⋯,∣Nf∣}
由于上式减少了每个数据点的计算成本,但仍然需要逐点计算采样概率,这对于求解复杂的偏微分方程来说是一个巨大的负担。为了进一步降低计算成本,作者提出了基于动态网格的权重估计(DMWE),通过插值来计算样本权重。
在DMWE中,采用基于Delaunay三角测量的插值。具体来说,可以从
N
f
N_f
Nf 动态生成子集
S
S
S 来构造三角形网格。 DMWE仅精确计算S中点的样本权重,其他点的权重通过插值得到。
S
S
S 根据下式生成:
g
i
(
t
)
∝
∥
q
i
(
t
)
−
q
i
(
t
−
1
)
∥
,
i
∈
{
1
,
2
,
⋯
,
∣
N
f
∣
}
g_i^{(t)}\propto\|q_i^{(t)}-q_i^{(t-1)}\|,\mathrm{~}i\in\{1,2,\cdots,|N_f|\}
gi(t)∝∥qi(t)−qi(t−1)∥, i∈{1,2,⋯,∣Nf∣}
其中
g
i
(
t
)
g^{(t)}_i
gi(t) 是第
t
t
t 步中点
x
i
x_i
xi 的选择概率。上式减少了非活动区域中的网格点数量,以降低计算成本。同时,上式也保证了有源区域的高精度插值。
同时,由于基于Delaunay的插值法非常耗时,而且也没有必要在每次迭代步骤中更新三角网格。因此,作者引入基于余弦相似度的评估方法来决定是否重新选择
S
S
S 并重建三角网格。
S
i
m
(
v
(
t
0
)
,
v
(
t
)
)
=
v
(
t
0
)
⋅
v
(
t
)
∥
v
(
t
0
)
∥
⋅
∥
v
(
t
)
∥
\mathrm{Sim}(v^{(t_0)},v^{(t)})=\frac{v^{(t_0)}\cdot v^{(t)}}{\|v^{(t_0)}\|\cdot\|v^{(t)}\|}
Sim(v(t0),v(t))=∥v(t0)∥⋅∥v(t)∥v(t0)⋅v(t)
其中
v
(
t
0
)
v^{(t0)}
v(t0)和
v
(
t
)
v^{(t)}
v(t) 分别是由
S
S
S 中数据点在步骤
t
0
t_0
t0 和步骤
t
t
t 的样本权重组成的向量。如果余弦相似度小于阈值
γ
\gamma
γ,则从
N
f
N_f
Nf 中重新选择
S
S
S ,并更新网格。
实验结果
对比实验
作者在Schr̈odinger方程、Viscous Burgers方程和Korteweg-de Vries方程上对PINN、RAD、xPINN、cPINN以及使用了DMIS采样方法的PINN、xPINN、cPINN进行了比较。
上表是三个问题的超参数设置。
上表是不同方法的结果对比。
上图为Schr̈odinger方程上的实验结果。
上图为Burgers’方程上的实验结果。
消融实验
上表为DMIS与仅使用重要性采样方法的结果对比。
上表为对超参数进行的实验。
总结
本文针对重要性采样方法,提出了基于动态网格的权重估计(DMWE),通过插值来计算样本权重。
Nabian(2021)的文章首次提出加权采样的重要性,后面也不乏RAR、DAS等方法,所以这篇文章的主要贡献还是在DMWE上吧。感觉这篇文章就是纯粹的工程方面吧,可以看做是插值方法在残差权重估计上的应用,对于PINN方面并没有带来什么新的认识或见解。在实验的时候只有PINN-N是使用了重要性采样的,说实话,感觉有点不道德了,其他方法带来的提升可能大部分要归功于使用了重要性采样而不是本文方法。考虑到作者在文中明确表示了本方法的目的之一是降低计算成本,那么如果能与其他重要性采样方法对比一下达到同样精度所需的时间开销和采样点数,这篇文章或许会更有趣些。
相关链接:
- 原文:DMIS: Dynamic Mesh-Based Importance Sampling for Training Physics-Informed Neural Networks | Proceedings of the AAAI Conference on Artificial Intelligence
- 原文代码:MatrixBrain/DMIS: Official code for “DMIS: Dynamic Mesh-based Importance Sampling for Training Physics-Informed Neural Networks” (AAAI 2023) (github.com)