DAS-PINNs A deep adaptive sampling method for solving high-dimensional partial differential equation

最新推荐文章于 2024-09-26 17:20:50 发布

xuelanghanbao

最新推荐文章于 2024-09-26 17:20:50 发布

阅读量370

点赞数 2

分类专栏：论文阅读文章标签：深度学习 python 论文阅读神经网络机器学习

本文链接：https://blog.csdn.net/qq_26157437/article/details/131272506

版权

论文阅读专栏收录该内容

31 篇文章 5 订阅

订阅专栏

该论文提出了一种名为DAS-PINNs的深度学习方法，用于解决高维偏微分方程的求解问题。它关注于通过加权采样减少统计误差，特别是通过使用KRnet来适应性地生成概率分布并进行采样。实验结果显示，这种方法在处理峰值、双峰和指数函数等案例时表现良好，有效地减少了误差并提高了求解精度。

摘要由CSDN通过智能技术生成

论文阅读：DAS-PINNs A deep adaptive sampling method for solving high-dimensional partial differential equations

DAS-PINNs A deep adaptive sampling method for solving high-dimensional partial differential equations
总结

)

DAS-PINNs A deep adaptive sampling method for solving high-dimensional partial differential equations

问题分析

误差来源

假设 $u(x,\Theta_N^*)$ 是网络在有限数据集上最小化 $J_N(u(x;\Theta))$ 所等取得的最好结果， $u(x,\Theta^*)$ 是网络最小化 $J(u(x;\Theta))$ 所等取得的最好结果，即
$\begin{gathered} u(\boldsymbol{x};\Theta^{*}) =\arg\min\limits_{\Theta}J(u(\boldsymbol{x};\Theta)), \\ {u(\boldsymbol{x};\Theta_{N}^{*})} =\arg\min\limits_{\Theta}J_N(u(x;\Theta)). \end{gathered}$
那么，易得：
$u(x;\Theta_N^*)-u(x)=u(x,\Theta_N^*)-u(x;\Theta^*)+u(x;\Theta^*)-u(x)$
也即：
$\mathbb{E}(\|u(\boldsymbol{x};\Theta_N^{\star})-u(\boldsymbol{x})\|_\Omega)\leq\mathbb{E}(\|u(\boldsymbol{x},\Theta_N^{\star})-u(x;\Theta^{\star})\|_\Omega)+\|u(\boldsymbol{x};\Theta^{\star})-u(\boldsymbol{x})\|_\Omega$

可以看到，网络的损失主要由两部分构成，一部分为逼近误差，另一部分为统计误差。逼近误差部分主要由网络的拟合能力决定；而统计误差则主要由训练点的选取决定。本文主要关注第二部分统计误差的减小。

误差分析

假设 $X\in\mathbb{R}^d$ , $Y\in\mathbb{R}$ 服从一个联合分布 $\rho_{X,Y}$ , 网络模型为 $\hat{Y}=m(X)$ ，要近似的目标函数为 $y = h (x)$ , 可得 $L^2$ 范数下最优模型为：
$m^*(\boldsymbol x)=\arg\min\limits_{m(\boldsymbol x)}\left[L(Y,\hat Y)=\int(y-m(\boldsymbol x))^2\rho_{X,Y}(\boldsymbol x,y)dxdy\right].$
但由于实际中只能获得离散的数据点作为训练集，于是离散后如下：
$m_{\mathbf{w^*}}(x)=\arg\min\limits_{m\mathbf{w}\in W}\left[L_N(Y,\hat{Y})=\frac{1}{N}\sum\limits_{i=1}^N(y^{(i)}-m_{\mathbf{w}}(x^{(i)}))^2\right]$
其中， $L_N$ 可以看做对 $L$ 的蒙特卡洛近似，下标 $w$ 表示模型的参数。

当 $\rho_{X,Y}(\boldsymbol{x},y)=\delta(y-h(\boldsymbol{x}))\rho(\boldsymbol{x})$ ，并且 $\in V$ 时，可以得到对函数的连续最小二乘逼近：
$m_V^*(\boldsymbol{x})=\arg\min\limits_{m(\boldsymbol{x})\in V}\left[L_V(Y,\hat{Y})=\int(m(\boldsymbol{x})-h(\boldsymbol{x}))^2\rho(\boldsymbol{x})dx\right]$
其中， $V$ 是一个线性空间。此时， $m^*_V(x)$ 就是 $h (x)$ 在空间 $V$ 中服从 $p (x)$ 加权 $L^2$ 范数意义下的最佳近似。

同样，离散后如下：
$m_{\hat{\boldsymbol{b}}^*}(x)=\arg\min\limits_{m_{\boldsymbol{b}}\subset V}\left[L_{V,N}(Y,\hat{Y})=\frac{1}{N}\sum\limits_{i=1}^N(m_{\boldsymbol{b}}(x^{(i)})-h(x^{(i)}))^2\right]$
随后可对其误差进行估计（详细推导请看原文）：
$\|m_{\hat{\vartheta}^*}(x)-h(\boldsymbol{x})\|_\rho\le C\sqrt{\frac{\ln\delta^{-1}}{N}}+\|m_V^*(x)-h(\boldsymbol{x})\|_\rho.$
右边第一项是由于随机样本导致的 $L_V$ 近似的统计误差，它的存在不依赖于 $V$ 的选择。当 $N$ 趋于无穷大时，统计误差趋于零，只剩下近似误差。也就是说，在将机器学习技术应用于函数逼近时，既要注意假设空间 $W$ ，又要注意随机样本 $\{x(i)\}^N_{i=1}$ 即训练集的选择，得到统计误差和近似误差之间的权衡。

对于低维问题，经典方法如有限元方法通过使用高斯求积规则来避免统计误差，这意味着由于统计误差的存在，机器学习技术通常不如经典方法有效。另一方面，对于高维问题，由于维数灾难，经典方法可能无法获得相对较小的近似误差，而机器学习技术可能通过使用能力更强的假设空间（例如神经网络）和足够的样本量，获得相对较小的统计误差。

假设 $\zeta=\int_\Omega1_I(\boldsymbol{x})d\boldsymbol{x}\approx\int_\Omega r^2(\boldsymbol{x})dx\ll1$ ，并且 $|\Omega| = 1$ ,，考虑使用如下蒙特卡洛来对积分进行近似：
$\hat{P}_{\text{MC}}=\frac{1}{N}\sum\limits_{i=1}^N1_I(\boldsymbol{x}^{(i)}).$
于是可以得到误差估计如下：
$\frac{\operatorname{Var}^{1/2}(\hat{P_{\text{MC}})}}{\zeta}=N^{-1/2}((1-\zeta)/\zeta)^{1/2}\approx(\zeta N)^{-1/2}$
从上式可以看出，为了获得 $O (1)$ 的相对误差，需要 $O(1/\zeta)$ 的样本点数量。因此，在高维问题上，需要更有效的采样方法。

解决方法

加权

蒙特卡洛近似的误差主要来自于残差分布剧烈变化的区域，那么一个自然的想法就是，让残差始终保持均匀，也即，是残差的方差保持在比较小的状态。

为方便起见，考虑如下残差：
$J_{r}\left(u(x;\Theta)\right)=\mathbb{E}[r^{2}]=\int_{\Omega}r^{2}(x;\Theta)dx=\int_{\Omega}\frac{r^{2}(x;\Theta)}{p(x)}p(x)dx\approx\frac{1}{N_{r}}\sum_{i=1}^{N_{r}},\frac{r^{2}(x_{1}^{(i)};\Theta)}{p(x_{\Omega}^{(i)})}$
其中，点集由概率密度函数 $p (x)$ 生成。如果由 $p (x)$ 生成的 $r^2(X)p^{-1}(X)$ 的方差，比均匀分布产生的 $r^2(X)$ 更小的话，那么就可以实现减小统计误差的效果。而这个概率密度函数的最优选择自然是 $p^*(x)=\frac{r^2(x;\Theta)}{\mu}$ ，其中 $\mu=\int_{\Omega}r^{2}(\boldsymbol{x};\Theta)d\boldsymbol{x}$ 。也即， $p (x)$ 就是由残差诱导的概率分布。

KRnet

但是，要如何获得这个概率分布，并从中采样是一个问题。

在这里，作者使用了KRnet来生成概率分布并进行采样。KRnet是一种归一化流，其特点是具有可逆的性质。利用KRnet，将输入分布映射到一个先验分布如：高斯分布或均匀分布。当需要采样时，只需要在先验分布上采样，随后利用KRnet逆运算，将采样点映射回输入分布就可得到按输入分布采样的结果。

更多关于KRnet的资料：

[2103.11181] Adaptive deep density approximation for Fokker-Planck equations (arxiv.org)

根据上述描述，不难看出，KRnet的loss函数可以设计为：
$H(\hat{r_X},\hat{p}_{\mathrm{KRnet}})\approx-\frac{1}{N_r}\sum_{i=1}^{N_r}\frac{\hat{r_X}(x_B^{(i)})}{\hat{p}_{\mathrm{KRnet}}(x_B^{(i)};\hat{\Theta}_f)}\log\hat{p}_{\mathrm{KRnet}}(x_B^{(i)};\Theta_f)$
也即，KRnet分布和残差诱导分布的KL散度。

而PINN的loss函数为：
$J_N^{\mathrm{lS}}(u(x;\Theta))=\frac{1}{N_r}\sum_{i=1}^{N_r}\frac{r^2(x_{\Omega,k}^{(i)};\Theta)}{\hat{p}\text{kRet}(x_{\Omega,k}^{(i)};\Theta_{f}^{*(k)})}+\frac{1}{N_b}\sum_{i=1}^{N_b}b^2(x_{\partial\Omega,k}^{(i)};\Theta)$

完整算法

还有每次增加部分点的，但我认为两种方法差别不大，就不再展示，感兴趣可以阅读原文。

实验结果

作者在Peak、Bimodal和Exponential三个用例上进行了测试。

Peak

$\begin{aligned} -\Delta u(x)&=s(x)\quad \mathrm{in} \Omega ,\\ u(x)&=g(x)\quad \mathrm{on} \partial \Omega\\ \end{aligned}$

其中， $x=[x_1,x_2]^{\mathrm{T}}$ , $\Omega =[-1,1]^2$ ，真解为：
$u(x_1,x_2)=\exp \left( -1000[(x_1-0.5)^2+(x_2-0.5)^2] \right)$

在这里插入图片描述

Bimodal

$\begin{aligned} -\nabla \cdot [u(x)\nabla v(x)]&+\nabla ^2u(x)=s(x)\quad \mathrm{in} \Omega ,\\ u(x)&=g(x)\quad \mathrm{on} \partial \Omega\\ \end{aligned}$

其中， $x=[x_1,x_2]^{\mathrm{T}}$ ， $v(x)=x_{1}^{2}+x_{2}^{2}$ ， $\Omega =[-1,1]^2$ ，真解为：
$u(x_1,x_2)=\mathrm{e}^{-1000[(x_1-0.5)^2+(x_2-0.5)^2]}+\mathrm{e}^{-1000[(x_1+0.5)^2+(x_2+0.5)^2]}$