A Unified Scalable Framework for Causal Sweeping Strategies for Physics-Informed Neural Networks

最新推荐文章于 2024-08-20 17:20:20 发布

xuelanghanbao

最新推荐文章于 2024-08-20 17:20:20 发布

阅读量292

点赞数 1

分类专栏：论文阅读文章标签：深度学习 python 论文阅读神经网络机器学习

本文链接：https://blog.csdn.net/qq_26157437/article/details/132308521

版权

论文阅读专栏收录该内容

31 篇文章 5 订阅

订阅专栏

论文阅读：A Unified Scalable Framework for Causal Sweeping Strategies for Physics-Informed Neural Networks and Their Temporal Decompositions

A Unified Scalable Framework for Causal Sweeping Strategies for Physics-Informed Neural Networks (Pinns) and Their Temporal Decompositions
总结

A Unified Scalable Framework for Causal Sweeping Strategies for Physics-Informed Neural Networks (Pinns) and Their Temporal Decompositions

目前的一些挑战

零解：
- 使用长时间对流问题可以重现零解模式，该问题将时域扩展到 $T = [0, 5]$ ，如图 2 (A) 所示。剩余搭配点的数量按比例增加，以免影响结果。在给定周期性条件的情况下，由于稍后的时间域内没有信息，这会导致 PINN 收敛到零解。出现这种挑战是因为零解最大限度地减少了由于偏微分方程残差仅包含导数项（即任何常数函数都位于算子的零空间中）造成的损失。可以看到，初始条件是唯一的信息源，沿着其特征曲线的方向传播。然而，由于周期性条件，信息在“完成”之前必须传播很远，即到达某个终点，例如狄利克雷边界条件或时域的终点。当这种情况发生时，解依然有可以改进的空间，但在此之前，信息传播必须克服零解，即网络会抵制从初始条件引入信息。
无传播：
- 通过在图 2 (B) 所示的对流问题中使用很少的残差点，可以重现该问题。在图 2 (B) 中，使用了 2, 500 个搭配点，而在本文的其余部分中，使用了 10, 000 个搭配点用于时域中每个无量纲长度。当使用更多的点时，可以使用标准 PINN 一致地解决这个问题。因此，将此训练挑战分类为初始条件特征突然停止时明显无法传播任何信息，表明点密度太小。 Mitigating Propagation Failures in Physics-informed Neural Networks using Retain-Resample-Release中更详细地研究了通过增加和自适应采样来克服这一挑战。这允许在该领域的其余部分中流行一个恒定的解决方案。
错误传播：
- 无论标准模型调整如何，通过尝试使用 PINN 解决 Allen-Cahn 问题都可以重现错误传播，如图 2 © 所示。当需要强有力地执行因果关系时，例如在 Respecting causality is all you need for training physics-informed neural networks 中所示的混沌问题中，就会出现这种挑战，并且如果不执行因果关系，PINN 就会收敛到错误的解决方案。它与零解决方案挑战不同，它可以快速找到解决方案，但不是正确的解决方案。

在这里插入图片描述

Unified Causality-enforcing Framework

为了解决这些分解挑战并统一以前的因果策略，作者提出了两种新方法来涵盖表 2 中所示的因果关系执行的所有方面。结合起来，这两种方法对时间片和采样规模都施加了软和硬约束。作者还介绍了改进时间分解的方法，例如迁移学习

在这里插入图片描述

堆叠分解

如上图所示，堆叠分解有两个参数： $n$ 和 $d S$ 。然后根据每个问题的总时域和分区数 $n$ 推断出子域在时间上的长度。当 $d S = 1$ 时，堆叠分解相当于时间步进。当 $d S = n$ 且 XPINN 连接条件和训练开始时所有域均处于活动状态的情况，堆叠分解相当于传统的 XPINN 方法。本文定义的另一个术语是因果 $d S$ ：它描述 $d S$ 表示的网络数量是否应该在开始时全部可训练，或者是否使用预热程序（从 1 开始并增加到 $d S$ ）。当与 $d S = n$ 一起使用时，作者将该模型称为“因果 XPINN”。在此配置中，当先前的时间片达到收敛时，会添加后面的时间片，并且整个子网络集继续训练。添加所有子网后，因果 XPINN 将达到标准 XPINN 配置。然而，由于热身过程，它避免了之前所述的训练挑战。这是因为未来的网络仅在前一个时间片中的信息传播到子域中的最终时间后才添加，因此未来的网络不会收敛至零解。 XPINN 的主要优点是它们可以并行化，因此可以处理大规模问题。在这方面，当子网络被添加到因果 XPINN 中时，它们可以并行化，不会带来任何限制或成本。这与时间推进形成鲜明对比，时间推进中所有先前的网络必须完成训练并按顺序运行。因此，堆叠分解可以描述一个理想的中间立场，可以从时间推进的因果关系中受益，以避免可能的训练困难和 XPINN 的并行训练。该方法还描述了当 $1 < d S < n$ 时的一组新模型，这对于具有时程效应的大规模问题可能很有用，在这种问题中，一次性训练整个域的成本很高，但先前域中的信息仍然有用。将来，将考虑先验或训练期间确定 $n$ 的自适应方法，因为时间尺度相关性或局部复杂性可能随时间变化。

在这里插入图片描述

连接条件：
- 为了弥合时间分解策略之间的差距，必须解释损失项中连接条件的差异。时间推进方案使用前一个时间片的最终时间预测作为下一个时间片的初始条件。对于一阶时间问题，这个条件相当于由下式给出的解连续性。
  $\mathcal{L}_i(\boldsymbol{\theta}^-,\boldsymbol{\theta}^+)=\frac1{N_i}\sum_{i=1}^{N_i}|u_{\boldsymbol{\theta}^-}(x_i,t)-u_{\boldsymbol{\theta}^+}(x_i,t)|^2.$
  作者对此进行概括并将其称为 $C^p$ 连续性，其中 $p$ 是时间顺序减一。对于本文考虑的问题，它将是 $C^0$ ，因此相当于解的连续性。传统的 XPINN 使用不连续解连续性和剩余连续性的连接条件，由以下损失项给出：
  $\begin{gathered} \mathcal{L}_{i_{avg}}(\boldsymbol{\theta}^-,\boldsymbol{\theta}^+)=\frac1{N_i}\left(\sum_{i=1}^{N_i}\left(|u_{avg}(x_i,t)-u_{\boldsymbol{\theta}^+}(x_i,t)|^2+|u_{avg}(x_i,t)-u_{\boldsymbol{\theta}^-}(x_i,t)|^2\right)\right) \\ \equiv\mathcal{L}_{i_{avg}}(\boldsymbol{\theta}^-,\boldsymbol{\theta}^+)=\frac1{2N_i}\sum_{i=1}^{N_i}|u_{\boldsymbol{\theta}^-}(x_i,t)-u_{\boldsymbol{\theta}^+}(x_i,t)|^2\leftarrow u_{avg}=\frac{u_{\boldsymbol{\theta}^-}+u_{\boldsymbol{\theta}^+}}2 \\ \mathcal{L}_{i_{\mathcal{R}}}(\boldsymbol{\theta}^-,\boldsymbol{\theta}^+)=\frac1{N_i}\sum_{i=1}^{N_i}|\mathcal{R}\left(u_{\boldsymbol{\theta}^-}(x_i,t)\right)-\mathcal{R}\left(u_{\boldsymbol{\theta}^+}(x_i,t)\right)|^2. \end{gathered}$
迁移学习：
- 当多个网络按时间顺序堆叠时，迁移学习自然地适合这样的框架。作者指出，当已知已经遵守初始或连接条件的网络时，无需从头开始重新训练网络。从堆叠分解的角度来看，很容易看出，用前一个网络初始化后一个网络，无论 $d S = 1$ （有初始条件），还是 $d S > 1$ （有连接条件），都会使得网络天生满足这些条件，也就是使得网络在这项正好为零。这方面不仅仅是拥有一个良好的优化起点，因为目标域与当前域共享部分预测域。超出起始子域时间的剩余损失项将不会为零，因为该区域将是先前子域的外推。然而，它比随机权重更接近收敛。
  
  传统上，迁移学习不仅指用另一个网络初始化一个网络的可学习参数，还指保持一定数量的层不变，从而降低每次迭代的成本。另一方面，作者将微调称为可学习参数的初始化，同时仍然允许整个网络可训练。作者认为，这是一个重要的区别，因为规模和解决方案动态可能会随着时间的推移而变化，这意味着保持某些层不变可能会抑制网络的可表达性及其准确拟合真实解决方案的能力。以网络的最终线性组合作为基函数，并考虑非线性Allen-Cahn问题。对于时间推进模型，从图 6可以看出，基函数从第一个子域到最后一个子域逐渐锐化。
  
  尽管基函数发生了巨大变化，但每个分层的整体网络参数分布仍接近恒定，这意味着仅凭这一点并不能很好地指示正在学习的内容。虽然微调仍然可以改善这种情况下的训练，但迁移学习会抑制它，因为通常需要网络中的早期层进行更改，以便最终的基函数可以随着时间的推进在更小的尺度上更准确地适应这个问题。

窗口扫描采样

如下图所示，软因果关系窗口随时间移动，充当搭配点上的权重掩模。与堆叠分解不同，该方法由单个 PINN 中随时间向前移动的一组点权重定义。

在这里插入图片描述

受 Respecting causality is all you need for training physics-informed neural networks 中因果权重的启发，这种转变可以通过多种方式定义，作者通俗地称之为内核。一种选择是使用因果加权方案来定义它，但添加上限和下限截止，以将这些点移动到向后兼容点的先前时间集和尚未包含在训练中的未来点集。除了不需要昂贵的 PDE 残差的计算优势之外，向后兼容性集还充当硬因果约束。因果权重在困难的偏微分方程问题上表现出了出色的性能；然而，他们将未来的搭配点权重设置为零，从而浪费时间预测和计算对整体损失贡献微不足道的采样点的梯度，从而浪费时间进行优化。包含空集边界可以消除这种低效率，直到这些点有用为止。在用户算法中，这些集合的添加或缺失是可变的，以便可以恢复因果权重方法。由于因果权重明确基于先前的残差，因此无需对未来点执行任何操作即可知道上限的截止值，因此不会产生额外的成本。本文考虑的其他内核如表 3 所示。根据问题和硬件容量，可以考虑更大或更小的加权域，如图 7 (B) 所示的误差函数内核。使用统一权重内核，当宽度设置为 $d t$ 时，可以恢复 bc-PINN。未来的工作将考虑修改此方法，以解决 $u$ 上具有初始和最终条件的二阶时间问题，这些问题需要信息在两个方向上传播。

在这里插入图片描述

用户算法

在这里插入图片描述

通过此用户算法，作者尝试捕获尽可能多的时间 PINN 训练技术作为选项的子集。此外，该算法允许各种变体、组合和改进。为了强调这一事实，作者将根据算法 1 选择来定义第 2.2 节中列出的现有模型。一个微妙但巨大的改进是添加了对堆叠分解的容差，用户设置该容差以在添加新子域之前定义损失的变化。这最大限度地减少了原始论文中用于时间推进、bc-PINN 等的不必要的训练时间成本，这些训练在移动到下一个时间片之前评估固定次数的迭代。使用容差还可以减少超参数调整，因为低估迭代可能会导致不正确的解决方案，而高估则代价高昂。

在这里插入图片描述

实验结果

作者在Convection方程、Allen-Cahn 方程以及长时间 KdV 方程上进行了试验。

Convection

方程如下：
$\frac{\partial u}{\partial t}+30\frac{\partial u}{\partial x}=0,\mathrm{~}(t,x)\in[0,1]\times[0,2\pi]$
具有周期性边界条件和初始条件 $u (0, x) = s in (x)$ 。精确解和点集如下图所示

在这里插入图片描述

在上表中，针对对流问题运行了许多堆叠方法的变体。首先，标准的 PINN 能够以相对较好的精度和成本解决问题。还可以观察到，与先前的标准 XPINN 的所有结果不同，经过微调的因果 XPINN（表第 6 行）可以收敛到正确的解决方案，尽管计算成本很高。因此，可以证明，即使在最不利的条件下，例如周期性边界和 XPINN 连接，因果执行和迁移学习也能够克服零解问题。

另一个结果是， $d S = 1$ 到 $d S = n$ 可以充当精度和成本之间的权衡范围。从应用微调的结果来看， $d S = 1$ ，相当于时间推进，收敛速度最快，因为一次只有一个网络进行训练，从而降低了成本。随着 $d S$ 增加到 $3$ ，然后是 $n$ ，成本会增加，但准确性会提高，因为训练网络同时允许它们更好地解决解和连接处的差异。分布式并行训练可以减少这种额外成本，同时保持更高的准确性。

作者也观察到，弱边界条件执行需要更少的时间来达到收敛，并且准确性明显较低。作者还观察到，真正的迁移学习不适合时间分解，但微调适合。总之，堆叠分解，特别是在 $d S = 1$ 和微调的情况下，在精度和成本方面可以优于标准 PINN。这一点很重要，因为即使对于未修改的 PINN 不会失败的问题，该框架也提高了 PINN 的可扩展性，并且即使对于具有相对少量的点和训练的短时间问题也能产生改进。

在这里插入图片描述

为了研究增加子域数量对因果时间分解的影响，作者系统地比较了不同设置下子域集的相对 $L^2$ 误差。从单域 (PINN) 开始，作者将域在时间上统一分解为 $n = 2, 4, 8, 10, 14, 16$ 个子域，并计算 $16$ 个统一子域中每个子域的相对 $L^2$ 误差。时间分解策略为 s-d PINN $n = \#, dS = 1, ic = C^p) + FT$ 。与其他实验不同的是，作者在本研究中还考虑了优化器的选择，以深入了解 PINN 训练中的一个主要争论点：Adam 与 L-BFGS。在图 9（左）中，很明显，对于仅采用 Adam 优化的单域 PINN，损失函数陷入次优局部最小值。随着引入更多的子域，相对 $L^2$ 误差会减小。最终，相对误差收敛，即即使进一步分解子域，预测精度也没有提高。因此，可以观察到因果时间分解可以克服由于优化器选择不当以及之前讨论的问题而带来的训练挑战。