A Unified Scalable Framework for Causal Sweeping Strategies for Physics-Informed Neural Networks

A Unified Scalable Framework for Causal Sweeping Strategies for Physics-Informed Neural Networks (Pinns) and Their Temporal Decompositions

相关工作

  • 自适应时间采样:

    • Solving Allen Cahn and Cahn Hilliard equations using the adaptive physics informed neural networks 中,提出了一种策略,将域分割成大小相等的“时间片”。对于单个网络,配置点形成每个时间片中子集的顺序并集,网络在该时间片上连续进行训练,如图 1 (A) 所示。该方法本质上是一个启动过程,因为当所有时间片都已添加时,它相当于标准PINN。该方法被证明可以提高训练精度,并且可以提供计算加速,因为在训练阶段只有整个时空采样的子集处于活动状态。添加不必要的配置点的成本很高,特别是对于长时间积分和高阶导数,因为必须计算每个配置点的偏微分方程残差。
  • 时间步进:

    • 同样在 Solving Allen Cahn and Cahn Hilliard equations using the adaptive physics informed neural networks 中,提出了一种训练方法,时间片按顺序进行训练,并将先前时间片在结束时间点的预测用作下一个时间片训练的初始条件,如图1(C )所示。这里将其称为时间步进。由于一旦添加新的时间片,先前的子网络就会停止训练,因此这会在时间片的大小范围内强制执行因果关系。在内部,对于每个时间片,不强制执行因果关系。
  • bc-PINN:

    • A novel sequential method to train physics informed neural networks for Allen Cahn and Cahn Hilliard equations 中,提出了一种不同的顺序模型,虽然也分为时间片,但整个域仅使用一个网络。与之前的自适应时间采样类似,这里的区别在于,对于先前的时间片,融合网络的预测被视为数据项,并与未来网络预测形成损失,如图1所示(B )。这被称为“向后兼容性(bc)”,因为它确保网络不会改变其对先前时间的预测,并且是该方法强制因果关系的手段。与时间推进方案一样,这种因果关系仅在时间片的范围内强制执行。此外,尽管本文没有提及,但这种方法减少了每次迭代的计算成本,因为不需要连续计算先前的搭配点残差。
  • 因果权重:

    • Respecting causality is all you need for training physics-informed neural networks 中,提出符合因果关系是成功训练 PINN 的主要原因。与 bc-PINN 类似,这种方法是针对单个网络提出的,尽管它后来与时间推进相结合,以获得困难混沌问题的最终数值结果。与前两种方法不同,不使用时间片,而是通过所有搭配点上的巧妙加权掩模来强制因果关系。该掩模与先前时间的累积剩余损失的大小成反指数比例,如下公式所示。一个缺点是结果对新的因果关系超参数 ϵ \epsilon ϵ 十分敏感,因此使用了训练的退火策略。然而,这需要使用不同的 ϵ \epsilon ϵ 多次遍历整个域,显着增加计算成本并且不能保证收敛。尽管如此,它的应用在解决具有挑战性的问题上还是被证明是成功的。
      L r ( θ ) = 1 N t ∑ i = 1 N t exp ⁡ ( − ϵ ∑ k − 1 i − 1 L r ( t k , θ ) ) L r ( t i , θ ) . \mathcal{L}_{r}\left(\boldsymbol{\theta}\right)=\frac1{N_{t}}\sum_{i=1}^{N_{t}}\exp\left(-\epsilon\sum_{k-1}^{i-1}\mathcal{L}_{r}\left(t_{k},\boldsymbol{\theta}\right)\right)\mathcal{L}_{r}\left(t_{i},\boldsymbol{\theta}\right). Lr(θ)=Nt1i=1Ntexp(ϵk1i1Lr(tk,θ))Lr(ti,θ).
  • XPINN:

    • Extended Physics-Informed Neural Networks (XPINNs): A Generalized Space-Time Domain Decomposition Based Deep Learning Framework for Nonlinear Partial Differential Equations 中,提出了一种广义的域分解框架,允许将不同时空子域上的多个子网络拼接在一起并并行训练,如图1(D)所示。该方法不是因果关系,并且存在与标准 PINN 类似的训练问题。在某些情况下,这些问题变得更加普遍,因为连接处和单独的网络导致更困难的优化问题,特别是在信息传播方面。虽然 XPINN 使按时间将子域拼接在一起的想法成为可能,但时间推进和将子域拼接在一起并不相互排斥。时间推进是连续的,但网络是通过用作以下初始条件的先前网络的最终结束时间预测的硬约束缝合在一起的。作者将其称为一阶时间问题的解连续性边界条件。更准确地说,这将是 M S E ( u 1 − u 2 ) MSE(u_1-u_2) MSE(u1u2),或者在 XPINN 中,通过 M S E ( u a v g − u 1 ) + M S E ( u a v g − u 2 ) MSE(u_{avg}-u_{1}) + MSE(u_{avg}-u_{2}) MSE(uavgu1)+MSE(uavgu2) 的方式不连续地执行,其中 u a v g = u 1 + u 2 2 u_{avg} = \frac{ u_1+u_2} {2} uavg=2u1+u2 。通过为 u t u_t ut 添加相同的形式,对于更高阶的时间导数项,这可以扩展到二阶时间问题。虽然 XPINN 也约束残差连续性,但在分解为时间片时,这种约束对于适定问题来说是不必要的,例如在前面讨论的方法中。在这种情况下,XPINN 和时间推进之间的拼接是相同的,不同之处在于 XPINN 中的子网络是并行训练的,而时间推进中的子网络是顺序训练的。

在这里插入图片描述

目前的一些挑战

  • 零解:
    • 使用长时间对流问题可以重现零解模式,该问题将时域扩展到 T = [ 0 , 5 ] T = [0, 5] T=[0,5] ,如图 2 (A) 所示。剩余搭配点的数量按比例增加,以免影响结果。在给定周期性条件的情况下,由于稍后的时间域内没有信息,这会导致 PINN 收敛到零解。出现这种挑战是因为零解最大限度地减少了由于偏微分方程残差仅包含导数项(即任何常数函数都位于算子的零空间中)造成的损失。可以看到,初始条件是唯一的信息源,沿着其特征曲线的方向传播。然而,由于周期性条件,信息在“完成”之前必须传播很远,即到达某个终点,例如狄利克雷边界条件或时域的终点。当这种情况发生时,解依然有可以改进的空间,但在此之前,信息传播必须克服零解,即网络会抵制从初始条件引入信息。
  • 无传播:
    • 通过在图 2 (B) 所示的对流问题中使用很少的残差点,可以重现该问题。在图 2 (B) 中,使用了 2, 500 个搭配点,而在本文的其余部分中,使用了 10, 000 个搭配点用于时域中每个无量纲长度。当使用更多的点时,可以使用标准 PINN 一致地解决这个问题。因此,将此训练挑战分类为初始条件特征突然停止时明显无法传播任何信息,表明点密度太小。 Mitigating Propagation Failures in Physics-informed Neural Networks using Retain-Resample-Release中更详细地研究了通过增加和自适应采样来克服这一挑战。这允许在该领域的其余部分中流行一个恒定的解决方案。
  • 错误传播:
    • 无论标准模型调整如何,通过尝试使用 PINN 解决 Allen-Cahn 问题都可以重现错误传播,如图 2 © 所示。当需要强有力地执行因果关系时,例如在 Respecting causality is all you need for training physics-informed neural networks 中所示的混沌问题中,就会出现这种挑战,并且如果不执行因果关系,PINN 就会收敛到错误的解决方案。它与零解决方案挑战不同,它可以快速找到解决方案,但不是正确的解决方案。

在这里插入图片描述

Unified Causality-enforcing Framework

为了解决这些分解挑战并统一以前的因果策略,作者提出了两种新方法来涵盖表 2 中所示的因果关系执行的所有方面。结合起来,这两种方法对时间片和采样规模都施加了软和硬约束。作者还介绍了改进时间分解的方法,例如迁移学习

在这里插入图片描述

堆叠分解

如上图所示,堆叠分解有两个参数: n n n d S dS dS 。然后根据每个问题的总时域和分区数 n n n 推断出子域在时间上的长度。当 d S = 1 dS = 1 dS=1 时,堆叠分解相当于时间步进。当 d S = n dS = n dS=n 且 XPINN 连接条件和训练开始时所有域均处于活动状态的情况,堆叠分解相当于传统的 XPINN 方法。本文定义的另一个术语是因果 d S dS dS:它描述 d S dS dS 表示的网络数量是否应该在开始时全部可训练,或者是否使用预热程序(从 1 开始并增加到 d S dS dS)。当与 d S = n dS = n dS=n 一起使用时,作者将该模型称为“因果 XPINN”。在此配置中,当先前的时间片达到收敛时,会添加后面的时间片,并且整个子网络集继续训练。添加所有子网后,因果 XPINN 将达到标准 XPINN 配置。然而,由于热身过程,它避免了之前所述的训练挑战。这是因为未来的网络仅在前一个时间片中的信息传播到子域中的最终时间后才添加,因此未来的网络不会收敛至零解。 XPINN 的主要优点是它们可以并行化,因此可以处理大规模问题。在这方面,当子网络被添加到因果 XPINN 中时,它们可以并行化,不会带来任何限制或成本。这与时间推进形成鲜明对比,时间推进中所有先前的网络必须完成训练并按顺序运行。因此,堆叠分解可以描述一个理想的中间立场,可以从时间推进的因果关系中受益,以避免可能的训练困难和 XPINN 的并行训练。该方法还描述了当 1 < d S < n 1 < dS < n 1<dS<n 时的一组新模型,这对于具有时程效应的大规模问题可能很有用,在这种问题中,一次性训练整个域的成本很高,但先前域中的信息仍然有用。将来,将考虑先验或训练期间确定 n n n 的自适应方法,因为时间尺度相关性或局部复杂性可能随时间变化。

在这里插入图片描述

  • 连接条件:

    • 为了弥合时间分解策略之间的差距,必须解释损失项中连接条件的差异。时间推进方案使用前一个时间片的最终时间预测作为下一个时间片的初始条件。对于一阶时间问题,这个条件相当于由下式给出的解连续性。
      L i ( θ − , θ + ) = 1 N i ∑ i = 1 N i ∣ u θ − ( x i , t ) − u θ + ( x i , t ) ∣ 2 . \mathcal{L}_i(\boldsymbol{\theta}^-,\boldsymbol{\theta}^+)=\frac1{N_i}\sum_{i=1}^{N_i}|u_{\boldsymbol{\theta}^-}(x_i,t)-u_{\boldsymbol{\theta}^+}(x_i,t)|^2. Li(θ,θ+)=Ni1i=1Niuθ(xi,t)uθ+(xi,t)2.
      作者对此进行概括并将其称为 C p C^p Cp 连续性,其中 p p p 是时间顺序减一。对于本文考虑的问题,它将是 C 0 C^0 C0,因此相当于解的连续性。传统的 XPINN 使用不连续解连续性和剩余连续性的连接条件,由以下损失项给出:
      L i a v g ( θ − , θ + ) = 1 N i ( ∑ i = 1 N i ( ∣ u a v g ( x i , t ) − u θ + ( x i , t ) ∣ 2 + ∣ u a v g ( x i , t ) − u θ − ( x i , t ) ∣ 2 ) ) ≡ L i a v g ( θ − , θ + ) = 1 2 N i ∑ i = 1 N i ∣ u θ − ( x i , t ) − u θ + ( x i , t ) ∣ 2 ← u a v g = u θ − + u θ + 2 L i R ( θ − , θ + ) = 1 N i ∑ i = 1 N i ∣ R ( u θ − ( x i , t ) ) − R ( u θ + ( x i , t ) ) ∣ 2 . \begin{gathered} \mathcal{L}_{i_{avg}}(\boldsymbol{\theta}^-,\boldsymbol{\theta}^+)=\frac1{N_i}\left(\sum_{i=1}^{N_i}\left(|u_{avg}(x_i,t)-u_{\boldsymbol{\theta}^+}(x_i,t)|^2+|u_{avg}(x_i,t)-u_{\boldsymbol{\theta}^-}(x_i,t)|^2\right)\right) \\ \equiv\mathcal{L}_{i_{avg}}(\boldsymbol{\theta}^-,\boldsymbol{\theta}^+)=\frac1{2N_i}\sum_{i=1}^{N_i}|u_{\boldsymbol{\theta}^-}(x_i,t)-u_{\boldsymbol{\theta}^+}(x_i,t)|^2\leftarrow u_{avg}=\frac{u_{\boldsymbol{\theta}^-}+u_{\boldsymbol{\theta}^+}}2 \\ \mathcal{L}_{i_{\mathcal{R}}}(\boldsymbol{\theta}^-,\boldsymbol{\theta}^+)=\frac1{N_i}\sum_{i=1}^{N_i}|\mathcal{R}\left(u_{\boldsymbol{\theta}^-}(x_i,t)\right)-\mathcal{R}\left(u_{\boldsymbol{\theta}^+}(x_i,t)\right)|^2. \end{gathered} Liavg(θ,θ+)=Ni1(i=1Ni(uavg(xi,t)uθ+(xi,t)2+uavg(xi,t)uθ(xi,t)2))Liavg(θ,θ+)=2Ni1i=1Niuθ(xi,t)uθ+(xi,t)2uavg=2uθ+uθ+LiR(θ,θ+)=Ni1i=1NiR(uθ(xi,t))R(uθ+(xi,t))2.
  • 迁移学习:

    • 当多个网络按时间顺序堆叠时,迁移学习自然地适合这样的框架。作者指出,当已知已经遵守初始或连接条件的网络时,无需从头开始重新训练网络。从堆叠分解的角度来看,很容易看出,用前一个网络初始化后一个网络,无论 d S = 1 dS = 1 dS=1(有初始条件),还是 d S > 1 dS > 1 dS>1(有连接条件),都会使得网络天生满足这些条件,也就是使得网络在这项正好为零。这方面不仅仅是拥有一个良好的优化起点,因为目标域与当前域共享部分预测域。超出起始子域时间的剩余损失项将不会为零,因为该区域将是先前子域的外推。然而,它比随机权重更接近收敛。

      传统上,迁移学习不仅指用另一个网络初始化一个网络的可学习参数,还指保持一定数量的层不变,从而降低每次迭代的成本。另一方面,作者将微调称为可学习参数的初始化,同时仍然允许整个网络可训练。作者认为,这是一个重要的区别,因为规模和解决方案动态可能会随着时间的推移而变化,这意味着保持某些层不变可能会抑制网络的可表达性及其准确拟合真实解决方案的能力。以网络的最终线性组合作为基函数,并考虑非线性Allen-Cahn问题。对于时间推进模型,从图 6可以看出,基函数从第一个子域到最后一个子域逐渐锐化。

      在这里插入图片描述

      尽管基函数发生了巨大变化,但每个分层的整体网络参数分布仍接近恒定,这意味着仅凭这一点并不能很好地指示正在学习的内容。虽然微调仍然可以改善这种情况下的训练,但迁移学习会抑制它,因为通常需要网络中的早期层进行更改,以便最终的基函数可以随着时间的推进在更小的尺度上更准确地适应这个问题。

窗口扫描采样

如下图所示,软因果关系窗口随时间移动,充当搭配点上的权重掩模。与堆叠分解不同,该方法由单个 PINN 中随时间向前移动的一组点权重定义。

在这里插入图片描述

Respecting causality is all you need for training physics-informed neural networks 中因果权重的启发,这种转变可以通过多种方式定义,作者通俗地称之为内核。一种选择是使用因果加权方案来定义它,但添加上限和下限截止,以将这些点移动到向后兼容点的先前时间集和尚未包含在训练中的未来点集。除了不需要昂贵的 PDE 残差的计算优势之外,向后兼容性集还充当硬因果约束。因果权重在困难的偏微分方程问题上表现出了出色的性能;然而,他们将未来的搭配点权重设置为零,从而浪费时间预测和计算对整体损失贡献微不足道的采样点的梯度,从而浪费时间进行优化。包含空集边界可以消除这种低效率,直到这些点有用为止。在用户算法中,这些集合的添加或缺失是可变的,以便可以恢复因果权重方法。由于因果权重明确基于先前的残差,因此无需对未来点执行任何操作即可知道上限的截止值,因此不会产生额外的成本。本文考虑的其他内核如表 3 所示。根据问题和硬件容量,可以考虑更大或更小的加权域,如图 7 (B) 所示的误差函数内核。使用统一权重内核,当宽度设置为 d t dt dt 时,可以恢复 bc-PINN。未来的工作将考虑修改此方法,以解决 u u u 上具有初始和最终条件的二阶时间问题,这些问题需要信息在两个方向上传播。

在这里插入图片描述

用户算法

在这里插入图片描述

通过此用户算法,作者尝试捕获尽可能多的时间 PINN 训练技术作为选项的子集。此外,该算法允许各种变体、组合和改进。为了强调这一事实,作者将根据算法 1 选择来定义第 2.2 节中列出的现有模型。一个微妙但巨大的改进是添加了对堆叠分解的容差,用户设置该容差以在添加新子域之前定义损失的变化。这最大限度地减少了原始论文中用于时间推进、bc-PINN 等的不必要的训练时间成本,这些训练在移动到下一个时间片之前评估固定次数的迭代。使用容差还可以减少超参数调整,因为低估迭代可能会导致不正确的解决方案,而高估则代价高昂。

在这里插入图片描述

实验结果

作者在Convection方程、Allen-Cahn 方程以及长时间 KdV 方程上进行了试验。

Convection

方程如下:
∂ u ∂ t + 30 ∂ u ∂ x = 0 ,   ( t , x ) ∈ [ 0 , 1 ] × [ 0 , 2 π ] \frac{\partial u}{\partial t}+30\frac{\partial u}{\partial x}=0,\mathrm{~}(t,x)\in[0,1]\times[0,2\pi] tu+30xu=0, (t,x)[0,1]×[0,2π]
具有周期性边界条件和初始条件 u ( 0 , x ) = s i n ( x ) u(0, x) = sin(x) u(0,x)=sin(x) 。精确解和点集如下图所示

在这里插入图片描述

在这里插入图片描述

在上表中,针对对流问题运行了许多堆叠方法的变体。首先,标准的 PINN 能够以相对较好的精度和成本解决问题。还可以观察到,与先前的标准 XPINN 的所有结果不同,经过微调的因果 XPINN(表第 6 行)可以收敛到正确的解决方案,尽管计算成本很高。因此,可以证明,即使在最不利的条件下,例如周期性边界和 XPINN 连接,因果执行和迁移学习也能够克服零解问题。

另一个结果是, d S = 1 dS = 1 dS=1 d S = n dS = n dS=n 可以充当精度和成本之间的权衡范围。从应用微调的结果来看, d S = 1 dS = 1 dS=1,相当于时间推进,收敛速度最快,因为一次只有一个网络进行训练,从而降低了成本。随着 d S dS dS 增加到 3 3 3,然后是 n n n,成本会增加,但准确性会提高,因为训练网络同时允许它们更好地解决解和连接处的差异。分布式并行训练可以减少这种额外成本,同时保持更高的准确性。

作者也观察到,弱边界条件执行需要更少的时间来达到收敛,并且准确性明显较低。作者还观察到,真正的迁移学习不适合时间分解,但微调适合。总之,堆叠分解,特别是在 d S = 1 dS = 1 dS=1 和微调的情况下,在精度和成本方面可以优于标准 PINN。这一点很重要,因为即使对于未修改的 PINN 不会失败的问题,该框架也提高了 PINN 的可扩展性,并且即使对于具有相对少量的点和训练的短时间问题也能产生改进。

在这里插入图片描述

为了研究增加子域数量对因果时间分解的影响,作者系统地比较了不同设置下子域集的相对 L 2 L^2 L2 误差。从单域 (PINN) 开始,作者将域在时间上统一分解为 n = 2 , 4 , 8 , 10 , 14 , 16 n = 2,4,8,10,14,16 n=2,4,8,10,14,16 个子域,并计算 16 16 16 个统一子域中每个子域的相对 L 2 L^2 L2 误差。时间分解策略为 s-d PINN ( n = # , d S = 1 , i c = C p ) + F T (n = \#, dS = 1, ic = C^p) + FT (n=#,dS=1,ic=Cp)+FT。与其他实验不同的是,作者在本研究中还考虑了优化器的选择,以深入了解 PINN 训练中的一个主要争论点:Adam 与 L-BFGS。在图 9(左)中,很明显,对于仅采用 Adam 优化的单域 PINN,损失函数陷入次优局部最小值。随着引入更多的子域,相对 L 2 L^2 L2 误差会减小。最终,相对误差收敛,即即使进一步分解子域,预测精度也没有提高。因此,可以观察到因果时间分解可以克服由于优化器选择不当以及之前讨论的问题而带来的训练挑战。

总结

这篇文章我是当做综述来看的,文中对现有的域分解和因果加权方法的描述还是很详细的。至于文中提出的更泛化的方法,个人感觉没有那么实用,但用来研究PINN的性质还是挺有意思的。原文虽然给了GitHub链接,但点进去是404,可能等论文正式发表了才会公开吧。

相关链接:

  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

xuelanghanbao

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值