物理信息机器学习(Physics-informed machine learning)学习笔记(2)

原文链接:Physics-informed machine learning | Nature Reviews Physics

学习偏差

另一种方法是从不同角度赋予神经网络(NN)先验知识。而不是设计专门的架构来隐含地强制执行这种知识,当前的努力旨在通过适当地惩罚传统 NN 近似的损失函数来以软方式施加这些约束。这种方法可以被视为多任务学习的一个特定用例,其中学习算法同时受到约束以拟合观测数据,并产生近似满足给定一组物理约束(例如,质量守恒、动量守恒、单调性等)的预测。代表性的方法有深度伽辽金法(deep Galerkin method)和PINNs 及其变体。PINNs的框架在框 3 中进一步解释,因为它准确地反映了通过软惩罚约束强制执行物理的关键优势和局限性。

软惩罚约束的灵活性允许将更一般的领域特定知识引入 ML 模型。例如,参考文献 53 提出了一个统计约束的生成对抗网络(GAN),通过强制执行训练数据的协方差约束,改进了基于ML的仿真器,可以捕获通过求解完全解析PDEs生成的训练数据的统计特征。其他示例包括为机器人学习行为诱导不连续性定制的模型 、使用额外的软约束来保持 Lyapunov 稳定性的物理信息自编码器,以及能够通过损失函数中的软约束编码不变性的 InvNet 。进一步的扩展包括卷积和递归架构,以及概率公式。例如,参考文献 52 包含了一个贝叶斯框架,允许对复杂 PDE 动力系统中的预测量进行不确定性量化。

注意,通过优化获得的解决方案,使用软惩罚约束和正则化,可以视为基于物理似然假设(physics-based likehood assumptions)的贝叶斯公式化的最大后验估计(maximum a-posteriori estimate)。或者,可以使用马尔可夫链蒙特卡洛方法(Markov chain Monte Carlo methods)或变分推断近似(variational inference approximations)来量化由于嘈杂(noisy)和不完整(gappy)数据引起的不确定性,如下文所述。

混合方法

上述物理信息机器学习的原则各有优势和局限性。因此,理想的做法是将这些不同的原则结合起来使用,事实上,已经提出了不同的混合方法。例如,无量纲化可以恢复系统的特征属性,因此通过适当的无量纲参数引入物理偏差是有益的,如雷诺数、弗劳德数或马赫数。已经提出了几种学习描述物理现象的算子的方法。例如,DeepONets 已经被证明是学习非线性算子的强大工具,以一种有监督的数据驱动方式。更令人兴奋的是,通过将 DeepONets 与 PINNs 编码的物理相结合,有可能在多物理应用中实现实时准确预测,并进行外推,如电对流和高超音速。然而,当有一个低保真度模型可用时,可以开发一个多保真度策略来促进复杂系统的学习。例如,参考文献63通过使用大涡模拟数据和受约束的 NN 训练方法,结合观测和学习偏差,构建了低保真度雷诺平均纳维 - 斯托克斯湍流模型的闭合。

其他代表性用例包括参考文献64中使用的多保真度 NN, 从仪器压痕数据中提取材料属性,参考文献65中使用的 PINs 从流变学数据中发现非牛顿流体的基本定律,以及参考文献^66中提出的粗粒化策略。即使不可能直接将低保真度模型嵌入到学习中,也可以通过数据增强使用低保真度模型,即通过低成本的低保真度模型生成大量低保真度数据,这些模型可以是简化的数学模型或现有的计算机代码,如参考文献^64。其他代表性示例包括 FermiNets和图神经算子方法(graphy neural operator methods)。还可以通过将网络嵌入到传统数值方法(如有限元)中来在NN中强制执行物理。这种方法已被应用于许多不同领域的问题,包括非线性动力系统、计算力学建模基本关系、地下力学、随机反演以及更多。

与核方法(kernel methods)的联系

许多基于 NN 的技术与核方法有密切的渐近(asymptotic)联系,可以利用这些联系产生新的见解和理解。例如,如参考文献76,77所示,随着网络宽度趋于无穷大,PINNs 的训练动力可以被理解为核回归方法(kernel regression method)。更一般地,NN 方法可以被严格解释为核方法,其中底层的扭曲核(warping kernel)也是从数据中学习的。扭曲核是一种特殊的核,最初被引入用于在地质统计学中建模非平稳空间结构,并已被用于解释残差(residual) NN 模型。此外,PINNs 可以被视作在由特征图(网络的初始层参数化)所张成的再生核希尔伯特空间(reproducing kernel Hilbert space)中求解 PDEs,而特征图也是从数据中学习的。通过研究统计推断技术和数值近似的密切联系,可以建立进一步的联系。现有工作已经在求解 PDEs 和反问题、最优恢复和贝叶斯数值分析的背景下探索了这些联系。即使对于大型和复杂的架构,如基于注意力(attention)的变换器(transformers),也可以建立与核方法的联系,而算子-值核方法可能为分析和解释用于学习非线性算子的深度学习工具提供一条可行的路径。总之,通过核方法的视角分析 NN 模型可能具有相当大的好处,因为核方法通常是可解释的,并且具有强大的理论基础,这随后可以帮助我们理解深度学习方法何时以及为何可能失败或成功。

与经典数值方法的联系

经典数值算法,如龙格 - 库塔方法和有限元方法,一直是研究和模拟物理系统的主要工具。有趣的是,许多现代深度学习模型可以通过观察与这些经典算法的明显对应关系和特定联系来观察和分析。特别是,一些在实践中非常成功的架构与数值分析中的既定策略类似。例如,卷积 NN 与平移等变 PDE 离散化中的有限差分模板类似,并且与多网格方法具有相同的结构;残差 NN(ResNets,具有跳跃连接网格)与自主常微分方程的基本前向欧拉离散化类似;检查简单的龙格 - 库塔方案(如 RK4)立即会让人联想到递归 NN 架构(甚至与 Krylov 类型的矩阵自由线性代数方法,如广义最小残差方法)。此外,具有 ReLU 激活函数的 DNNs 的表示等同于线性有限元方法中的连续分段线性函数。这些类比可以为交叉融合提供见解和指导,并为新的“数学信息”元学习(meta-learning)架构铺平道路。例如,参考文献7 提出了一种隐式龙格 - 库塔积分器启发的离散时间 NN 方法来求解 PDEs:使用多达 500 个潜在阶段,这种 NN 方法可以允许非常大的时间步长,并导致高精度的解决方案。

物理信息学习的优势

在不同学科中,关于物理信息 ML 的出版物已经很多,用于特定应用。例如,PINNs 的不同扩展涵盖了守恒定律,以及用于随机现象和异常传输的随机和分数阶 PDEs。将域分解(domain decomposition)与 PINNs 结合使用为多尺度问题提供了更多的灵活性,而同时公式相对简单,因为每个子域可以用不同的 NN 表示,分配给不同的 GPU,通信成本非常小。这些工作的结果表明,PINNs 特别有效地解决不适定和反问题,而对于正问题,不需要任何数据同化,现有的数值网格求解器目前优于 PINNs。下面,我们将更详细地讨论使用 PINNs 可能具有优势的情况,并在一些典型应用中突出这些优势。

不完整模型和不完美数据

如框 1 所示,物理信息学习可以轻松结合来自物理和分散嘈杂数据的信息,即使两者都不完美。最近的研究表明,由于 PINN 公式固有的平滑性(smoothness)或规律性(regularity),即使问题并非完全适定,也有可能找到有意义的解决方案。示例包括正问题和反问题,其中未指定初始或边界条件,或者 PDEs 中的一些参数未知 - 这些是经典数值方法可能失败的情况。在处理不完美模型和数据时,将贝叶斯方法与物理信息学习结合用于不确定性量化是有益的,例如贝叶斯 PINNs(B-PINNs)。此外,与传统数值方法相比,物理信息学习是无网格的,无需计算成本高昂的网格生成,因此可以轻松处理不规则和移动域问题。最后,代码也更容易使用现有的开源深度学习框架,如 TensorFlow 和 PyTorch 来实现。

小数据集中的强大泛化能力

深度学习通常需要大量数据进行训练,在许多物理问题中,很难以高精度获得必要的数据。在这些情况下,物理信息学习具有在小数据集中强大泛化的优点。通过强制或嵌入物理,深度学习模型有效地被约束在一个低维簇上,因此可以用少量数据进行训练。为了强制执行物理,可以将物理原理嵌入到网络架构中,使用物理作为软惩罚约束,或使用前面讨论的数据增强。此外,物理信息学习能够进行外推,而不仅仅是插值:也就是说,它可以执行边界值问题中的空间外推。

理解深度学习

除了增强 ML 模型的可训练性和泛化能力外,物理原理还被用来提供理论见解,并阐明深度学习惊人有效性背后的内在机制。例如,在参考文献^109–112中,作者使用颗粒介质的阻塞转变来理解深度学习在过度参数化区域的双重下降现象。浅 NNs 也可以被视作相互作用粒子系统,因此可以用平均场理论在概率测度空间中进行分析,而不是在高维参数空间中。

另一项工作严格构建了从变分重整化群到基于限制玻尔兹曼机的深度学习架构的确切映射。受物理学中成功的密度矩阵重整化群算法的启发,参考文献^115提出了一个框架,将量子启发的张量网络应用于多类监督学习任务,这在计算成本上引入了相当大的节省。参考文献^116从统计物理的角度研究了深度网络,建立了 NNs 与自旋玻璃模型之间的直观联系。同时,基于动态系统理论对宽 DNNs 中的信息传播进行了研究,分析了网络初始化如何决定输入信号通过网络的传播,从而识别出一组被称为“混沌边缘”的超参数和激活函数,这些参数和函数确保了深度网络中的信息传播。

解决高维问题

深度学习在解决高维问题方面已经取得了巨大成功,例如高分辨率的图像分类、语言建模和高维 PDEs。其中一个原因是 DNNs 可以在目标函数是局部函数的层次组合的条件下打破维度灾难。例如,在参考文献^121中,作者使用后向随机微分方程重新表述了一般高维抛物线 PDEs,近似得到DNNs 解的梯度,然后根据离散化的随机积分和给定的终端条件设计损失函数。在实践中,这种方法被用来解决高维 Black–Scholes、Hamilton–Jacobi–Bellman 和 Allen–Cahn 方程。

GANs在从高维分布中生成样本的任务中也取得了相当的成功,例如图像或文本生成。对于它们在物理问题中的应用,参考文献^102中作者使用 GANs 来量化高维随机微分方程中的参数不确定性,而在参考文献^126中 GANs 被用来学习高维随机动力学中的参数。这些示例展示了 GANs 在物理问题中的建模高维概率分布的能力。最后,在参考文献^127,128中证明了即使对于算子回归和 PDEs 的应用,深度算子网络(deep operator networks, DeepONets)也可以解决与输入空间相关的维度灾难问题。

不确定性量化

可靠地预测多尺度和多物理场系统的演变需要不确定性量化。这一重要问题在过去 20 年中受到了很多关注,通过增加传统计算方法的随机公式来处理由于边界条件或材料属性引起的不确定性。对于物理信息学习模型,至少有三种不确定性来源:由于物理的不确定性、由于数据的不确定性和由于学习模型的不确定性。

第一种不确定性指的是随机物理系统,通常由随机 PDEs(SPDEs)或随机常微分方程(stochastic ordinary differential equations, SODEs)描述。参数的随机性引起的参数不确定性属于这一类。在参考文献^132中,作者展示了 NNs 作为输入的投影(projection)函数,可以恢复低维非线性流形,并给出了一个具有不确定扩散(diffusion)系数的 SPDE 中不确定性传播的问题结果。同样,在参考文献^133中,作者使用物理信息损失函数——即 PDE 能量泛函在随机变量上的期望——来训练NN参数化椭圆 SPDE 解。在参考文献^51中,使用条件卷积生成模型(conditional convolutional generative model)来预测解的密度,使用物理信息概率损失函数,因此训练数据不需要标签。值得注意的是,作为学习分布的模型,GANs 提供了解决高维随机 PDEs 的强大方法。参考文献^102,134中的物理信息 GANs 代表了这方面的首次尝试。利用从有限数量的传感器同时读取的多个随机过程中收集的数据,物理信息 GANs 能够使用相同的框架解决从正问题到反问题的广泛问题。此外,到目前为止的结果表明,如果适当制定,GANs 有能力解决具有高随机维度的问题中的维度灾难。

第二种不确定性通常指的是由于数据中的噪声引起的偶然不确定性(aleatoric uncertainty)以及由于数据中的空白引起的认知不确定性(epistemic uncertrainty)。这种不确定性可以在贝叶斯框架中很好地处理。如果物理信息学习模型基于高斯过程回归,那么量化不确定性并利用它进行主动学习和 PDEs 中的分辨率细化研究就很简单,甚至可以设计更好的实验。参考文献^107中提出了另一种方法,使用 B-PINNs。参考文献^107的作者表明,B-PINNs 可以提供合理的不确定性界限,这些界限与误差的顺序相同,并且随着数据中噪声大小的增加而增加,但如何系统地为 B-PINNs 设置先验知识仍然是一个开放问题。

第三种不确定性指的是学习模型的局限性——例如,NNs 的近似、训练和泛化误差——通常很难严格量化。在参考文献^137中,使用卷积编码器 - 解码器 NN 将 PDE 的源项和域几何映射到解决方案以及不确定性,通过来自有限元方法的训练数据进行概率监督学习程序训练。值得注意的是,参考文献^138首次尝试量化来自学习的组合不确定性,使用参考文献^139中的 dropout 方法,并且由于物理随机性,使用任意多项式混沌。参考文献^42中对时变系统和长时间积分的扩展进行了报告:它使用随机PDE 的动态和双正交模态分解,来处理参数不确定性,这些是随机系统长时间积分的有效方法。

应用亮点

在本节中,我们通过各种应用讨论了物理信息学习的能力。我们的重点是反问题和不适定问题,这些问题用传统方法很难或不可能解决。我们还介绍了几个开发开源科学 ML 软件的正在进行的努力。

一些示例

流过浓缩咖啡杯的流动。 在第一个示例中,我们讨论了如何从浓缩咖啡杯上方的 3D 速度和压力场中提取定量信息^140。输入数据基于温度梯度的视频(图 2)。这是一个“隐藏流体力学”^106的示例。这是一个不适定的反问题,因为没有提供边界条件或任何其他信息。具体来说,使用层析背景定向 Schlieren(Tomo-BOS)成像测量密度或温度的 3D 可视化作为输入到 PINN,后者无缝整合了可视化数据和流动及被动标量控制方程,以推断潜在量。这里的物理假设是 Boussinesq 近似,如果密度变化相对较小,则该近似有效。PINN 使用空间和时间坐标作为输入,并推断速度和压力场;它通过最小化包括温度数据不匹配和守恒定律(质量、动量和能量)残差的损失函数进行训练。来自粒子图像测速的独立实验结果验证了 Tomo-BOS/PINN 方法能够提供连续、高分辨率和准确的 3D 流场。Aleatoric 不确定性 由于数据的固有随机性引起的不确定性。Epistemic 不确定性 由于有限的数据和知识引起的不确定性。Arbitrary polynomial chaos 由数据定义的广义多项式混沌。Boussinesq 近似 用于重力驱动流动的近似,除了重力项外,忽略密度差异。

用于 4D- 流 MRI 的物理信息深度学习。 接下来,我们讨论在生物物理学中使用真实磁共振成像(MRI)数据的 PINNs。由于它具有非侵入性,并且提供了一系列结构和生理对比度,MRI 已成为在涉及心脏和血管疾病的临床场景中定量评估血流和血管功能的不可或缺的工具。然而,MRI 测量通常受到非常粗糙的分辨率限制,并且可能受到噪声的严重干扰,导致重建血管拓扑和相关流动条件的工作流程繁琐且经验性。最近在物理信息深度学习方面的发展可以极大地增强当前 MRI 技术的分辨率和信息内容,重点是 4D- 流 MRI。具体来说,可以构建受纳维 - 斯托克斯方程约束的 DNNs,以有效去噪 MRI 数据,并产生物理上一致的底层速度和压力场的重建,这些重建在任意高的空间和时间分辨率下确保质量和动量守恒。此外,过滤后的速度场可以用来识别无滑移流动区域,从而重建动脉壁的位置和运动,并推断出诸如壁面剪切应力、动能和耗散等重要感兴趣量(图 3)。总之,这些方法可以显著提高 MRI 技术在研究和临床场景中的能力。然而,与 PINNs 的鲁棒性相关的潜在陷阱,特别是在 MRI 测量中高信噪比和底层流动的复杂模式(例如,由于边界层、高涡度区域、通过狭窄处的瞬态湍流爆发、曲折分支血管等)存在时。也就是说,在层流状态下,血流是层流的,这是当前 PINN 模型通常仍然有效的状态。

通过部分观测从深度学习中揭示边缘等离子体动力学。 在参考文献^141中,作者展示了 PINNs 可以从合成等离子体的部分观测中准确学习与两流体理论一致的湍流场动力学,用于等离子体诊断和在具有挑战性的热核环境中验证模型。图 4 展示了 PINNs 从 3D 合成等离子体的电子密度和温度的部分观测中学习到的湍流径向电场^141。

研究分布的两个亚稳态之间的转变。 接下来,我们讨论如何创造性地使用物理信息学习来解决高维问题。在参考文献^142中,作者提出使用物理信息学习来研究高维概率分布的两个亚稳态之间的转变。特别是,使用神经网络来表示提交函数,并使用物理信息损失函数进行训练,该损失函数定义为提交函数的变分公式,结合对边界条件的软惩罚。此外,使用自适应重要性采样来采样主导损失函数的稀有事件,这减少了解决方案的渐近方差并提高了泛化能力。在144维Allen-Cahn型系统中的概率分布的结果如图5所示。尽管这些计算结果表明这种方法对高维问题有效,但将该方法应用于更复杂的系统以及选择适应给定系统的神经网络架构仍然是一个挑战。

热力学一致的 PINNs。 通常在 PINNs 中追求的物理正则化可以被解释为使用神经网络基的点评估的最小二乘残差。对于涉及冲击的双曲问题,其中解决方案的点评估是未定义的,自然会考虑需要降低规则性的替代物理稳定化。参考文献^143中追求的控制体积 PINN(cvPINN)将传统的有限体积方案推广到深度学习设置中。除了由于降低规则性要求而增加的准确性外,与传统有限体积方案的联系允许自然适应总变分减少限制器并恢复熵解。该框架已经允许估计适用于材料(如金属)的冲击流体动力学模型的黑箱状态方程。对于极端压力和温度下的相变场景,DNNs 提供了一种理想的手段来解决未知模型形式的问题,而 cvPINNs 提供的有限体积结构允许强制执行热力学一致性。

量子化学中的应用。 在其他一些应用中,研究人员还使用物理原理来设计特定的新架构,并结合物理信息学习的原则。例如,在参考文献^32中,提出了费米神经网络(FermiNet)用于从头算求解多电子薛定谔方程的解。FermiNet 是一种嵌入物理的混合方法。首先,为了参数化波函数,神经网络具有专门的架构,遵守费米 - 狄拉克统计:即,在交换输入电子态时是反对称的,并且边界条件(在无穷远处衰减)。其次,FermiNet 的训练也是物理信息的:也就是说,损失函数被设置为能量期望值的变分形式,梯度由蒙特卡洛方法估计。尽管神经网络的应用导致消除了计算量子化学中的常见误差源——基组外推,但神经网络的性能通常取决于许多因素,包括架构和优化算法,这些都需要进一步的系统研究。

材料科学中的应用。 在材料应用中,从材料属性的表征到其强度的无损评估,物理信息学习可以发挥重要作用,因为底层问题通常是不适定的和反问题。在参考文献^144中,作者介绍了一个优化的 PINN,用于识别和精确表征金属板中的表面断裂裂纹。PINN 由在5 MHz频率下获取的现实超声表面声波数据监督,并由声波方程物理信息,未知的波速函数被表示为神经网络。训练中的一个关键元素是使用自适应激活函数,这引入了新的可训练超参数,并且即使在数据中存在显著噪声的情况下,也显著加速了收敛。将物理引入 ML 的另一种方法是通过多保真度框架,如参考文献^64中通过仪器压痕提取3D打印材料的力学属性。通过解决深度感应压痕的反问题,作者能够确定3D打印钛和镍合金的弹塑性属性。在这个框架中,使用了由两个残差网络(ResNets)组成的复合神经网络。一个是使用合成数据(大量的有限元模拟)的低保真度 ResNet,另一个是使用稀疏实验数据和低保真度数据的输出作为输入的高保真度 ResNet。目标是发现低保真度和高保真度数据之间的非线性相关函数,然后预测高保真度下的弹性模量和屈服应力。参考文献^64中报告的结果显示了多保真度框架的出色性能,将现有技术对屈服应力的推断误差从超过100%降低到低于5%。

分子模拟中的应用。 在参考文献^145中,提出了一个神经网络架构,用于表示分子动力学模拟中的势能面,其中通过适当的预处理保留了分子系统的平移、旋转和置换对称性。这种神经网络表示可以进一步在深度势能分子动力学(DeePMD)^146中得到改进。用从头算模拟中训练的数据替换传统的手工设计的势能函数,DeePMD 以与系统大小成线性比例的成本实现了从头算级别的准确性。在参考文献^147中,使用高度优化的 DeePMD 代码在 Summit 超级计算机上,将分子动力学模拟的极限推向了每天模拟超过1亿个原子的超过1纳秒的轨迹。在这项工作之前,具有从头算准确性的分子动力学模拟是在多达100万个原子的系统中进行的^147,148。

地球物理学中的应用。 物理信息学习还被应用于各种地球物理反问题。参考文献^71中的工作通过将神经网络与全波形反演、地下流过程和岩石物理模型耦合,从地震数据中估计地下属性,如岩石渗透率和孔隙度。此外,在参考文献^149中,通过结合 DNNs 和数值 PDE 求解器,如我们在混合方法部分所讨论的,物理信息学习能够解决广泛的地震反演问题,如速度估计、断层破裂成像、地震定位和源 - 时间函数检索。

软件

为了高效实现 PINNs,最好基于当前的 ML 库构建新算法,如 TensorFlow^150、PyTorch^151、Keras^152 和 JAX^153。已经开发了几个专门为物理信息 ML 设计的软件库,并为该领域的快速发展做出了贡献(表 1)。

 软件名称 用途 语言 后端 参考文献

 DeepXDE 求解器 Python TensorFlow 154

 SimNet 求解器 Python TensorFlow 155

 PyDEns 求解器 Python TensorFlow 156

 NeuroDiffEq 求解器 Python PyTorch 157

 NeuralPDE 求解器 Julia Julia 158

 SciANN 包装器 Python TensorFlow 159

 ADCME 包装器 Julia TensorFlow 160

 GPyTorch 包装器 Python PyTorch 161

 Neural Tangents 包装器 Python JAX 162

当前,快速发展的库主要包括DeepXDE,SimNet,PyDEns,NeuroDiffEq,NeuralPDE,SciANN和ADCME。由于 Python 是 ML 的主导编程语言,因此使用 Python 进行物理信息 ML 更为方便,因此大多数这些库都是用 Python 编写的,除了 NeuralPDE^158 和 ADCME^160,它们是用 Julia 编写的。所有这些库都使用其他软件(如 TensorFlow^150)提供的自动微分机制。其中一些库(如 DeepXDE^154 和 SimNet^155)可以用作求解器,即用户只需要定义问题,然后求解器将处理所有底层细节并解决问题,而另一些(如 SciANN^159 和 ADCME^160)仅作为包装器,意味着它们将其他库(如 TensorFlow)的低级函数包装成相对高级的函数,以便更容易实现物理信息学习,用户仍然需要实施解决所有问题的步骤。软件包如 GPyTorch^161 和 Neural Tangents^162 也允许通过核方法研究 NNs 和 PINNs。这种观点产生了对 PINNs 训练动态的新理解,随后激励了新有效架构和训练算法的设计^76,77。

DeepXDE 不仅可以求解整数阶常微分方程和偏微分方程,还可以求解积分 - 微分方程和分数阶偏微分方程。DeepXDE 通过构造实体几何技术支持复杂域几何,并使用户代码保持简洁,与数学公式非常接近。DeepXDE 还具有良好的结构和高度可配置性,因为其所有组件都是松耦合的。我们注意到,除了作为计算科学和工程问题的研究工具外,DeepXDE 还可以作为多样化课程中的教育工具。尽管 DeepXDE 适用于教育和研究,但由 Nvidia 开发的 SimNet^155 特别针对 Nvidia GPU 进行了优化,用于大规模工程问题。

在 PINNs(框 3)中,需要计算网络输出相对于网络输入的导数。可以使用 ML 包(如 TensorFlow^150)提供的自动微分来计算导数。例如,可以使用 TensorFlow 的 tf.gradients(U,t)  来计算  U  对  t  的偏导数,而二阶导数可以通过两次应用  tf.gradients  来计算。DeepXDE 提供了一种更方便的方法来计算高阶导数,例如使用  dde.grad.hessian  来计算 Hessian 矩阵。此外,使用  dde.grad.hessian 还有两个额外的优势:首先,它是惰性求值(lazy evaluation),意味着它只会计算 Hessian 矩阵中需要的元素,而不是整个 Hessian 矩阵;其次,它会记住已经计算过的梯度,以避免重复计算,即使用户在代码的不同部分多次调用该函数。这两个特性可以在需要多次计算梯度的问题中加速计算,例如在耦合 PDEs 的系统中。

大多数这些库(如 DeepXDE 和 SimNet)使用物理作为软惩罚约束(框 3),而 ADCME 将 DNNs 嵌入到标准科学数值方案中(如用于 ODEs 的 Runge-Kutta 方法,以及用于 PDEs 的有限差分、有限元和有限体积方法)以解决反问题。ADCME 最近还扩展以支持隐式方案和非线性约束^163,164。为了在大型网格上进行真正的大规模科学计算,还支持基于 MPI 的域分解方法,并已在复杂问题上展示了良好的可扩展性^165。

使用哪种模型、框架、算法?

随着方法论和软件工具的不断增长,自然会出现一系列问题:给定一个物理系统和/或控制定律以及一些观测数据,应该使用哪种 ML 框架?选择哪种训练算法?考虑多少训练样本?尽管目前还没有通用的经验法则来回答这些问题,需要一定程度的经验来正确设置物理信息 ML 模型,但元学习技术^166–168 可能在未来自动化这一过程。选择与需要解决的具体任务密切相关。在提供一个高层次的分类中,我们注意到 PINNs 通常用于从有限数量的观测中推断与底层物理定律兼容的确定性函数(无论是初始/边界条件还是其他测量)。PINNs 模型的底层架构由给定问题的性质决定:多层感知器(multi-layer perceptron)架构通常适用,但不编码任何专门的归纳偏差;卷积 NN 架构适用于网格化的 2D 域;傅里叶特征网络适用于解表现出高频率或周期边界条件的 PDEs;递归架构适用于非马尔可夫和时间离散问题。此外,PINNs 的概率变体也可以用来推断随机过程,允许捕获认知/模型不确定性(通过贝叶斯推理或频率集成frequentist ensembles)或偶然不确定性(通过生成模型,如变分自编码器和 GANs)。然而,DeepONet 框架可以用来推断一个算子(而不是一个函数)。在 DeepONet 中,底层架构的选择也可以根据可用数据的性质而变化,例如,对于分散传感器测量(多层感知器)、图像(卷积 NNs)或时间序列(递归 NNs)。在所有上述情况下,所需的样本复杂性通常事先是未知的,通常由以下因素决定:架构中使用的归纳偏差的强度;观测数据与作为正则化的底层物理定律之间的兼容性;以及要近似的底层函数或算子的复杂性。

当前局限性

多尺度和多物理场问题

尽管物理信息学习在一系列应用中取得了最近的成功,但多尺度和多物理场问题需要进一步的发展。例如,全连接 NNs 在学习高频函数方面有困难,文献中称为“F- 原则”^169 或“频谱偏差”^170。此外的工作^171,172 严格证明了 DNNs 中存在频谱偏差,并推导出了训练收敛率与目标频率的函数关系。此外,目标解中的高频特征通常会导致陡峭的梯度,因此 PINN 模型通常难以准确惩罚 PDE 残差^45。因此,对于多尺度问题,网络难以学习高频分量,并且经常可能失败^76,173。为了应对学习高频分量的挑战,需要开发新技术来帮助网络学习,例如域分解^105、傅里叶特征^174 和多尺度 DNN^45,175。然而,同时学习多物理场可能是计算上昂贵的。为了解决这个问题,可以首先分别学习每个物理场,然后将它们耦合在一起。在 DeepM&M 方法中,对于电对流^60 和高超音速^61 问题,首先分别训练几个 DeepONets 用于每个场,然后通过基于额外数据的监督学习,使用并行(parallel)或串行(serial) DeepM&M 架构学习耦合解。也有可能通过在粗尺度上学习物理,仅在小区域中使用细尺度模拟数据^176。

目前,在基于 NN 的 ML 方法中,物理信息损失函数主要以逐点方式定义。尽管具有这种损失函数的 NN 可能在一些高维问题中取得成功,但它们也可能在一些特殊的低维情况下失败,例如具有非光滑导电性/渗透性的扩散方程^177。

新算法和计算框架

物理信息 ML 模型通常涉及训练具有复杂损失函数的大规模 NNs,这些损失函数通常包含多个项,因此是高度非凸优化问题(non-convex optimization problems)^178。损失函数中的项在训练过程中可能相互竞争。因此,训练过程可能不够稳健和稳定,无法保证收敛到全局最小值^179。为了解决这个问题,需要开发更稳健的 NN 架构和训练算法,以适应各种应用。例如,参考文献^76,77,173 已经确定了 PINNs 的两个基本弱点,将频谱偏差^170 与 PINN 损失函数中不同组成部分的收敛率差异联系起来。后者在训练中由于不稳定性,会导致后向传播的梯度消失。正如这些参考文献^76,77,173 所讨论的,可以通过设计适当的模型架构和新的训练算法来缓解这些病理。此外,参考文献^104 使用 PDE 的弱形式和通过分解的 hp- refinement来增强网络的近似能力。其他示例包括自适应修改激活函数^180 或在训练期间采样数据点和残差评估点^181,这加速了收敛并提高了物理信息模型的性能。此外,目前有效 NN 架构的设计是由用户经验性完成的,这可能非常耗时。然而,新兴的元学习技术可以用来自动化这一搜索^166–168。有趣的是,架构可能会随着系统分叉参数(bifurcation parameters)(如雷诺数)的增加而发生变化。深度学习模型的训练和优化成本高昂,加速学习至关重要,例如通过 DeepONets 的迁移学习,如参考文献^182 中报告的裂纹扩展示例。此外,应该开发可扩展和并行的训练算法,利用硬件如 GPU 和张量处理单元,使用数据并行和模型并行算法。

与经典的分类或回归任务只需要梯度下降的第一阶导数不同,物理信息 ML 通常涉及高阶导数。目前,它们在流行软件框架(如 TensorFlow 和 PyTorch)中的有效评估支持不足。一个更高效的 ML 软件库,用于计算高阶导数(例如,通过泰勒模式自动微分)^183,184 可能大大减少计算成本,并推动物理信息 ML 在不同学科中的应用。除了整数阶导数外,其他算子,如积分算子甚至分数阶导数^103,在物理信息学习中也非常有用。

数据生成和基准测试

在处理成像、语音和自然语言处理问题的 ML 社区中,使用标准基准测试非常常见,以评估算法改进、结果的可重复性和预期计算成本。创建于三十多年前的 UCI 机器学习库^185 是一个数据库和数据生成器的集合,通常用于比较新算法的相对性能。目前,它们还包括物理科学中的实验数据集,例如机翼产生的噪声、与厄尔尼诺相关的海洋温度和洋流测量,以及不同游艇设计的水动力阻力。这些数据集是有用的,并且旨在用于 ML 中的数据驱动建模,但原则上它们也可以用于基准测试物理信息 ML 方法,假设可以在数据库中明确包含适当的参数化物理模型。然而,在物理和化学的许多不同应用中,需要全场数据,这些数据无法通过实验获得(例如,在密度泛函理论和分子动力学模拟或湍流的直接数值模拟中),并且这些数据在时间和内存方面对计算资源的要求都很高。因此,需要仔细考虑如何使这些数据公开可用,如何制作这些有价值的数据,以及如何将物理模型和生成这些数据库所需的所有参数包含在内。此外,还需要研究人员共同努力设计有意义的基准测试,以测试新提出的物理信息算法的准确性和加速情况,这是一个有意义的任务。事实上,即使对于上述图像和其他已建立的 ML 应用,在细化现有基准和指标方面仍有新的发展,特别是如果软件和硬件考虑也被纳入此类评估中(例如,对图像识别的深入分析)^186。在物理系统中,这些困难被进一步加剧,因为目标是预测动态,例如,确定如何捕获或识别动态系统中的分叉和混沌状态将变得复杂。

然而,参考文献^187中引入的新指标,如有效预测时间,可能是适当的,并提供了一个有希望的前进方向。

新数学

尽管物理信息学习模型在经验上取得了成功,但关于这种受约束的 NNs 的理论基础知之甚少。需要新理论来严格分析物理信息学习的能力和局限性(例如,NNs 的学习能力)。更具体地说,一个基本问题是:网络能否通过基于梯度的优化找到 PDE 的解?要回答这个问题,应该分析深度学习中的总误差,它可以分解为三种类型的误差:近似误差(网络能否以任何精度近似 PDE 的解?)、优化误差(能否达到零或非常小的训练损失?)和泛化误差(较小的训练误差是否意味着更准确的预测解?)。分析问题的适定性以及这些误差的稳定性和收敛性很重要。特别是,如果要求解的算子(可能是部分)由数据本身学习,那么建立涉及此算子的任何问题的适定性成为一个令人兴奋的数学挑战。当初始/边界/内部条件本身作为(可能是不确定的)数据提供时,挑战被加剧。这一适定性问题必须从数学上进行分析,并通过 ML 计算探索进行辅助。

参考文献^188中出现了对 PINNs 解决正问题的第一项数学分析,其中引入了 Hölder 正则化来控制泛化误差。具体来说,参考文献^188 分析了二阶线性椭圆型和抛物线型 PDEs,并证明了结果的一致性。参考文献^189,190 在损失公式中使用了积分点,并为正问题和反问题提供了抽象误差估计。然而,没有报告收敛结果,因为使用积分点并不量化泛化误差。在随后的工作中,参考文献^191 研究了线性 PDEs,并提出了一个抽象误差估计框架,用于分析 PINNs^7 和变分 PINNs^104,192。基于紧凑性假设和范数等价关系,获得了收敛到底层 PDE 解的充分条件(sufficient conditions)。泛化误差通过 Rademacher 复杂度来处理。对于连续损失公式,参考文献^49,193–195 根据 PINNs 的连续损失公式推导出了一些误差估计。尽管已知的涉及连续范数(来自 PDE 文献)的误差界限可能作为(连续)PINNs 的误差界限,但必须考虑数据样本以量化泛化误差。

一般来说,NNs 通过基于梯度的优化方法进行训练,应该开发新理论来更好地理解它们的训练动态(梯度下降、随机梯度下降、Adam^196 等)。在参考文献^197 中,分析了过参数化的两层网络,并证明了二阶线性 PDEs 的梯度下降收敛性,但分析中未包括边界条件。

在参考文献^76 中,神经切线核理论^198 被扩展到 PINNs,并表明当网络宽度趋于无穷大时, PINNs 的训练动态有时可以被视为核回归。

通过可视化不同公式(强形式、弱形式等)的损失函数,也有助于理解网络的训练过程。此外,随着越来越多的方法的快速发展,理解模型之间的等价性以及具有不同范数的不同损失函数之间的等价性也很重要。

根据严格的理论分析物理信息 ML 模型,需要深度学习、优化、数值分析和 PDE 理论之间的富有成果的协同合作,这不仅有可能导致更稳健和有效的训练算法,而且还可以为这一代新的计算方法奠定坚实的基础。

物理启发学习是一种结合物理学知识和机器学习方法的新兴领域。传统的机器学习方法主要依赖于大量的数据来进行训练和预测,但在某些领域中,数据收集成本较高或者数据量不足。而物理启发学习的目标就是通过利用已有的物理知识和部分观测数据,来减小对大量样本数据的依赖。 物理启发学习的核心思想是将物理方程和机器学习方法进行融合。通过引入物理约束,可以在不拥有大量数据的情况下,仍能够进行有效的学习和预测。物理方程可以提供关于系统行为的基本规律,而机器学习方法则可以通过学习数据中的模式和规律,来建立一个可以描述系统行为的模型。这种融合的方法使得物理启发学习能够更好地利用数据,并且可以更好地解释和预测复杂的系统行为。 物理启发学习在许多领域中都有广泛的应用。例如,在流体力学领域,物理启发学习可以通过结合流体力学方程和观测数据,来预测流体的运动行为。在材料科学领域,物理启发学习可以用来优化材料的性质和设计新的材料。在天文学中,通过物理启发学习,可以从有限的观测数据中还原天体的演化历史。 总之,物理启发学习是一种将物理学知识和机器学习方法相结合的领域,通过引入物理约束,可以在数据不足的情况下进行有效的学习和预测。这种方法在许多领域中都有广泛的应用,并且有着重要的研究价值和应用前景。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值