两位AI科学家是否达成一致？-CSDN博客

本文链接：https://blog.csdn.net/u013524655/article/details/147077557

Xinghong Fu,* Ziming Liu, 和 Max Tegmark麻省理工学院物理系，人工智能与基本相互作用研究所，美国剑桥

（日期：2025年4月4日）

摘要

当两个AI模型在同一科学任务上进行训练时，它们是学习了相同的理论还是两种不同的理论？在科学史中，我们见证了由实验验证或证伪驱动的理论兴衰：当实验数据缺乏时，许多理论可能共存，但随着更多实验数据的出现，幸存理论的空间变得更加受限。我们展示了同样的故事也适用于AI科学家。随着训练数据中提供的系统数量不断增加，AI科学家倾向于在其学习的理论中趋于一致，尽管有时它们会形成对应于不同理论的独立群体。为了机制性地解释AI科学家学习的理论并量化它们的一致性，我们提出了MASS（作为AI科学家的哈密顿-拉格朗日神经网络），这些网络在物理学的标准问题上进行训练，并通过多个种子模拟AI科学家的不同配置来汇总训练结果。我们的主要发现包括：1）当在经典力学教科书问题上进行训练时，AI科学家更倾向于完全的哈密顿描述或拉格朗日描述；2）当扩展到非标准物理问题时，拉格朗日描述具有泛化性，表明拉格朗日动力学仍然是丰富理论空间中唯一准确的描述家族。我们还观察到训练动态和最终学习权重对种子的强烈依赖性，这种依赖性控制了相关理论的兴衰。除了可解释性外，MASS统一并超越了拉格朗日神经网络和哈密顿神经网络，为动力系统的学习提供了一种新工具。我们将在https://github.com/shinfxh/ai-scientists发布代码。

I. 引言

纵观人类历史，我们集体的好奇心推动了科学的进步。从阿基米德的浮力原理，到伽利略对运动的系统研究，再到牛顿的经典力学公式化，最后到爱因斯坦革命性的相对论理论，这些伟人精心分析观察和实验，发展出能够解释已知现象并预测新现象的强大假设。几个世纪以来，随着技术的进步，我们也提高了精炼实验、用日益精确的数据集测试理论以及相应更新框架的能力。一些假设最终被淘汰，而另一些则演变成更精细的理论，能够在以前未探索的尺度上描述现象[1]。

今天，在二十一世纪，我们正在见证一种新范式的出现。机器学习（ML）和数据驱动方法已经在粒子物理学[2]、天文学[3]、材料科学[4]和量子化学[5]等不同领域开始取代传统的统计工具。一个自然的下一步是设想一个未来，在这个未来中，ML方法从单纯的辅助工具转变为成为“AI科学家”，具备提出假设、设计实验和在最少人为干预的情况下解释结果的能力。开创性的努力已经产生了端到端的AI平台，可以发现物理定律[6, 7]，以及从蛋白质序列中发现分子结构[8]。最近架构的改进[9]，具有吸收和处理大量数据的能力，推动了大型语言模型的发展[10-15]。这些LLMs已经开始成为全自动AI研究科学家的核心[16]。

随着这些AI科学家开始自主运行，值得问的是：它们将提出什么科学理论？历史表明，不同的研究人员，如牛顿和莱布尼茨，可以到达同一现象的互补但不同的表述形式（例如微积分）。类似地，现代ML系统在架构、初始化方案和训练范式上有所不同[17]，这导致了独立训练的AI科学家可能会收敛到不同的理论表述或互补的观点的可能性。此外，随着AI科学家涉足更大和更复杂的数据库——从高维宇宙学调查到复杂的分子动力学模拟——它们学习的表示和理论可能会以意想不到的方式演变[18]。

本文并不试图精确预测AI在未来几十年将如何改变科学。相反，我们提供了一系列受控实验，以调查在不同条件下训练的多个AI科学家在科学理论上的收敛或分歧情况。通过探索合成数据集，我们希望阐明数据复杂性、模型架构选择和训练方法选择如何不仅影响这些AI系统学到的内容，而且影响其内部表示和生成理论的随时间发展[19]。

通过这样做，我们希望为将塑造未来关于AI在科学中的角色的讨论提供一个窗口：AI科学家是否会统一不同的理论，还是会分裂成多个同样有效的观点？他们的理论是否能被人类理解，还是可解释性将成为更大的挑战？本文提出的实验框架和初步结果为这些讨论提供了起点，突显了新兴AI科学家的潜力及其潜在缺陷。

以下是本文的贡献：

我们提出了一种新的架构，MASS（Multiple AI Scalar Scientists），允许单一神经网络在多个物理系统中学习多样化的理论。
我们在包含简单摆、开普勒问题和合成势的数据集上训练MASS。
我们分析MASS中的显著激活，并提炼MASS学习到的理论。

使用MASS作为AI科学家的代理，我们的发现表明：

一位AI科学家可以学习对同一物理现象的多种不同解释。
遇到更复杂的系统时，成功的AI科学家会修改其现有理论以适应新的观察。
AI科学家倾向于学习相似的理论，评估依据是网络内部激活的相似性。这些理论也与哈密顿或拉格朗日描述非常接近。
回收的理论最初类似于哈密顿动力学，然后随着系统复杂性的增加逐渐接近拉格朗日表述。这表明即使在丰富的理论空间内，拉格朗日表述仍然是唯一的正确理论。

II. 相关工作

科学家的目标是从观察中恢复方程。AI科学家也是如此。给定某物理系统的数据集，我们的目标是揭示底层的物理方程所代表的“真相”。解决这个问题的努力结合了离散方法（如组合优化，利用遗传编程的方法[20]）和连续方法（围绕符号回归展开[6]）。底层假设是最终表达式中的项数较少，这启发了稀疏线性回归的方法[21]。引入了物理先验条件[22]以提高符号回归技术在发现已知物理方程方面的能力。在本文中，我们提出了一种方法，通过最小物理先验条件，利用作用量平稳原理，学习单个标量函数来发现底层物理定律。这两个特性由哈密顿神经网络（HNN）[23]和拉格朗日神经网络（LNN）[24]共享。

受经典力学哈密顿表述的启发，HNN将学习物理系统运动方程的任务分解为首先学习一个标量函数——哈密顿量，然后使用哈密顿正则方程获取:

其中分别是正则位置和动量。然而，在某些情况下，写出这些正则坐标的表达式并不容易。LNN解决了这个问题，通过学习拉格朗日量而不是哈密顿量，并根据欧拉-拉格朗日方程取导数：

这避免了需要明确表达正则动量的需求，使LNN在某些物理系统中具有优势。

自从这些工作的引入以来，已有重大进展提升了训练效率[25, 26]，并将这些网络应用于刚体动力学[27]、粒子相互作用[28]、视频预测[29]和生成建模[30]等领域的问题。然而，在这些工作中，底层运动方程（方程1和2）被嵌入到模型架构中，模型因此学习由该方程支配的相应理论。相反，我们提出以下问题：当模型被赋予学习多种理论的自由时，它会学习什么？

在本工作中，我们提出的模型Multiple AI Scalar Scientists (MASS)是一个通用框架，包含了LNN和HNN作为特殊情况。MASS同样受到作用量平稳原理的启发。像LNNs和HNNs一样，我们的目标是从数据中学习一个自由形式的标量函数。然而，与LNN和HNN不同的是，它们有硬编码的运动方程，而我们为MASS配备了学习运动方程的能力。对于由广义坐标和速度描述的物理系统，可以学习一个标量函数（类似于拉格朗日量或哈密顿量），该函数支配系统的演化，使得路径遵循作用量平稳原理。

MASS的架构设计使其能够学习由MASS学习的每个项系数定义的丰富理论空间。与[24]类似，我们的实验是在广义坐标下进行的。通过一系列对这些坐标下的MASS科学家集合的受控实验，我们将探究所学习的基础理论。

III. MASS: AI科学家

为了模仿人类科学家的操作方式，MASS背后的核心思想是在单一神经网络中嵌入从多个物理系统中学习和统一信息的能力。与其为每个系统单独拟合模型，MASS旨在内化一个捕捉所有数据集中基本模式的共享框架。具体来说，它是通过学习一个标量函数——类似于拉格朗日量或哈密顿量——其导数编码系统特定的动力学来实现这一点的。如图2所示，MASS采用以下工作流程：

数据摄取：MASS接收来自各种物理系统（如摆、轨道问题或其他合成势）的观测数据（例如轨迹、状态或能量值）。
假设形成：每个系统都有一个独立的神经网络学习一个单一的标量函数，该函数封装了系统特定的动力学。
理论评估：一个在所有系统中共享的最终层对标量函数相对于系统坐标（位置、动量和/或速度）进行求导，MASS推断出系统的控制方程。这强制执行跨越多个系统的总体理论一致性。
精炼与泛化：模型的输出（在这种情况下是输入的时间导数）随后与真实训练数据进行比较以计算误差。误差在所有系统中求和，然后通过反向传播优化一个同时与多物理观测一致的单一理论。

通过迭代这些步骤，MASS力求为每个系统发现一个单一的标量函数，并形成一个跨系统的共享最终层以形成一个广义理论。一起，标量函数和最终层中的权重（即MASS如何取导数）构成了它学习的理论。

IV. 方法

我们用表示一个单一的MASS科学家网络。从个不同的物理系统中学习。一些系统的例子包括弹簧质量系统、引力系统和量子力学系统等。每个系统都遵守某种底层物理定律，无论是引力吸引的平方反比定律，还是薛定谔方程。为简单起见，并作为一个概念验证，我们将系统限制在经典力学以下。

数据摄取：系统输入的变量是维的广义坐标，表示为，其中和分别是广义坐标及其时间导数。对于一个简单的摆，我们可以将表示为一维问题，或者用和表示二维笛卡尔坐标中的问题。

假设形成：此模块由个独立的神经网络组成，每个网络为系统学习一个独立的势能函数。我们将这一前向传递记为

在本文中，我们专注于MLP，这对于学习已经足够。

理论评估：共享导数层计算相对于输入变量的导数，直至二阶导数。注意，给定维输入，即，单变量导数为列向量，而二阶导数（及其逆）为海森矩阵，即。为了允许网络学习一组多样化的理论，我们计算至多三个项乘积的所有项，使得最终结果是一个向量，预测时间导数。特别地，令向量集为，矩阵集为。有三种类型的项可以潜在地预测：

其中且
其中且

在我们的实现中，总共有种不同类型的项，我们显式计算它们为

其中是导数层，给出了可能进入最终方程的项。

在最后一层，网络学习这些向量的线性组合以预测输入的时间导数。注意，由于我们使用广义位置和动量，几乎不变（最多相差一个常数因子）。本文其余部分聚焦于调查预测的最终层的激活集。我们将此最终层记为，的输出预测将由

精细化与泛化：对于特定系统，我们预测并计算与真实数据的均方误差损失。然后我们将所有系统上的损失求和，并对累积梯度进行反向传播。经过收敛后，模型发展出一套在多个物理系统中一致的理论。优化目标写为

其中是系统中个样本的拼接，期望是对每个系统独立抽取的样本进行的。

我们发现参数化的优化高度不稳定（如[24]中观察到的那样），这是由于矩阵中导数和逆的计算所致。实验程序和超参数设置在附录 A 中更详细说明，但一些关键设计选择有助于实现稳定训练：

使用带正则化稳定项的伪逆计算。不计算，而是计算，其中被惩罚为训练中的正则化项。
AdamW [31] 优化器与余弦学习率调度 [32] 和温暖重启。
扩展输入以包括的二阶项。

V. 实验

A. 单个科学家：相关理论

“或许，为了描述宇宙，我们必须在不同情况下运用不同的理论。每个理论可能有自己的现实版本，但根据模型依赖的现实主义，只要理论在重叠时预测一致，即两者都能适用时，这是可以接受的。”

斯蒂芬·霍金 & 列纳德·蒙洛迪诺，《大设计》（2010）

训练动态
模拟轨迹

图 3. MASS 在简单谐振子上的训练结果。 (a) MASS（种子 0）在每步 512 个批次大小下训练 10000 步，达到 MSE 损失。显著权重的数量，计算为占最终层权重向量总范数前的权重数量，随着损失减少而减少。(b) 单个振荡器的重建运动准确捕捉了运动的频率和幅度。

霍金声明的核心信息是，多个理论框架可以提供同样有效的物理现象描述，只要它们的预测与实验一致。一个典型的课堂演示是无阻尼弹簧-质量系统。可以引用牛顿运动定律，其中控制方程为

或者切换到哈密顿表述，其中能量函数和守恒定律提供了另一种视角。

另一方面，机器学习模型往往被过度参数化，通常给予它们相当大的灵活性来拟合数据，即使对于相对简单的物理系统。一个有趣的问题出现了：如果我们训练一个单一的 “AI 科学家” 网络在一个简单的谐振子上，它会学习什么样的理论表示，又将如何与标准的牛顿或哈密顿描述相比较？

为了调查这一点，我们在无阻尼弹簧-质量系统的模拟数据上训练了 MASS。图 3 显示了训练结果。特别是，我们观察到在简单的谐振子上训练对 MASS 来说并不是一项困难任务，收敛到 MSE 损失。我们感兴趣的是了解模型如何学习和简化其理论，在最终层添加和正则化。为此，我们跟踪了训练步骤中的显著权重数量，计算为占最终层权重向量总范数前的权重数量。观察到这也随着总的训练步骤减少，但在相当大的 42 个数字处趋于平稳。这意味着几乎有 42 个权重项具有显著大小，远非简单的理论！

使用 MASS，我们还可以轻松模拟振荡器的轨迹，图 3 展示了 MASS 提供的预测一致性。

(a) 等高线图

(b) 哈密顿量

图 4. (a) 学习的标量函数的等高线图，与 (b) 哈密顿量对比。MASS 通常可以学习与传统物理先验相似但不同的函数。

图 4 展示了相空间上学到的标量函数，并与规范的哈密顿函数对比。一个单一的 MASS 科学家能够恢复势能和动能之和的表达式。然而，我们已经看到这两个表达式之间存在一些差异。需要注意的是，我们学到的是凸的而非凹的，如同。还取负值，这在能量表达式中通常是不允许的。在这个例子中，一般而言，轮廓也可能看起来偏斜、平移甚至类似于完全不同的圆锥曲线。这显示了提供给 MASS 的理论空间的丰富性。

虽然最终层中的权重提供了哪些项重要的线索，但这并不是全部故事。首先，对的最终预测的贡献存在于和

其中表示第个导数项，例如

(a) 权重和激活 (b) 相关图（激活）

图 5. （a）最终层的权重（蓝色）和平均激活范数（红色）。按平均激活幅度排名前五的项为：。（b）重要激活的相关性，仅保留对前累计的有贡献的索引，并在分层聚类后绘制。大多数项强相关。

因此，我们在 512 个数据点的样本批中计算激活向量。在图 5 中，我们将激活的平均范数（在 512 个数据点上取期望）与权重进行比较。一般来说，非零权重对应非零激活范数，但各项幅度的相对顺序不一定保持一致。特别是，当的二阶导数较小时，海森矩阵的逆如较大。

对最终预测贡献最大的激活幅度按降序排列为：当按权重范数排序时，前五项为。这些项的相似性是 MASS 学到的最终理论的重要项的强指示器。

下一步，我们过滤到重要项的数量。按照图 3 中的惯例，我们只保留那些占总幅度前的项。也就是说，如果，那么就是重要项的数量。在这些剩余的重要激活上，我们在图 5 的热图中计算相关性，并根据层级聚类按相似性排序 [35]。有三个不同的簇，分别由向量和的线性矩阵乘积构成，从左上到右下。

多项的存在与一个仅包含显著激活为的平凡理论形成对比，后者给出完美的预测。哈密顿表达式会构造并预测。网络多表达性的原因是大多数二阶项在标量函数最多为二阶时是常数。例如，可以很容易构思一个学习的网络，其中海森矩阵及其逆成为常数乘积。学习这些乘积的不变性导致了我们所见的表达式混合。不过，这些项结果高度相关，它们主要仅代表一个理论。在下一节中，我们将讨论当AI科学家接触到更复杂的物理系统时，重要项如何演化，哪些项存活，哪些项消亡。

本节的主要结论是：

单个AI科学家可以非常有效地学习单个简单系统（图3），并且随着训练的进行，它学会过滤其理论。
底层理论与一些熟悉的物理函数相似（图4）。
当结合大容量时，单个AI科学家往往会学习许多看似独立的理论（图5(a)）。
然而，这些理论中有许多高度相关（图5(b)）。

B. 多个系统：稀疏化与多样化

“在二十世纪初，人们发现水星的运动并非完全正确。这引起了很大的麻烦，直到爱因斯坦证明牛顿定律稍有偏差，必须加以修正。”

理查德·费曼，《物理学定律的本质》（1967）[36]

简单的谐振子可能对于机器学习模型来说过于简单。你看，它只需要拟合。我们现在扩展实验，研究当AI科学家一开始只观察单个系统，然后遇到更复杂的物理系统时会发生什么。按照第三节中的训练范式，MASS为每个系统学习一个单独的标量函数，同时共享同一个最终层。我们在一次训练中汇总所有系统的损失。这里感兴趣的特定系统是：

简单谐振子
简单摆
开普勒（引力势）
相对论谐振子

图 6. MASS 在越来越复杂的系统上训练。虚线表示训练的不同阶段。从简单谐振子开始，系统依次暴露于简单摆、引力势和相对论谐振子，在第步骤分别引入。损失在每次训练步骤中暴露的所有系统上汇总。

图 6 显示了我们在上述顺序中每隔 10000 步引入一个系统后的训练结果，即每个训练阶段持续 10000 步。这种特定顺序大致代表了对人类科学家而言系统的复杂程度。我们观察到，随着更多系统的引入，现有理论要么存活下来，要么失败，这取决于控制 MASS 网络初始化的随机种子。例如，种子 80 在简单摆处失败，种子 96 在引力势处失败，种子 569 在相对论势处失败。这意味着尽管它们在之前的任务中存活下来，但它们可能发现了“错误”的理论，仅仅过拟合到了之前的任务。有趣的是，尽管一些 MASS 初始失败，但当面对更复杂的系统时，它们可以开始学习准确的表示。这种后期启动的直觉可以通过更复杂的系统对 MASS 施加的更多约束来理解，这有助于其收敛。

不同种子在每个系统上的聚合行为将在第五节 C 部分进一步讨论。在本节剩余部分中，我们分析一个单一的 MASS 及其存活的项。特别是，这将是种子 52。类似于第五节 A，我们再次分析图 7 中的激活。

图 7. (种子 52) 单个 AI 科学家在复杂性递增的系统上训练时学到的两两相关性。从顶部开始，每行分别对应步骤 10000、20000、30000 和 40000 的激活。相关图在过滤显著项后绘制，这些显著项贡献了激活向量总幅度的前 99%。显著项的数量，由不同方块的数量显示，随着系统的数量增加而减少。相关图在分层聚类后绘制。请注意，许多这些项强相关（无论是正相关还是负相关）。

总的来说，我们做出以下观察：

随着系统的数量增加，学到的独特项的数量减少。
随着系统的数量增加，理论变得更多样化。

第一个结果，从图 7 中可以看出，显著项的数量，通过计数每个相关图中方块的数量，从 SHO 的 20 降到 6，摆的 12 降到 7，引力问题的 10 降到 5，这表明更少的项可以同时解释所有系统，而不仅仅是较小的子集。第二个结果可以从图 7 底部右侧非相关项的出现趋势中观察到。我们还发现，当任务是解释一组系统时，MASS 几乎使用相同的项！可以看到，图 7 的最后一行基本上使用了相同的 6 到 7 个项来解释所有 4 个系统。这些项对应于

对的高度依赖性被认为是源自对简单谐振子的初始解释，MASS 从中学到的项是的常数乘积，并从这些项中发展出新系统的理论。我们在另一组实验中验证了，通过打乱系统的顺序，先从更难的系统开始，会导致更多关注与和更相关的项。

简明扼要地说，本节的主要结论是：随着AI科学家接触到更多的系统，独特项的数量减少。

C. 多个科学家：理论混合

“在1926年初的一段时间里，似乎突然出现了两个自我完备但截然不同的解释系统：矩阵力学和波动力学。但薛定谔自己很快便证明了它们的完全等价性。”

马克斯·玻恩，诺贝尔奖演讲（1954）

当多位科学家独立研究同一个问题时，有些人得出的理论看似完全不同，但后来却发现它们只是同一事物的两个方面（想想牛顿和莱布尼茨对微积分的描述）。理论之间的差异在后来得到调和的情况更为常见于当今机器学习的进展[37-40]。而在其他情况下，理论仍然彼此不同，尽管它们都服从相同的实验结果，这非常类似于经典力学中哈密顿和拉格朗日标量函数描述。

在本节中，我们研究了不同MASS科学家（我们将用不同的初始种子表示）在研究相同系统时所学习的理论之间的关系。

不同科学家的确切权重和每个激活的值有很大的差异。根据初始化的不同，确切的项会发生显著变化（参见图13及附录B中的更多内容）。尽管各个项的幅度有所变化，但每位科学家选择的重要项却相当一致。我们在图8中展示了每个激活项的相对幅度。可以看出，有一些明显的线条沿此条带分布，表明在MASS框架下可以学习到的系统理论项。

尽管如此，激活幅度和权重的大范围变化表明，虽然MASS学习到的理论都在图8中的深色线条范围内，但很可能每位科学家学习到的内容各不相同。检查个别AI科学家学习的标量函数（参见附录C中的图16），很难看出潜在的相似性和差异。这些AI科学家是否都在学习完全不同的东西？我们现在将展示事实并非如此。

考虑MASS最终层的激活，其形状为，在一批样本中，最终层有项。具体在我们的案例中，我们有。我们通过PCA进行降维。结果表明，在大多数种子中，第一主成分已经解释了超过的方差。将其降维到第一主成分后，得到的激活集，我们发现在图14中，实际上每个激活值都等价于均匀分布（见图14）。

这些观察结果在使用相对论弹簧-质量系统和简单摆的多科学家设置中得到了验证，如图15(b)和15(a)所示。

计算激活之间的相关性显示，每位科学家实际上与其他科学家高度相关（见图9）。请注意，接近-1的相关性表示奇偶翻转，这种情况令人惊讶地很少出现。

这些结果使我们得出结论：当在相同物理系统上训练时，多位科学家学习相同的底层理论。事实上，这已经回答了我们的第一个研究问题：两位AI科学家确实达成了共识！

图 9. 50位MASS科学家分别研究各种物理系统的第一个主成分的相关性。大多数相关性都很高，例外是接近-1的相关性，代表奇偶翻转。系统(a)、(b)、(c)、(d)分别有96.4 %、74.8 %、93.7 %、87.5 %的种子，其第一个PCA成分解释了超过80 %的方差。

D. 探索未知：拉格朗日就是你所需要的

“我认为，这项奖励部分认可了这样一个事实，即理解诸如心智之类的深层问题不会像牛顿物理学那样以简单的方式出现。”

John Hopfield，诺贝尔奖访谈（2024）

在本节剩余部分中，我们将分析扩展到完全通用的情况：多个MASS科学家在多个物理系统上训练。再次，我们按照第四节中的方式训练，不断让MASS接触越来越难的系统，并在每个系统上汇总误差。

同时，我们介绍MASS框架在未见过的物理系统上的扩展。迄今为止，我们一直在复制已知问题的结果：简单谐振子、简单摆、引力势和相对论振荡器。训练MASS在这些系统上的原动力在于它们已经被深入研究，为我们提供了一个良好的基准来衡量MASS的性能。然而，科学发展的一个自然进步方向是当我们把当前框架扩展到尚未发现的系统时会发生什么。同时，这四个典范系统远远在MASS的能力范围之内。学习到的理论并不是非常

图 10. 随着系统数量的增加，平均显著项数量和正确科学家的数量。从SHO开始，我们在系统2、3和4处分别加入摆、引力和相对论谐波问题，接着加入两个合成势（见表I）。实线（% Correct）给出了在第n个训练阶段后收敛损失小于的种子百分比。虚线给出了在第n个训练阶段之前收敛损失小于的种子百分比，即一直正确的MASS科学家。结果在1000个训练种子上并行化。图9）并且某些最终层中的项几乎始终不被使用（见图8）。理论上，这可以归因于一维系统产生的势能函数通常不涉及交叉项。例如，即使在MASS所接触的最复杂的相对论谐振子中，也可以用一个拉格朗日形式的势能函数来表示

对于这种情况，。为了将我们的研究扩展到未见过的物理系统，并充分利用MASS网络的容量，我们引入了合成系统。我们在表I中列出了修改内容，通过描述每个系统的动能和势能来进行说明。特别是，我们引入了两个额外的合成系统，作为相对论谐振子的扩展，具有更复杂的势能项。

我们的关键结果如图10所示，其中我们计算了正确的MASS科学家的数量，定义为评估损失小于的种子数量，该评估损失是通过计算所有已见物理系统的最大均方误差得出的。我们还计算了显著项的数量，定义为达到总范数的95%所需的最终层中的项数（总共项）。这些值在每个训练阶段结束时汇总。回想一下，

表I. 本工作中使用的七个一维系统的总结。对于每个系统，我们展示了通常的动能和势能。总能量由给出。本文约定，。合成系统设计为使其一阶泰勒展开与相对论谐振子匹配，最多加上并按常数缩放。注意，在相对论情况下（系统4至6），拉格朗日量不仅仅是，而是动能项以的形式出现。

系统
(1) 经典
(2) 摆
(3) 开普勒
(4) 相对论
(5) (合成)
(6) (合成)

在一个单独的训练阶段中，MASS科学家暴露于一个新的系统并在损失之和上进行训练。通常，一个阶段持续10000步。

随着系统数量的增加，一直正确的MASS科学家数量减少（图10中的虚线蓝色部分），这里的一直正确意味着在第n个阶段之前的所有阶段都有低收敛损失。这是直观的，因为在第n个阶段结束时一直正确的MASS科学家总是第n-1阶段结束时的一个子集。不太直观的是实线蓝色部分：正确科学家的数量可以随着系统数量的增加而增加。这类似于图6中的种子506，当一个MASS科学家在一个较简单的系统上失败，但当接触到更多系统时，它学会了潜在的基本理论并成功了。这种科学家网络的复苏突显了为简单任务配备更困难任务的重要性。

显著项的数量也显示出持续下降的趋势。这巩固了图9的结果但仍令人惊讶！为了独立描述每个系统，MASS科学家依赖于相当不同的权重集合，如图8所示。与其学习分别描述不同系统的项，即学习每个理论的项的并集，MASS反而学习了这些项的交集，体现了共享最终层的目的。

在训练了6个系统之后，显著项的数量仍然超过6个。一个六项理论很简洁，但远不及方程1和2那样的简单性。在本节剩余部分中，我们将展示如何轻松提炼底层理论，以及这个底层理论实际上是一个拉格朗日量。

(a) 每种理论的比例

(b) 线性拟合的

图 11. MASS从学习哈密顿理论转向拉格朗日理论。(a) 学习和符号相反（拉格朗日）与相同（哈密顿）的MASS科学家比例。(b) 激活值与拉格朗日或哈密顿势导出值线性拟合的得分。误差条显示得分的标准差。

1. 简单问题：哈密顿就够了？

回想一下，在哈密顿表述中，即我们学习为，其中是哈密顿量，是动能，是势能。在拉格朗日表述中，我们学习为。这里的符号翻转至关重要。

给定数据坐标和MASS科学家的权重，我们可以计算标量函数。我们还可以预先计算动能和势能项和，然后线性拟合为。如果和符号相反，我们认为MASS科学家学习了一个拉格朗日理论；如果和符号相同，则认为学习了一个哈密顿理论。

除了上述离散计数方法外，我们还可以直接将一批激活值与我们从解析表达式计算出的拉格朗日和哈密顿激活值进行拟合。由于MASS可以学习一个干净理论的简单变体却得到相似的准确性，因此这种拟合不应期望完全准确。例如，学习和可能最终效果相同，因为第一导数项变化一个常数，而第二导数项完全相同。尽管线性拟合存在不完美之处，但许多样本的平均趋势仍能告诉我们一些关于每种理论的关系。

图11总结了这些结果，并展示了在多个系统上学到的理论演变。当只训练简单谐振子或摆时，MASS几乎完全学习了哈密顿描述（超过90%的科学家同意）。在这种简单设置下，存在一些稀疏项选择，在哈密顿方程（方程1）下可产生低损失，MASS倾向于此。学习到的标量函数本身也表现出强相关性。

2. 复杂问题：拉格朗日就够了

当我们从简单摆扩展到更复杂的问题时，故事发生了变化。在这些系统（表I中的3到6）上，MASS切换到了拉格朗日理论。正如[24]中讨论的那样，这是因为拉格朗日可以直接应用于广义坐标，而哈密顿需要正则坐标。由于我们的数据以广义坐标呈现，MASS架构支持在此坐标系中进行计算，遵循拉格朗日表述。令人惊讶的是，拉格朗日标量函数本身的关联度也在增加，表明在总体水平上，AI科学家趋向于这一单一的物理系统描述家族：拉格朗日描述！

图11显示了偏向拉格朗日表述的结果，但从未明确证明计算忠实遵循拉格朗日。当然，我们不应该期望如此，鉴于MASS赋予的能力，为什么它要遵循某个“好”的理论？但事实证明，它几乎完全做到了！我们将通过约束优化的方法展示这一点。

在拉格朗日表述中，的预测将由[24]给出

MASS最终层的激活值因此集中在项和上。然而，我们网络的多表达性允许许多项与这两个项线性相关。

表II. 方程7目标的约束优化。目标是将预测的激活减少到一个或两个项。高值表明学到的网络恢复了与分析拉格朗日相同的函数依赖关系，只是嵌入在更高维度中。

系统
(1D) 相对论		0.9995
(1D) (合成)		0.8205
(1D) (合成)		0.8734
(2D) 双摆	0.7317

我们解决了约束优化问题。给定数据坐标和MASS科学家的权重，我们可以计算标量函数，并从中获得代表拉格朗日理论的两个项。我们称这些为和。和可以通过JVP轻松计算。我们还可以通过前向传递通过获得最终层的激活值。然后，我们解决约束优化问题

其中是从包含172项的MASS激活空间转换到包含2项的拉格朗日激活空间的变换，约束10限制了仅使用激活中的所有权重的变换，即不允许通过完全避免某些激活并过度使用其他激活来作弊。技术注释：在表I的前四个系统中，我们总是得到一个平凡解，因为（由于交叉项）。感兴趣的是在合成系统中发生的情况，其中交叉项非零，MASS被迫在和中学习非平凡的内容。

我们在表II中总结了这些结果，其中包括单项。我们在正确的科学家之间平均这种约束优化拟合的得分以生成表II。与之前的观察一致，MASS几乎可以直接转换为拉格朗日理论，值高于0.9。如果我们尝试从可用的项中随机挑选任意两项，甚至挑选激活幅度最高的两项，约束优化通常会失败，表现为保留测试集上的负得分。

这种与拉格朗日的强烈相关性引发了一个更广泛的问题：我们能否找到经典力学的第三种描述？至少在MASS工作于丰富的理论空间项中时，答案似乎是否定的！拉格朗日就是你所需要的。

E. 高维扩展

虽然在前面的部分中，我们主要处理了一维问题，即，但自然界中的大多数物理问题都是高维的。在本节中，我们研究了一个经典的例子：混沌双摆问题。两个自由度是两个摆的角度。我们的结果显示MASS可以有效地扩展到高维问题。

按照第四节中相同的训练方案，我们在图12中重现了双摆的解析正确轨迹，每一步调用MASS求解器并使用RK4积分法[41, 42]。

我们不仅能够实现角度的相当精确预测，而且每100步的能量差异仅为总能量的0.4%。这与拉格朗日神经网络[24]的结果相当。即使没有直接将拉格朗日和欧拉-拉格朗日方程引入架构以强制能量守恒，MASS也能学会再现它。

我们还观察到，与我们的预期一致，所学理论类似于拉格朗日，进一步结果包括在表II中。

我们在附录D中提供了更多关于球形摆和多体引力问题的解轨结果。我们并不声称MASS是一种最先进的物理系统求解方法，特别是在本项目范围之外调整MASS以提高高维问题上的效率和准确性。事实上，海森矩阵及其逆的计算对问题的维度有的依赖性，因此直接将当前求解器应用于极高维问题是十分昂贵的。尽管如此，MASS在足够水平上解决双摆问题的明显适用性展示了其未来探索的潜力，并强调了本文的精神：构建既简单又可解释且普遍适用于复杂物理系统的AI科学家。

VI. 讨论

那么两位AI科学家是否达成一致？简短的回答是肯定的。但这带有一些注意事项。

回顾过去，我们质疑图9和图11中的结果之间的关系。前者中，我们观察到每个MASS科学家所描述的理论之间存在强相关性。与图11相比，我们看到科学家可以学习不同理论的迹象。结合起来看，这表明一些理论位于“哈密顿”轮廓和“拉格朗日”轮廓的边界之间。我们没有对学习到的标量函数的结果进行严格的符号回归。鉴于MASS可以学习的大量术语，我们相信图11和表II的结果讲述了一个更丰富的故事，关于底层理论。我们通过对训练系统进行彻底的数值分析，通过统计哈密顿和拉格朗日理论的数量，并测量激活的相关性，得出了拉格朗日理论的泛化性结论。

回答原始研究问题时，我们选择了使用不同的种子作为不同AI科学家的代理。虽然这仅影响MASS网络的初始化，但我们已经看到了截然不同的训练行为（图6）。我们对模型宽度和深度变化的初步实验表明，协议程度随模型容量增加而增加。初步测试不同的架构，使用卷积和注意力代替纯前馈网络，显示训练稳定性较差，主要是由于我们数据的低维性。

展望未来，由于对许多种子和系统进行了广泛的并行化，我们的大部分结果是在一维物理系统上进行的，初步结果（图12）表明这些结果可以很容易地扩展到更高的维度。

MASS在归纳偏差（通过包括物理先验条件如欧拉-拉格朗日方程）与训练效率之间提供了一个权衡。在计算许多项（尤其是海森矩阵的逆）时，训练速度减慢并变得不稳定，这只有通过强正则化和初始化技术才能解决。然而，这些附加项不应被视为无关紧要。不应期望欧拉-拉格朗日方程成为基于物理的机器学习的终结，当然也不应成为物理学本身的终结。

VII. 未来工作

有几个容易实现的方向可以扩展本文的工作。我们列出几个如下：

坐标选择。我们在广义坐标下的实验禁止哈密顿表达式达到低损失，而拉格朗日仍然是完美的描述。因此，图11的结果并不特别令人惊讶。但如果允许MASS在任意坐标下工作会发生什么？这可以通过让MASS学习坐标变换（通过一个简单的MLP）然后在变换后的坐标下取导数来实现[43]。在这些坐标下，MASS是否会仍然偏好拉格朗日表达？
损失函数。我们可以修改损失函数以鼓励特定理论的学习或遗忘。特别是，哈密顿性度量[44]量化了理论的“哈密顿”程度。将此作为损失项包含会如何偏置MASS学习不同的理论？
模型架构。我们选择的AI科学家的变化是在随机初始化之间。如果完全修改架构会发生什么？AI科学家还会达成一致吗？
高维度。我们在图19中展示了直到六维的结果。但许多物理问题的维度更高。我们如何高效地扩展模型以解决这些问题？

VIII. 结论

在本文中，我们开发了一种新颖的架构和训练方案，MASS，并严格研究了MASS在多个物理系统中学习的理论演变。通过我们的实验，我们展示了当AI科学家被建模为高容量神经网络时，通常会学习同一理论的多种等价表达方式。随着我们让AI科学家接触新的、更复杂的系统，其中一些理论与以前未见过的系统不一致，而另一些则成功地推广到更难的问题。即使在这些幸存的理论中，底层理论也会随着系统的增加而变化，从类似哈密顿到类似拉格朗日开始。

我们希望MASS不仅仅是一个有趣的故事，讲述哈密顿与拉格朗日的区别，而是也为构建更具可解释性和能力的模型奠定了基础。然后，我们将重新审视这个问题：两位AI科学家是否达成一致？

致谢 Z.L. 和 M.T. 受 IAIFI 的 NSF 授予 PHY-2019786 支持。Z.L. 受 Google 博士奖学金支持。 [1] T. Kuhn, 科学革命的结构，第2版。（芝加哥大学出版社，1970年）。 [2] P. Baldi, P. Sadowski, D. Whiteson, 使用深度学习在高能物理中搜索奇异粒子，自然通讯 5, 4308 (2014). [3] N. M. Ball and R. J. Brunner, 天文学中的数据挖掘和机器学习，国际现代物理杂志 D 19, 1049 (2010). [4] R. Ramprasad, R. Batra, G. Pilania, A. Mannodi-Kanakkithodi, C. Kim, 材料信息学中的机器学习：近期应用和前景，npj 计算材料 3, 1 (2017). [5] D. Pfau, J. S. Spencer, A. G. D. G. Matthews, W. M. C. Foulkes, 使用深度神经网络的多电子薛定谔方程的从头计算解，Phys. Rev. Res. 2, 033429 (2020). [6] M. Schmidt and H. Lipson, 从实验数据中提取自由形式的自然定律，Science 324, 81 (2009). [7] M. Cranmer et al., 带有归纳偏差的深度学习中发现符号模型，NeurIPS (2020) 第33卷，pp. 17429-17442. [8] J. Jumper et al., 使用AlphaFold高度准确地预测蛋白质结构，Nature 596, 583 (2021). [9] A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A. N. Gomez, L. Kaiser, I. Polosukhin, 注意力就是你所需要的 (2023), arXiv:1706.03762 [cs.CL]. [10] J. Devlin, M.-W. Chang, K. Lee, K. Toutanova, BERT: 用于语言理解的深度双向变压器的预训练 (2019), arXiv:1810.04805 [cs.CL]. [11] T. B. Brown, B. Mann, N. Ryder, M. Subbiah, J. Kaplan, P. Dhariwal, A. Neelakantan, P. Shyam, G. Sastry, A. Askell, S. Agarwal, A. Herbert-Voss, G. Krueger, T. Henighan, R. Child, A. Ramesh, D. M. Ziegler, J. Wu, C. Winter, C. Hesse, M. Chen, E. Sigler, M. Litwin, S. Gray, B. Chess, J. Clark, C. Berner, S. McCandlish, A. Radford, I. Sutskever, D. Amodei, 语言模型是少量示例学习者 (2020), arXiv:2005.14165 [cs.CL]. [12] H. Touvron, T. Lavril, G. Izacard, X. Martinet, M.-A. Lachaux, T. Lacroix, B. Rozière, N. Goyal, E. Hambro, F. Azhar, A. Rodriguez, A. Joulin, E. Grave, and G. Lample, Llama: Open and efficient foundation language models (2023), arXiv:2302.13971 [cs.CL]. [13] A. Q. Jiang, A. Sablayrolles, A. Roux, A. Mensch, B. Savary, C. Bamford, D. S. Chaplot, D. de las Casas, E. B. Hanna, F. Bressand, G. Lengyel, G. Bour, G. Lample, L. R. Lavaud, L. Saulnier, M.-A. Lachaux, P. Stock, S. Subramanian, S. Yang, S. Antoniak, T. L. Scao, T. Gervet, T. Lavril, T. Wang, T. Lacroix, and W. E. Sayed, Mixtral of experts (2024), arXiv:2401.04088 [cs.LG]. [14] Gemma-Team, Gemma: Open models based on gemini research and technology (2024), arXiv:2403.08295 [cs.CL]. [15] DeepSeek-AI, Deepseek-r1: Incentivizing reasoning capability in llms via reinforcement learning (2025), arXiv:2501.12948 [cs.CL]. [16] C. Lu, C. Lu, R. T. Lange, J. Foerster, J. Clune, and D. Ha, The ai scientist: Towards fully automated open-ended scientific discovery (2024), arXiv:2408.06292 [cs.AI]. [17] Y. LeCun, Y. Bengio, and G. Hinton, Deep learning, Nature 521, 436 (2015). [18] G. Carleo and et al., Machine learning and the physical sciences, Reviews of Modern Physics 91, 045002 (2019). [19] C. Rudin, Stop explaining black box machine learning models for high stakes decisions and use interpretable models instead, Nature Machine Intelligence 1, 206 (2019). [20] J. R. Koza, Genetic programming as a means for programming computers by natural selection, Statistics and Computing 4, 87 (1994). [21] S. L. Brunton, J. L. Proctor, and J. N. Kutz, Discovering governing equations from data by sparse identification of nonlinear dynamical systems, Proceedings of the National Academy of Sciences 113, 3932-3937 (2016). [22] S.-M. Udrescu and M. Tegmark, Ai feynman: a physics-inspired method for symbolic regression (2020), arXiv:1905.11481 [physics.comp-ph]. [23] S. Greydanus, M. Dzamba, and J. Yosinski, Hamiltonian neural networks (2019), arXiv:1906.01563 [cs.NE]. [24] M. Cranmer, S. Greydanus, S. Hoyer, P. Battaglia, D. Spergel, and S. Ho, Lagrangian neural networks (2020), arXiv:2003.04630 [cs.LG]. [25] S. Xiao, J. Zhang, and Y. Tang, Generalized lagrangian neural networks (2024), arXiv:2401.03728 [math.DS]. [26] M. Finzi, K. A. Wang, and A. G. Wilson, Simplifying hamiltonian and lagrangian neural networks via explicit constraints (2020), arXiv:2010.13581 [cs.LG]. [27] R. Bhattoo, S. Ranu, and N. M. A. Krishnan, Learning articulated rigid body dynamics with lagrangian graph neural network (2022), arXiv:2209.11588 [cs.LG]. [28] R. Bhattoo, S. Ranu, and N. M. A. Krishnan, Learning the dynamics of particle-based systems with lagrangian graph neural networks, Machine Learning: Science and Technology 4, 015003 (2023). [29] C. Allen-Blanchette, S. Veer, A. Majumdar, and N. E. Leonard, Lagnetvip: A lagrangian neural network for video prediction (2020), arXiv:2010.12932 [cs.LG]. [30] P. Toth, D. J. Rezende, A. Jaegle, S. Racanière, A. Botev, and I. Higgins, Hamiltonian generative networks (2020), arXiv:1909.13789 [cs.LG]. [31] I. Loshchilov and F. Hutter, Decoupled weight decay regularization (2019), arXiv:1711.05101 [cs.LG]. [32] I. Loshchilov and F. Hutter, Sgdr: Stochastic gradient descent with warm restarts (2017), arXiv:1608.03983 [cs.LG]. [33] C. Zhang, S. Bengio, Y. Singer, and Y. LeCun, Rethinking generalization in deep learning, in Proceedings of the 34th International Conference on Machine Learning, Vol. 70 (2017). [34] Z. Allen-Zhu, Y. Li, and Y. Liang, Learning and generalization in overparameterized neural networks, going beyond two layers, Advances in Neural Information Processing Systems (2019). [35] P. H. A. Sneath and R. R. Sokal, Numerical Taxonomy: The Principles and Practice of Numerical Classification (W. H. Freeman, San Francisco, 1973). [36] R. P. Feynman, 物理定律的本质 (MIT Press, Cambridge, MA, 1967). [37] J. Sohl-Dickstein, E. Weiss, N. Maheswaranathan, and S. Ganguli, 深度无监督学习使用非平衡热力学, 在国际机器学习会议 (ICML) 上 (2015). [38] Y. Du and I. Mordatch, 能量模型中的隐式生成与泛化, 在神经信息处理系统进展 (NeurIPS) 中 (2019). [39] Y. Song and S. Ermon, 通过估计数据分布的梯度进行生成建模, 在神经信息处理系统进展 (NeurIPS) 中 (2019). [40] Y. Song, J. Sohl-Dickstein, D. P. Kingma, A. Kumar, S. Ermon, and B. Poole, 通过随机微分方程进行分数生成建模, 在国际学习表示会议 (ICLR) 上 (2021). [41] C. Runge, 关于微分方程的数值解, 数学年鉴 46, 167 (1895). [42] W. Kutta, 对总微分方程近似积分的贡献, 数学与物理杂志 46, 435 (1901). [43] Y. Chen, T. Matsubara, and T. Yaguchi, 神经辛普莱克形式：在一般坐标系中学习哈密顿方程, 在神经信息处理系统进展会议上，第34卷，由M. Ran编辑- zato, A. Beygelzimer, Y. Dauphin, P. Liang, and J. W. Vaughan (Curran Associates, Inc., 2021) pp. 1665916670. [44] Z. Liu and M. Tegmark, 机器学习隐藏对称性, Physical Review Letters 128, 10.1103/physrevlett.128.180201 (2022). [45] K. He, X. Zhang, S. Ren, and J. Sun, 深入研究整流器：超越人类水平性能的图像分类 (2015), arXiv:1502.01852 [cs.CV]. [46] X. Glorot and Y. Bengio, 理解训练深层前馈神经网络的难度, 在第十三届人工智能与统计国际会议论文集，机器学习研究论文集，第9卷，由Y. W. Teh和M. Titterington编辑 (PMLR, Chia Laguna Resort, Sardinia, Italy, 2010) pp. 249-256.

附录 A: 训练方法

表 III. 训练 MASS 的超参数设置。

参数	值
MLP 隐藏层	4
MLP 宽度	20
批量大小	512
步骤 (每阶段)	10000
线性热身步骤	100
学习率
权重衰减	0.01
	0.7
	0.8
EMA	0.99
	0.5
	0.1
	0.01

如第四节所述，训练 MASS 极不稳定。我们正在研究的许多系统（表 I）中的“真实”标量势诱导出的海森矩阵为零，导致它们的逆难以计算。为此，我们为每个引入正则化参数，计算而不是，并通过加入项到每个系统中最小化损失。我们在实验中一致使用。此外，我们增强了初始化。在典型的初始化方案下，如凯明初始化 [45] 和 Xavier 初始化 [46]，二阶导数非常小，导致同样的逆爆炸问题。我们没有象征性地优化每一层的方差 [24]，而是简单地增强 MLP 的输入，不仅包含，还包括全部的。一起，这些允许稳定训练 MASS 网络，即使学习率达到高达。

为了鼓励术语的稀疏化，我们在最终层的权重和激活上引入了正则化项。请注意，仅仅正则化权重是不够的，因为 MASS 可以通过增加的幅度和增加激活来作弊。设最终层权重为，系统的激活为，则系统级别我们包含正则化项。我们在实验中使用。

我们在表 III 中报告了超参数设置。对于更高维度的问题，我们使用了更大的 MLP 宽度，范围从 40 到 100，并多达 6 层隐藏层。相应地，学习率在到之间变化。

附录 B: 不同一维系统上的激活

在以下一组可视化（图13至）中，我们支持我们的主张，即尽管 MASS 学到的确切项有所不同，但由直方图描述的基础理论大多相同。我们发现，这一主成分对应于一维简单系统的地面真实加速度（1 至 4），但对于更复杂的系统则不一定。未来的研究方向是调查这一方向的意义以及与这一方向相关性较低的理论实际代表的内容。

图 13. 在相同系统（简单谐振子）上训练的多位科学家的平均绝对激活。确切的激活幅度不同，通常激活了许多项。

图 14. 在相同系统（弹簧-质量）上训练的多位科学家的平均绝对激活。

图 15. 在相同单系统上训练的多位 MASS 科学家的平均绝对激活，要么是 (a) 相对论谐振子，要么是 (b) 简单摆

附录 C: 可视化的标量函数

下面我们提供了一些额外的可视化学习到的标量函数。注意各种形状：椭圆、抛物线、双曲线和退化（其中等高线几乎为直线）。一般来说，形状与圆锥曲线非常相似，这很大程度上是由于这些问题的性质：动能和势能项通常是广义坐标的二次项。即使对于具有势能的引力问题，学习到的标量函数仍然类似于圆锥曲线！

总的来说，我们观察到，尽管学习到的标量函数看起来不同。差异在于简单的奇偶交换（正到负，椭圆到双曲线），根据我们在正文中的讨论，学习到的理论实际上是相似的。接近直线的曲线数量表明许多理论位于“哈密顿”或“拉格朗日”轮廓的边界上。 ## 附录 D: 高维问题

我们可以将 MASS 应用于解决更高维的问题，超出图

标量函数，其中分别对应 SHO（顶部）、简单摆（中部）和引力（底部），表示种子索引。

17. MASS 和解析解对球形摆的比较，初始条件为。

简单摆向二维的自然扩展是球形摆，由两个自由度和参数化。我们展示了一个典型的解，显示了关于平衡锥形解的振荡，该解由在近似谐波运动中振荡，而围绕一个常数漂移（初始角速度）振荡。

精确的运动方程为

系统的能量为

图 18. 一个四维问题。MASS与解析解的两体问题对比。问题以笛卡尔坐标表示，初始条件为。为了本次实验的目的，我们将所有物理常数设为1。

我们可以用 MASS 解决的另一个问题是 n 体问题。n 体问题涉及在引力作用下相互作用的质量。n 体问题的运动方程为：

其中是第个物体的质量，是其位置矢量，是引力常数。与所有先前的问题一样，我们设所有物理常数为1。

对于笛卡尔坐标系中的两体问题，表示为，我们在图 18 中报告了分析结果与 MASS 结果的比较，从中我们可以观察到准确的学习行为，包括两个物体的漂移及其围绕共同质心的轨道。注意，这个问题可以通过使用约化质量进行坐标变换有效地简化为二维，但即便如此，MASS 仍然能够在笛卡尔坐标系中学习更高维度的一般表示。

两体问题并不难。但如果三体问题呢？这已知是混沌的。事实证明，我们也可以解决这个问题！我们可以使用

图 19. 六维问题。MASS与解析解的三体问题对比。问题以笛卡尔坐标表示，初始条件为。这是一个对已知稳定八字解的轻微扰动。

MASS 直接在这个六维问题上应用，结果如图 19 所示。初始条件选择为已知稳定八字解的偏差，并表明 MASS 能够准确捕捉所有三个身体之间的相互作用。

对于所有呈现的系统，我们使用四阶龙格-库塔积分求解器来求解ODE。结合 MASS 求解器的准确性，积分求解器显著地保留了系统的能量。再次强调，我们并不是声称 MASS 是最先进的物理系统求解器。事实上，许多这些玩具例子并没有达到最佳精度，有些只是展示了接近平衡状态的行为，在这种状态下系统的规律性较强。实际上，一个持续存在的问题是 MASS 训练的稳定性，这在不规则区域被放大。尽管如此，MASS 能够适应高维问题而不需大幅改变架构和超参数，这是未来构建通用且可解释的人工智能物理科学家的一个有希望的迹象。