用神经网络发现物理概念


原文作者:Raban Iten,Tony Metger, Henrik Wilming, Lídia del Rio, and Renato Renner
翻译者:Wendy

摘要(Abstract)

  尽管神经网络在解决具体的物理问题方面取得了成功,但将它作为科学发现的通用工具仍然处于初级阶段。本文通过在人类物理推理过程之后对神经网络架构进行建模来解决此问题,与表示学习算法很相近。这使我们能够从实验数据朝着机器学习辅助科学发现的长期目标迈进,而无需事先对系统进行假设。我们将此方法应用于一些实例,并表明该网络找到了与物理相关的参数,利用了守恒定律进行预测,并且可以帮助获得概念上的见解。例如,哥白尼的关于太阳系的日心说的结论。

Ⅰ 引言(INTRODUCTION)

  像人类活动的所有领域一样,理论物理学也收到发展时流行的思想流派的影响。因此,我们所知道的物理理论不一定是解释实验数据最简单的理论,而是当时最自然地遵循先前理论的那些理论。广义相对论和量子论都是建立在经典物理基础之上的,它们分别在非常大和非常小的领域取得了令人瞩目的成功。但是从根本上说是不相容的,这被诸如黑洞信息丢失悖论之类的悖论所反映。提出了一个有趣的问题:如果假设我们没有先验的物理知识,那么量子物理学定律和其他物理理论是否更自然地解释了来自实验的数据?虽然在不久的将来,这个问题还不会被回答,但是人工智能的进展使我们朝这个方向迈进了一步。本文主要研究了神经网络是否可以用于从实验数据中发现物理概念。

Ⅱ 先前的工作(Previous work)

   使用机器来帮助发现基于实验数据的物理定律的目标在多种情况下已经实现(有关更详细的概述,请参见《补充材料》[SM]3,有关最近的研究进展的请参见文献[30-33])。许多早期工作集中于寻找描述给定数据的数学表达式(参见[34-36])。例如参考文献[35],给出了一种算法,通过在给定输入变量上搜索数学表达式的空间来恢复简单机械系统(如双摆)的运动定律。最近,在从实验数据中提取动力学方程方面取得了重大进展。这些方法非常实用,已经成功应用于复杂的物理系统,但是需要有关系统的先验知识,例如了解相关变量是什么,或应该用微分方程形式来描述动力学模型。在某些情况下,人们可能没有这种先验知识,或者不想强加于此,以使机器无法找到物理系统的完全不同的表达形式。

  在过去的几年中,神经网络已经称为机器学习中的主要方法,并且已成功地用于解决经典物理学和量子物理学中的复杂问题(详细信息参见SM[3],和参考文献[46-64])。相反,神经网络也能通过人类大脑如何从观察中得到物理直觉带来新的见解。参考文献[72]中从动力学系统的时间序列数据中以无监督的方式提取了物理变量。

  我们在这项工作中的目标是最大程度的减少关于物理系统的先前假设在机器学习系统上施加结构的程度。对于人工智能物理学家的长期目标,必须消除所有物理系统可能无法满足的假设(例如假设粒子仅以成对的方现相互作用)(有关此方向的最新进展,参见[73])可以适用于所有的系统,而无需进行调整,并且最终可能有助于物理学基础的进步。最近,本着这种精神使用神经网络来检测观测数据与参考模型之间的差异。但是,需要在通用性和性能之间权衡,这里提出的基于自动编码器的机器学习系统,还不能与更适合特定物理系统的成熟方法相提并论。

Ⅲ 物理推理过程建模(Modeling the physical reasoning process)

  这项工作提出了一种可解释的人工智能代理的进展,该代理通过建议将重点放在人类物理建模过程的本身上,而不是在特定的物理系统上,不受物理方面的先验知识的的影响。我们 对简化的物理建模过程进行形式化,然后将其转化为神经网络体系结构。 这种神经网络体系结构可以应用于各种物理系统,包括经典的和量子的,并且具有足够的灵活性,可以适应我们希望施加在系统表示形式上的不同附加需求。

  我们首先考虑物理建模过程的简化版,如图1(a)所示。物理学家与物理世界的互动采取实验观察的形式,例如时间序列描述恒速运动的粒子。物理学家建立的模型并不直接处理这些观察,而是代表被观察系统的基础物理状态,例如,两个参数初始位置和速度(x0,v)。使用哪些参数是一个模型的重要组成部分,我们将在下面提出有关如何良好表示的建议。最后,该模型指定了如何基于系统物理状态的知识(例如在时间t"处的粒子在哪里?)进行预测(即回答问题)。更一般性的,这个物理建模过程可以被看做一个“编码器”E:O→R,将一系列的观测值O映射到R表示;之后有一个“解码器”D:R ×Q→A将一系列可能的表示R和问题映射解出问题的答案A。

Ⅳ 网络结构(Network structure)

  以上的建模过程可以直接被转化为一个神经网络架构,就是我们即将提出的 SciNet 模型,如图1b所示。这个编码器和解码器都是前馈神经网络。除了增加一个问题的输入之外,所得到的体系结构类似于表示学习中的自编码器[76,77],更具体的来说就是参考文献[79]中的体系结构。训练期间,我们向网络提供(o;q;a_corr(o;q)) 的三元组。其中a_corr(o;q)∈A是对于给定观察值o∈O对问题q∈Q的正确回答的正确率。学习的参数通常称为潜在表达。为了将问题输入神经网络,它们被编码为一系列实际参数。因此,单个问题的实际表示是无关紧要的,只要它允许网络区分需要不同答案的问题即可。在这里插入图片描述
  至关重要的是,编码器完全可以自主的选择潜在的表现形式,而不是我们人为设定的,表现形式。由于具有至少一层由多个隐藏神经元组成的隐藏层的神经网络就能很好地近似任何连续函数。所以用神经网络来实现函数E和D,并不会明显的限制其通用性。但是与自编码器不同,潜在表示不必完全描述观测值;相反,它只需要包含回答所提出的问题的必要信息即可。

  这个结构允许我们从神经网络中提取知识:所有有用的信息被存储在表示R里面,与全部数据的自由的相比,这个表示学习的信息量大小是很小的。这使得我们能够解释学习到的表示。具体来说,我们可以将SciNet的潜在表示与假设的参数化进行比较,以获得一个相互之间的简单映射。即使我们如果没有关于系统的任何假设,仍然能仅从所需参数的数量或手动更改输入或输出时表示的变化中获得一些见解。

Ⅴ 表示所需的属性(Desired properties for a representation)

  为了使SciNet产生物理上有用的表达形式,我们需要规范化对物理系统进行良好参数化的内容,即良好的潜在表达形式。我们强调这不是物理系统的属性,而是我们必须做出的选择。我们将在下面给出两个可能的选择。

  通常,潜在表示只应储存足以回答Q中所有问题的最少量信息。对于最少的充分的不相关表示,我们另外还要求潜在神经元在统计上与训练数据的输入样本暂时相互独立,这反映了物理相关参数描述了可以独立变化的系统各方面的思想,因此在实验数据中不相关。在这种独立假设下,然后激励网络选择在不同的潜在神经元中储存不同物理参数的表示。我们在补充材料中对这些需求规范化,并使用微分几何学的方法表明,在回答所有问题Q所需的训练数据中,潜在神经元的数量等于底层的数量。为了在神经网络中实现这些要求,我们使用了基于表示学习的完善方法,特别是解散变分自动编码器。(详细信息参考补充材料)

  或者,对于物理相关参数随时间或通过与时间无关的更新规则而更新的情况,我们更倾向于简单的此类更新规则表示。下面我们将说明如何执行此类要求。

Ⅵ 结果(Results)

  为了说明SciNet能通过提供量子力学和经典力学环境中的相关物理变量,可以帮助恢复物理中的相关概念,我们考虑了来自物理四个不同领域的简单示例。总而言之,我们发现(Ⅰ)给定阻尼摆的位置时间序列数据,SciNet可以高精度预测未来位置,并且它在两个潜在神经元中分别使用频率和阻尼因子两个相关参数。(并将不必要的潜在神经元的激活值设置为零)(Ⅱ)SciNet发现并利用了守恒定律:它使用总角动量来预测两个碰撞粒子的运动。(Ⅲ)从简单的量子实验获得测量数据中,SciNet可以用来确定潜在的未知量子系统的维数,并确定一组测量在层析成像上是否完整,即它是否能提供有关量子态的完整信息。(Ⅳ)给定从地球观测太阳和火星位置的时间序列数据,SciNet可以得出日心说的概念表示。即它将数据编码为从太阳看向两个行星的角度。这些结果表明,SciNet在没有任何特定物理系统先验信息情况下,发现了我们在物理教科书中用于描述不同设置的相同数量的产物,并且还表明我们的结果对实验数据中的噪声具有很好的鲁棒性。为了验证我们的方法,我们现在更深入地描述其中两个实验。有关四个不同实验的设置、数据生成、解释和其他背景信息的详细说明,请参见附加文件。

  在我们所有的实例中,我们训练使用的所有数据都是可以使用的,并且可以通过实验生成;即正确的答案是实验观察到的答案。在这里,我们使用模拟来代替,因为我们只处理经典力学和量子力学,这些理论的预测在相关体系中得到了实验验证。

量子态层析成像(Quantum state tomography)

  在量子力学中,根据测量数据构造量子系统状态的简单表示并不是一件容易的事情,这件事称为量子层析成像。接下来,我们将显示SciNet可以找到任意(纯)一和二量子位状态的表达形式。为了确保收集到的测量数据是没有任何与量子物理学有关的先验知识,我们假设使用一种操作设置,在该设置中,我们可以访问实验室中两个设备,其中一个设备可以在特定环境中创建(多个副本)量子系统状态取决于所选设备参数。另一个设备在量子系统上执行二进制测量。SciNet 的输入包括在未知量态ψ下的量子系统上随机固定的一组“参考测量”的结果概率。作为问题输入,我们提供了测量ω的参数化(可能与测量设备的刻度盘和按钮的设置有关)。SciNet必须预测出在状态ψ的量子系统上测量ω的结果概率。我们针对一个和两个量子位用不同对的(ω,ψ)训练SciNet。结果如图2所示。通过训练具有不同神经元个数的神经网络,我们可以观测预测的质量如何提高(在训练完成后),因为我们允许在ψ表示中使用更多的参数。由此我们可以在没有关于自然表示的先前假设的情况下获得相关的信息。(如它是否是希尔伯特空间的向量)

  如果参考测量在层析上是完整的,这意味着它们足以重建基本量子系统的完整表示。图2显示了对于一个和两个量子在潜在神经元个数从2到6的过程中预测的误差图像。这是根据当前量子力学理论中独立坐标系的个数,去描述一个和两个量子的状态。对于一组在层析成像上不完整的情况,SciNet不可能完美地预测最终测量结果,而与潜在神经元的数量无关。这意味着,仅凭操作数据,我们就可以断言测量的层析成像的完整性和独立坐标系的数量,潜在的未知量子系统。
在这里插入图片描述

强制进行时间演化(Enforcing a simple time evolution)

  如上所述,如果物理上相关的参数可以更改,我们可以强制执行具有简单更新规则的形式。为了充分的说明,我们这里将考虑时间演变,但可能是更通用的更新规则。为了适应变化的物理参数,我们需要扩展如图3(a)所示的潜在表示。现在,我们不再具有连接到解码器的单个潜在表示,而是具有许多潜在表示,这些潜在表示是通过时间演化网络从初始表示中生成的。每个表示都有附加的解码器以产生问题的答案。因为我们只希望参数而不是物理模型随时间变化,所以所有时间演化步骤和解码器都是相同的,即它们实现的功能相同。编码器,时间演化网络和解码器被同时训练。为了通过简单的时间演化来强制执行参数,我们将时间演化网络限制为实现功能非常简单的实验,例如添加常数。
在这里插入图片描述

太阳系的日心说(Heliocentric solar system)

  在16世纪,哥白尼使用观测到的不同行星在夜空中的位置(图3b所示),得出太阳是太阳系的中心而不是我们的地球这一假设。开普勒在17世纪初根据Brahe收集的天文数据证实了这种日心说的观点,表明行星在简单的轨道上绕太阳运动。在这里,我们表明SciNet在被迫寻找变量的时间演化采用非常简单表示形式时,也类似的用了日心中心角,这是物理学中与时间变量相关的典型要求。

  SciNet输入的观测值是在起始时间t0(在训练过程中变化)从地球上观察到火星的角度θM(t0)和太阳的角度θS(t0)。时间演化网络仅限于添加常数(在训练过程中可获得其值)。在每个时间步长i,SciNet都被要求仅使用r(ti)来预测在时间ti从地球看到的火星和太阳的角度。因为这个问题是恒定的,所以我们不需要显式地将其提供给解码器。我们用随机选择的,每周(模拟的)哥白尼生命周期内的角度θM 和 θS子序列训练 SciNet(总共3665个观测值)。对于我们的模拟,我们假设火星和地球绕太阳进行圆周运行。图3C显示了学习的表示,并确认SciNet确实储存了日心角的线性组合。我们强调训练数据仅包含从地球观察到的角度,但是SciNet仍切换为日心表示。

结论(Conclusion)

  在这项工作中,我们证明了SciNet可用于从各种简单的物理设置的实验数据中回复物理变量。在与采样不相关的假设下,学到的物理表示法是物理学教科书中常用的表示法。在未来的工作中,我们将方法扩展到与自然基础参数相关的数据分布训练中。在SciNet找到的表示形式中,这些参数的分离开发进一步的操作标准,以解开潜在变量。在更复杂的场景中,此处介绍的方法可能会导致全新的表示形式,并且从此类表示中提取人类的物理见识仍具有挑战性。可以使用来自符号回归的方法,来解决此问题,以获得编码器与解码器图或假设和实际表示之间的图的解析表达式。另外,也可以使用参考文献[86,87]中介绍的方法。可以帮助提高表示的可解释性。遵循这个方向,神经网络最终有可能产生用我们的数学语言表达的见解。

  源代码和训练数据可以在参考资料[88]中的网址获得。有关实现的详细信息,另参见补充材料。SciNet在所有经过测试的实例上都运行良好,即我们没有根据SciNet是否起作用来选择实例。

  • 3
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值