2024年诺奖解读：统计物理、人工智能与复杂科学-CSDN博客

背景

2024年诺贝尔物理学奖授予“通过人工神经网络实现机器学习的基础性发现和发明”，人工神经网络可以说是统计物理引发的机器学习革命（Science for AI）。诺贝尔化学奖则授予蛋白质设计和结构预测的相关研究，展现了人工智能在推动科学创新方面的重要作用（AI for Science）。人工智能和科学的这种双向互动开创了 AI+Science 新纪元，也在加速对复杂系统的理解。

2024年诺贝尔物理学奖授予机器学习，令人意外吗？机器学习与统计物理有着怎样的联系？人工智能和科学的发展如何相互赋能？统计物理与复杂系统可以为人工智能研究提供哪些启发？AI 会超越人类的理解力发现新物理吗？下一个诺奖级的科学研究会是什么？针对这些问题，我们邀请到三位集智科学家，加州大学圣迭戈分校副教授尤亦庄，北京师范大学系统科学学院教授、集智俱乐部创始人张江，香港浸会大学助理教授唐乾元（傅渥成），一起深入解读了2024年诺贝尔奖。本文是此次讨论的文字整理，分享给各位读者朋友。

研究领域：统计物理，复杂系统，量子力学，人工智能，神经网络，重整化群

来源：集智俱乐部

讲者：尤亦庄、张江、唐乾元

整理：朱欣怡

编辑：梁金

2024年诺贝尔物理学奖授予机器学习，令人意外吗？
John Hopfield 和 Geoffrey Hinton 的主要贡献是什么？
机器学习与统计物理有着怎样的联系？
人工智能和科学的发展如何相互赋能？
统计物理与复杂系统可以提供哪些启发？
AI 会超越人类的理解力发现新物理吗？
下一个诺奖级的科学研究会是什么？

- 1 -

2024年诺贝尔物理学奖授予机器学习，

令人意外吗？

Q：2024年诺贝尔物理学奖授予了机器学习相关的研究，引起了公众和物理学界的广泛关注和热议。许多人表示难以理解，为何将如此重要的物理学奖项授予了计算机科学领域的研究。同时，计算机科学家们也感到困惑，为何物理学家会涉足他们的领域。在此背景下，各位老师对这次诺贝尔物理学奖有何看法？

张江：我是非常诧异的。一般来讲，诺贝尔物理学奖通常授予那些与物质科学、物理系统紧密相关的研究，除了2021年的奖项颁发给了研究复杂物理系统，包括大气系统领域的科学家。按照我们通常的理解，人工智能是计算机科学的一个分支，似乎与物理学的联系并不紧密，今年的诺贝尔物理学奖却授予了与人工智能相关的研究，这让我感到非常惊讶。此外，Hopfield 网络以及 Hinton 的一些早期研究，虽然在人工智能领域具有开创性意义，但从现代人工智能的角度来看，这些模型又有点儿太古老了，我们现在基本上已经超越了这些早期模型。所以我觉得这次物理学奖的颁发确实令人震惊。

尤亦庄：大家对今年诺贝尔物理学奖的结果感到意外。我注意到许多同事对此选择了沉默，索性闭口不谈了。在美国，人工智能在物理系研究得越来越多，人们逐渐认识到人工智能有着深厚的物理基础，其研究与物理学的联系也很密切。我觉得身边的教授们似乎还比较能接受。

当然，总体而言，大家仍然觉得相当惊讶，因为人工智能并非传统物理学的几个重要领域之一。传统上，诺贝尔物理学奖经常颁发给量子物理、天体物理和宇宙学、高能物理、凝聚态物理以及原子分子物理等领域。在今年诺贝尔奖揭晓之前，人们也是按照这个顺序来猜测：过去几年这些领域是风水轮流转，今年应该轮到哪个领域了。然而，这些猜测大多都落空了。这可能表明，从诺贝尔奖委员会的角度来看，似乎人工智能、复杂系统，甚至智能或意识的起源等问题，可能逐渐成为物理学研究的新领域。物理学本身也应该与时俱进。

因此，尽管从获奖内容来看，如张江老师所言，相对于当前的深度学习技术，这些成果似乎有些滞后，但从物理学范式的发展和整个学科的创新来看，这个奖项的颁发是非常及时的。

唐乾元：我还想补充一点，尽管今年的诺贝尔物理学奖结果出人意料，但不久前网络上流传的一个热门帖子揭示了一个有趣的现象。有人发现一本教材在介绍时，已经将 Hopfield 标注为诺贝尔物理学奖得主了，这实际上是一个预言，因为当时他还未获得该奖项。这表明，尽管存在误解，但许多人已经认为他的成就足以获得诺贝尔奖的认可。这个错误可能是作者在编写时误以为他已经是诺贝尔奖得主了。因此，实际上物理学界对 Hopfield 的贡献是非常认可的，他甚至在2022年统计物理大会上获得了玻尔兹曼奖，玻尔兹曼奖是统计物理领域的最高荣誉，这表明物理学界对 Hopfield 的贡献给予了极高的评价。Hinton 的获奖则相对令人意外。

- 2 -

John Hopfield 和 Geoffrey Hinton

的主要贡献是什么？

唐乾元：我们先从 Hopfield 讲起，我可以介绍一些他在 Hopfield 网络之外的工作。实际上，他的父亲也是一位物理学家，他自己也一直在学物理，早期在凝聚态领域做过一些工作。后来从上世纪 70 年代起，他开始转向生物物理方面的研究。最初，他研究了生物化学反应里的一种校对机制，因为很多生物化学反应存在随机性，可以通过一些非平衡机制来实现错误校对。在非平衡物理体系建立之前，Hopfield 已经提出了这种机制。之后他开始研究神经网络，也就是 Hopfield 网络。在这项研究之后，他又做了很多工作，比如关于嗅觉问题的编码机制，以及更多有关神经网络的理论研究。近些年他仍在做一些相关研究，依然是一位活跃的学者。关于 Hopfield 网络，我想听张江老师从最早期的基于能量的模型来给大家简单的介绍一下。

张江：大约 20 年前，集智俱乐部刚建立那会儿，我参加了圣塔菲研究所和中科院理论物理研究所联合举办的暑期学校，在里面听了很多关于统计物理的知识后开始进入相关领域。我印象特别深刻的是伊辛模型，在百科上也有关于它的科普介绍，我们完全可以把它理解成是村民投票的情景，每个村民可能会受周围邻居的影响，这样就构成了一个相互影响的互动系统。

“伊辛模型”集智百科：什么是伊辛模型 Ising Model | 集智百科

https://wiki.swarma.org/index.php/伊辛模型

在这个系统里，最有意思的是有序和无序之间的竞争。所谓有序，就是每个村民在某种程度上要服从绝大多数，会看周围邻居对自己的影响；而无序则是每个村民在投票选择时存在一定随机性。在这个物理系统里，最早伊辛模型是用于对铁磁顺磁（也就是磁铁）的相变行为进行建模：当温度升高到一定程度，会变得非常无序；温度很低时，就会产生相应磁性，所有自旋的行为变得一致。比较有意思的是，中间存在一个临界点，在临界点附近时，整个系统会变得非常复杂，出现分形、自相似结构等有趣现象。

那它和 Hopfield 网络有什么关系呢？实际上，Hopfield 网络是伊辛模型的扩展。伊辛模型是晶格化系统，将其变成全连通网络，并且彼此之间联系的强度可以随机取值，这样就变成了一个很复杂的网络。同时，我们可以通过一种学习机制让网络的权重有一定变化，使得能量的最小点刚好对应我们需要记忆的一些模式。所以 Hopfield 网络刚造出来时，最早是用于联想记忆的。比如给它一些数据，里面有像 1234 这样的手写体数字等模式，它会慢慢收敛，其能量最小值就会对应到这些模式上。反过来，在运行时，给它一定刺激，要是和某个手写体数字很像，它就会慢慢收敛到那个吸引子，从而把记忆中的模式恢复出来，这就是最早的 Hopfield 模型。

图1. Hopfield 网络可以存储和重建数据中的模式。

尤亦庄：我觉得今年诺贝尔物理学奖的这两个工作都跟统计物理有密切的关系。Hopfield 提出来的 Hopfield model 是最早的一类基于能量的生成式模型，它其实是利用了统计物理中的一个基本原理——玻尔兹曼分布。事实上，现在我们所谓的基于能量的生成式模型，就是平衡态统计物理的最基本方式。早期，物理学家们想要理解大量个体的相互作用，他们演生出来的集体行为是怎样的，这是统计物理所想要理解的主要目标。统计物理中“统计”这个词就是在统计个体的行为。

比如说像我自己吧，小时候我就对模拟多个粒子之间相互作用这件事情很感兴趣，会自己写计算机模型来模拟。我当时有一个想法就是也许我理解所有粒子的运动之后，就可以了解宏观的行为。但后来我发现我错了，其实理解单个粒子的运动，并不能帮助你理解宏观行为。相反，宏观行为实际上往往只取决于很少的一些量，比如说这个系统的总能量。那么统计物理学家后来发现，一个多体系统中的概率分布，只跟这个多体系统的能量函数有关，人们可以写下概率分布和能量函数相对应的表达式，基本上能量函数就正比于概率分布的对数。基于这个原理，我们就可以用能量函数来模拟很多不同的多体系统的分布。这里面的多体系统，当然也包括磁性系统。在研究磁性系统时，物理学家们发现，磁性系统在低温下会展现出很多不同的模式，比如说有铁磁态和反铁磁态。这会出现很多很奇怪的自旋玻璃的状态。人们经过一番研究了解到，原来这些状态都是跟自旋和自旋之间相互作用、能量是怎么分配的有关。这就形成了我们看到的宏观现象——某一种 pattern 的形成都存在一个背后的能量。

但是我觉得 Hopfield 的工作在平衡态统计物理的基础上面有一个范式突破。为什么这么说呢？以前的平衡态统计物理都是在问：给一个能量函数，给定系统的相互作用，它在高温和低温下都有什么样的行为？人们是想要去求解这个系统的行为。但是 Hopfield 说：不，你可以改变，你可以修改你的问题，你可以修改你的能量函数，你可以修改这些自旋之间相互作用的模式。通过修改相互作用的模式，以期待能够形成某个你想要让它形成的特定模式。这实际上就是从给定生成机制，被动地去生成结果（生成机制-结果），到想要获得某个结果，从而去寻求它的生成机制（结果-生成机制），变成一个学习过程。所以他就把统计力学，从一门回答问题的学问，变成了一门去学习，从学习中间找到某个模式背后生成机制的学习算法。他想到要反过来问这个问题，能够通过对自旋模式的观察，然后去修改出最适合稳定自旋模式的相互作用的模型。这个模型在应用的时候自然而然地能够利用统计物理的力量，在低温时重现相应的结构。而且当相应的结构一旦发生破坏时，重新降低温度，这个破坏或者这个错误也可以被纠正回来。

这些工作其实在现代的信息处理中有相当重要的应用。我们都知道，通讯过程中可能会出现很多错误，现代量子计算在计算过程中同样也会产生错误，而这些错误都需要进行纠错处理。实际上，像 Hopfield 这种借助能量模型来建立某种背后机制，然后通过降温的方式来纠错的做法，是一种最为自然的纠错机制。我还记得早期的计算机用的是磁盘存储。磁盘之所以能够长期保存信息，就是因为磁盘里面存在着这种铁磁性的纠错机制。虽然磁盘处于复杂的环境中，时不时就会有一些自旋翻转，但它依然能够凭借多体相互作用将这些错误纠正回来。

所以我觉得这项工作非常厉害的地方体现在两个方面。第一，它改变了我们对于统计物理的看法，不再是单纯地，一群物理学家仅仅想着去求解某个数学模型在低温环境下的状况，而是要思考如何从现实的数据当中去构建一个新的模型。其二，它也告诉我们可以如何用物理来帮助我们纠错，物理是如何和信息联系起来，如何和编码联系起来的。这是我觉得它非常值得获得这次诺贝尔奖，而且这个诺贝尔奖也确实和物理有很有关系的一个原因。

张江：我想补充 Hinton 的工作对于神经网络研究的价值和意义，以及它与 Hopfield 网络的关系。实际上最初接触神经网络时，我完全没有意识到它与统计物理的联系。神经网络看起来就是一个简单的输入接收器，每个神经元接收输入信号，当输入足够多时，神经元可能会被激活，并继续向下传播信号。通过梯度反向传播的方式，我们可以训练网络进行学习。本科期间，我们当时做过一个项目，使用前馈神经网络学习数据中的模式并进行预测。但直到后来我参加了暑期学校，接触到伊辛模型，才豁然开朗，意识到神经网络与伊辛模型、自旋之间可以完全对应起来。

我们可以将每个神经元视为伊辛模型中的一个自旋（spin），每个自旋有两种状态：朝上或朝下，这正好对应于神经元的激活和非激活状态。在伊辛模型中，每个自旋的状态受到周围邻居以及自身随机性的影响。对于神经网络来说，其他神经元对它的状态也有一定的影响，因此，它们也是通过相互作用来决定是否激活。此外，激活函数本身将随机性对应到 S 型激活函数曲线中，从而建立了两者之间的关系。我认为，最早明确建立这种关系，并使神经网络能够以统计物理的方式运作，与 Hinton 的研究工作密不可分。他对神经网络的一个重大改进是将网络分为两层：一个是显层，相当于输入层，用于接收数据；另一个是隐层，起到数据压缩和表征的作用。在今天的深度学习中，这种表示学习——获得数据的压缩表示——是非常重要的，也是我们人脑处理复杂信息的基础。因此，我认为 Hinton 的研究工作是非常了不起的，他将统计物理的概念完全融入了神经网络这一学科。

唐乾元：Hopfield 的贡献其实还体现了“more is different”这一非常基础的概念。安德森在传记中将 Hopfield 视为未共同发表过文章的隐藏合作伙伴。在传统神经科学中，人们认为大脑中的记忆存储在特定区域，但 Hopfield 提出了一个全新的观点：记忆没有储存在大脑的任何一个地方，而是储存在大脑的所有地方。所有神经元共同作用，形成了记忆，这可能是大脑执行记忆及其他功能的工作方式。而且这个机制也有它相应的神经科学背景，即所谓的“Hebbian 学习规则”，简而言之就是“在学习过程中，如果两个神经元经常一起放电，那么它们就更有可能产生连接”，即“Fire together wire together”，这个机制就是刚才尤亦庄老师所讲的，怎么样把一个要记忆的模式编码到神经上。Hopfield 通过物理模型将这一概念具体化，这是他的一个重要贡献。

此外，Hopfield 还有另一个不太为人所知的贡献。刚刚张江老师也有提到，在磁性系统中，临界性是一个非常关键的特征。在汤超老师他们提出自组织临界现象之后，Hopfield 也很早对大脑中的临界现象产生了兴趣，并撰写论文使用地震模型来说明大脑中可能存在的临界机制，因此 Hopfield 也可以说是大脑临界性假说的先驱之一。（参看：《《大自然如何运作》：关于自组织临界性的科学｜汤超院士作序推荐》）

关于 Hinton 的贡献，Hinton 最早提出的玻尔兹曼机可以看作是 Hopfield 模型的一个推广。玻尔兹曼机本身是全连接的，但由于需要处理的连接数太多，不太实用，后来被改造成受限玻尔兹曼机，区分了隐层和输入层。虽然 Hinton 并非受限玻尔兹曼机的最初发明者，但他的贡献不能忽视，事实上他重新挖掘了这一模型，并提出了对比散度（Contrast Divergence）的训练方法，使得玻尔兹曼机变得真正可用。对比散度是一个复杂的迭代过程，但 Hinton 的一些工作使其变得可行。所以我期待尤亦庄老师能进一步讲述 Hinton 在对比散度以及采样方面的一些贡献。

尤亦庄：Hinton 的工作实际上是对 Hopfield 模型的推广，他将 Hopfield 模型推向了新的高度。这种生成式模型的核心目标是学习一个能量函数，以此来代表样本的概率密度分布。所有的生成式模型都需要基于样本进行训练。

但怎样训练玻尔兹曼机就成为一个问题。Hinton 想了一些非常巧妙的方法来进行训练，他的基本思路是这样的：如果我们用某个能量函数作为模型，生成一个概率密度分布，而样本本身也有其自身的概率密度分布。原则上，我们希望这两个概率密度分布尽可能接近，也就是让模型的分布尽可能接近样本的分布。我们需要最小化一个名为 KL 散度的量——也就是两个分布之间的相对差异。经过一番研究，他发现相对熵基本上可以表示为：两种自由能之间的差。

这其实是非常有趣的一点。想象一下，如果我们让模型闭着眼睛，按照自己的方式去运行，它会产生一个统计力学系统的自由能，这个自由能代表了系统在某种平均意义上的能量。而当模型的显层（visible layer）中有样本数据时，我们称之为“claimed free energy”，当数据被强迫加载到显层时，模型同样会有一个自由能。这两个自由能之间的差，正好就是 KL 散度所代表的损失函数（loss function）。这为我们指明了一个训练的方向，就好像睁眼和闭眼的关系。

在训练过程中，你可以先让模型闭着眼睛，自己想象一下。假设我现在手上有一堆自旋，一部分自旋属于显层，它们需要与数据保持一致；另一部分自旋属于隐层，数据对它们来说并不重要。在闭眼的时候，我们观察显层自旋之间的关联有多强，这是模型在想象或“做梦”过程中构想出来的显层之间的关联。然后在有数据之后，模型会再次观察显层的数据，进而研究在显层数据固定的情况下，热力学系统达到平衡时，显层和隐层之间的关联有多强。例如，在受限玻尔兹曼机中，我们唯一需要关心的关联是介于显层和隐层之间的。因此，我们只需要比较有数据和没有数据这两种情况下的关联强度，就可以判断显层和隐层之间的连接是应该增强还是减弱。如果数据到来后，经过热平衡，显层和隐层之间的关联较弱，而没有数据时，系统的显层和隐层之间的关联较强，这表明系统的想象与实际情况不符，因此应该减少显层和隐层之间的关联强度。相应地，就应该减少它们之间的耦合强度来实现这一点。这就是对比散度的基本思想。

这就像我们平时学习时有翻书学习和闭卷思考的过程，也如同孔子所说“学而不思则罔，思而不学则殆”，意味着学习和思考应该相结合。我认为，对比散度的思想非常好地体现了学习和思考两个过程的结合。当有数据来时，你需要学习以达到某种平衡，你还需要有思考，然后对比睁着眼睛学习和闭着眼睛思考的印象差异，从而对自己的神经网络权重进行调整。

当然，这个过程中涉及到热平衡的步骤。当数据输入时，我们需要根据数据让整个系统达到热平衡，这意味着要经过反复多次的采样迭代，才能使自旋系统达到平衡。在闭眼思考的时候，也需要进行多次采样迭代。这时就涉及到了一些计算复杂度的考量。早期的算法并不十分成功，部分原因是在自旋模型上使用蒙特卡罗采样方法求解需要消耗大量的计算资源。Hinton 有一个非常重要的观察：实际上，你并不需要让两个系统达到热平衡。虽然从数学原则上讲，你应该比较平衡态之间的关联强度，但我们实际上已经能够看出闭眼和睁眼这两种情况下——也就是有数据和没有数据这两种情况下——关联的差别，这已经可以提供某种学习信号。Hinton 还证明，即使你按照这样一个不完全正确的信号，最终，损失函数（loss function）的最小点和原来的最小点也是一样的。这就使得我们可以用更高的效率进行采样和学习。这些思想从平衡态物理走向非平衡态物理，都是统计力学中非常有趣的思路。我认为，这些都是非常值得我们思考和借鉴的。

张江：Hinton 在神经网络学派的历史中扮演了两次关键性的拯救者角色。第一次大约在上世纪80年代。在此之前，人工智能自1956年起步以来，主要是以搜索、推理逻辑等为主的传统 AI 占据主流。尽管神经网络的概念最早可以追溯到1943年由 Warren McCullough 和 Walter Pitts 提出的神经网络数学模型，但由于 Minsky 和 Papert 在他们的著作《Perceptrons》中证明了单层感知机模型无法解决简单的异或XOR等线性不可分问题，这导致神经网络学派几乎被扼杀。在那个时期，研究者们担心自己的论文无法发表，神经网络学科差点因此消亡。然而，正是 Hinton 坚持神经网络的研究，并成功将反向传播算法应用于多层神经网络训练，这标志着他第一次拯救了神经网络学派。

第二次拯救发生在深度学习的萌芽时期。当时，尽管人们看到神经网络在很多学习任务中表现得很好，但由于神经网络的深度有限，能解决的问题非常受限。因此，当时大家对神经网络并不看好，而且有很多其他的竞争算法。Hinton 通过将受限玻尔兹曼机做得很深，证明了深度神经网络的潜力。根据我的印象，他可能是在2006年发表的文章中第一次使用了“deep neural network”这个词。这使得人们意识到，不是神经网络不行，而是我们做得不够深。当我们把它做深了以后，它真的就能工作，而且效果很好。最早的时候，他们在语音识别和图像识别上取得了巨大的突破，这让更多人看到，原来我们可以通过深度学习的方式让人工智能完全通过深度的方式进行学习，并且取得了非常好的效果。

Hinton 在神经网络研究历史上的第一次关键突破：将反向传播算法应用于多层神经网络训练

Rumelhart, D., Hinton, G. & Williams, R. Learning representations by back-propagating errors. Nature 323, 533–536 (1986). https://doi.org/10.1038/323533a0

Hinton 在神经网络研究历史上的第二次关键突破：提出深度神经网络

Hinton, Geoffrey E., Simon Osindero, and Yee-Whye Teh. A fast learning algorithm for deep belief nets. Neural computation 18.7 (2006): 1527-1554. https://direct.mit.edu/neco/article-abstract/18/7/1527/7065/A-Fast-Learning-Algorithm-for-Deep-Belief-Nets

Hinton, G. E., & Salakhutdinov, R. R. (2006). Reducing the dimensionality of data with neural networks. Science, 313(5786), 504-507.

- 3 -

机器学习与统计物理有着怎样的联系？

尤亦庄：我认为，物理学与人工智能之所以能够紧密结合，很大程度上是因为物理学本质上试图对现实进行建模，而 AI 在很大程度上也是要对现实进行建模。什么是现实？现实就是我们想要学习的数据。建模又是什么呢？就是我们要训练的 AI 的模型。所以它们的目标在很多情况下是一致的。正因如此，物理学家在长期为世界建模的过程中发展出的许多数学模型，是值得 AI 领域借鉴的。

事实上，我们可以看到，当前许多生成式模型都借鉴了物理学思想。比如我们之前提到的，今年获得诺贝尔物理学奖的基于能量的生成式模型，以及基于流的生成式模型，这些模型与概率流、不可压缩流体等物理概念有关。还有基于扩散的生成式模型，它们与物理学中的扩散过程相关。甚至在量子物理领域，人们提出了基于量子力学的模型，比如像张量网络，王磊老师在这方面有开创性的工作。特别是在深度模型领域，我们的主要任务是对世界进行建模，但遗憾的是，世界是随机的，因此我们必须对概率密度和概率分布进行建模。

在对概率分布进行建模时，涉及到物理学中与概率分布相关的两大学科：统计力学和量子力学。这两个领域各自有一套建模概率分布的方法。因为概率分布必须是一个正定的数，我们不能随意设计一个神经网络，然后声称这个网络的输出就是概率分布。神经网络的输出没有正定性的保证，所以统计力学采用了一种方法：使用玻尔兹曼分布。这种方法首先构造一个能量函数，然后对其进行指数化，通过指数映射将任何实数映射到正的概率上。而在量子力学中，则是构造波函数。波函数本身不需要正定性的要求，但通过取其模的平方，我们同样能得到一个正定的概率分布。这些建模的思路听起来可能是简单的技巧，但实际上它们都可以被应用到机器学习中。物理学的文献或课本中散布着各种各样的小技巧，我认为从这里面汲取经验对于我们进入机器学习领域是非常有帮助的。

写给物理学家的生成模型. 王磊，张潘，《物理》2024年第6期

张江：还有一个观点我觉得特别有意思，是尤亦庄老师提到的，关于深度神经网络的“深度”与物理学中重整化群的紧密联系。这个联系可以理解为，当我们不断将信号向上层传播时，实际上是在用一个更宏观的视角、一个更宽广的尺度去观察同一个系统。因此，深度学习实际上是一种多尺度学习。这一点当时也让我感到非常震撼。这种多尺度学习的特性在形式上类似于重整化群。在一些网络中，比如卷积神经网络（CNN）中，我们也可以看到，从较浅层到较深层提取的特征，本身就具有这种多尺度特性。当然，与重整化群的联系可能只是其中之一，可能还有更多的联系。我们可以进一步思考，深度学习在这个问题上与统计物理，或者更广泛的物理学领域，究竟有哪些联系。

尤亦庄：刚才提到重整化群，我非常愿意深入这个话题，因为这也正是我个人研究的主要方向之一。我想在这一点上稍微展开一下，传统上，重整化群是我们理解复杂系统的一个非常有效的工具。它的核心思想是先将一个复杂系统在局部进行粗粒化处理，然后提取出最重要的特征，并思考这些特征在更大尺度上的相互作用，从而提取出有效的相互作用。这样，我们就构建了一个有效模型，可以在有效模型的基础上进一步简化，提取出更有效的模型，使得系统得以逐步解析。

然而，如何提取有效的特征一直是一个问题，长期以来并没有非常明确或统一的做法。很多时候，这依赖于像 Leo Kadanoff 这样杰出的物理学家来提出重整化方案。我们团队的一些研究就是想利用机器学习的方法，尤其是受限玻尔兹曼机的一个重要功能就是能够提取特征，它能够通过表示学习，在观察到的较为细节化的样本中提取出关键特征。

粗粒化特征的提取，可以视为深度学习在物理学应用的一个实例。将深度学习应用于物理领域，确实能解决一些物理问题。我们设计一些基于深度学习的重整化算法，并且真的能够将它们应用于统计力学模型。在物理学中，我们想要回答的问题通常是在这些统计力学模型发生相变时，相变的临界指数是多少，或者相变中的自旋关联函数以怎样的速率指数衰减等定量问题。这些问题是物理学家非常希望得到答案的。如果我们能够发展出更好的重整化方案，就能定量地回答这些问题。虽然目前来说，大部分深度学习的应用在于图像和语言处理，看起来似乎是一种比较定性的应用，但实际上，生成式模型和深度学习也可以在科研中产生定量的结果。我们的研究论文显示，这些算法能够为我们提供越来越精确的方法来确定物理学中的临界指数。这是人工智能在物理学应用的一个例子。AI 的发展为我们提供了新的工具，使我们能够以定量的方式回答一些以往可能只能定性回答的问题，这对定量科学是有帮助的。

反过来，物理学对 AI 其实也有帮助，统计物理本身对于理解深度学习的原理就有很大的贡献。像 Dan Roberts 等科学家们研究了深度神经网络为何能学习，并运用一些统计物理中的量，特别是量子场论中的技巧，他们试图理解，在神经网络神经元数量趋于无限的情况下，网络会展现出怎样的行为。这些行为是可以用统计物理方法去理解的，因为统计物理想要理解的恰恰是多体系统中粒子趋于无限的极限情况。所以，当神经网络中的神经元数量趋于无限时，它也会展现出一些统计物理可以处理的行为，统计物理就能为理解神经网络如何工作提供一些理论支持。比如，在这些研究中发现了神经网络的标度律（neural scaling law），发现了如何初始化神经网络参数，每一层应该初始化的高斯宽度应该是多少，才能使神经网络恰好处于理论要求的最佳状态，使其学习和训练效果最佳。我认为，无论是 AI for Physics 还是 Physics for AI，这两方面都是相互促进的。

Roberts, Daniel A., Sho Yaida, and Boris Hanin. The principles of deep learning theory. Vol. 46. Cambridge, MA, USA: Cambridge University Press, 2022.

- 4 -

人工智能和科学的发展如何相互赋能？

Q：我们刚才讨论的很多内容主要是从物理学的角度出发。我们知道除了 Physics for AI 或 Science for AI 之外，还有一个与之相对的领域，那就是 AI for Science。现在的 AI 工具已经可以应用于许多科学问题中。比如今年的诺贝尔化学奖就颁给 AlphaFold 的开发者，他们解决了一个长期以来非常困难的科学问题——蛋白质的天然结构预测问题。我想请教老师们，针对 AI for Science 这一领域，AI 还能有哪些更广泛的应用？

尤亦庄：我认为 AI for Science 已经在整个科学研究领域广泛流行，就像当年计算机出现后，大家都想用计算机来做科学一样。现在，AI 在科学中的应用我觉得有以下几点。

首先，AI 和神经网络可以辅助人类为科学提供一种变分猜测。因为神经网络能够拟合各种函数，在科学中，我们经常面对未知，需要提出假设，而人的想象力毕竟有限，需要 AI 来帮助我们提出假设。在这方面的工作，比如有人提出可以用神经网络来构造量子波函数，通过优化量子波函数来计算各种分子或多体量子系统的基态解，从而理解复杂的材料、设计各种药物等等，这些应用都是非常有价值的。

另一方面，AI 有可能替代所谓的计算瓶颈（computational bottleneck）。在科学研究中，很多领域需要进行大规模的模拟，这些模拟的成本通常非常高，需要消耗大量的计算资源。很多时候，人们希望能够采用一种端对端的方法。模拟通常是一个类似爬山的过程：输入条件相对简单，答案也不难得到，但中间的过程极其复杂。如果你重复这个过程多次，积累了足够多的数据，就可以训练 AI 来替代这个爬山过程中的中间步骤，也就是那些计算复杂度先增加再减少的部分。这样，AI 可以直接打通一个计算复杂度平坦的隧道，这是 AI 的第二个用途，即替代计算中的瓶颈，在科学中也非常有用。

第三个是 AI 辅助数据挖掘。以高能物理领域为例，在欧洲核子研究中心（CERN），科学家们每天都在进行大量实验，将原子质子相互对撞，希望从这些高能对撞的数据中发现粒子物理是否对标准模型有新的违反。但标准模型已经相当成熟，我们想要发现新的物理现象，就像是在巨大的噪声背景中寻找微小的信号。粒子对撞机每时每刻都在产生大量数据，如果全部记录下来并逐一分析，首先存储空间就不够，更不用说分析所需的计算资源了。很多时候，我们需要在对撞机现场第一时间判断这个对撞事件是否值得记录，这个过程被称为“trigger”，用他们的术语来说就是“扳机”。他们需要发展 AI 算法，直接在对撞机上、在大数据中挖掘出信号，并用这些信号来触发后续所有的过程。在天文学中也是如此，比如之前引起热议并且后来获得诺贝尔奖的黑洞照片的发现，这些天文照片的处理中都运用了 AI 技术。因此，AI 作为数据挖掘工具，在数据处理方面发挥了重要作用。

所以，我认为 AI 作为变分假设的工具、替代计算瓶颈的手段，以及数据挖掘的工具，这三个应用领域相对来说已经非常成熟，并且得到了广泛的应用。但我觉得 AI 目前还难以做到的一点是，我们还不能指望它像研究生那样进行科研，并与导师对话来规划科研项目。大语言模型的发展让我们看到了这方面的一些希望，但这种希望似乎并没有最初想象的那么大。我认为在这方面我们还需要耐心等待。这是否有可能是需要某种集成效应，是否需要多个 AI 共同工作，形成一种社会结构，还是说目前我们训练的范式本身就存在问题，使得这个过程并不可持续。也许我们需要更多创新的思路，才能真正让 AI 与人类在科学发现上进行交流，或者甚至代替人类做出新的科学发现。

张江：在这方面，我认为 AI 可能会在某种程度上带来科研范式的转变。我们熟悉的现行自然科学，尤其是像物理学这样非常典型的领域，采用的是一种从第谷到开普勒，再到牛顿，还可以加上爱因斯坦的范式。也就是说，首先是像第谷从数据出发，进行数据挖掘的工作。然后，像开普勒最大的贡献在于提出了描述模型，能够用一些方程来概括一组数据，但这些并不是机制性的模型。牛顿的最大贡献在于他提出了三条运动定律，发现天上的天体和地上的汽车、苹果都遵循同一组方程，从而找到了更本质的规律。爱因斯坦则更加抽象，达到了时空对称性的层次，用以解释所有这些现象。这是一个传统的科学研究范式。

但现在我们面临的许多系统并不那么简单，它们可能是非常复杂的，比如气象系统，甚至包括整个地球的气候模型。对于这种复杂系统，我们很难再按照传统的方式去抽象和建立模型，探索最终的对称性。在这种情况下，人工智能，尤其是大语言模型，为我们提供了一种新的可能性：以数据驱动的方式，通过学习具有大量参数的神经网络来理解整个数据集。这时就会出现一个困惑，即这种具有大量参数的模型，我们人类很难理解，不像传统物理学中我们可以写出一个方程，看了之后就能明白这个方程背后的原理是什么。但现在不行了，人工智能的可解释性成为了一个巨大的瓶颈。面对这个问题，我们可能有两种应对的方式：

一种途径是我们接受这种现状，不寻求解释，直接从大参数模型到大参数模型。实际上，现在的大语言模型就是这么做的，没有人知道语言背后的美丽方程是什么，以及它的对称性原理是什么，我们可能根本就不知道，但这无所谓，我们可以很好地处理和模拟人类的语言能力。这是放弃可解释性的一种方式。另一种途径是我们试图开发一些可解释性的工具和方法，让模型提炼出我们人类能够理解的原理性的东西。我认为这也是一种值得探讨的可能性。

总而言之，AI 这个新工具的出现，像尤亦庄老师说的那样，就像当年的计算机，但甚至可能比计算机还要更厉害，它能够非常深层次地嵌入到我们的科学研究中。

唐乾元：我想再补充一点，这实际上也是我们接下来要讨论的关于可解释性的问题。我想分享我在这方面的两个新尝试。第一个想法是，现在有这么多人在开发 AI，AI 产生了大量数据，却没人来分析 AI 生成的数据。我的想法是，与其让 AI 来做开普勒或牛顿，不如让 AI 来当第谷，我们人类自己来做开普勒，我们自己来做牛顿，分析 AI 生成的数据，从中发现新的物理规律。比如在蛋白质结构预测领域，现在已经完成了人类和各种动物的基因组测序，我们人类可以在此基础上进行统计物理研究。我认为这是一个角度来打开 AI 的黑箱，我们并没有去打开 AI 的黑箱，而是从 AI 学到的结果中来看它的统计物理，以此来理解 AI 到底学到了什么。

另一个角度是，我们不打开 AI 的黑箱，但在使用 AI 工具时，我们不会只问一个问题，有时还会给它一些提示词。比如问“为什么天是蓝色的”，你可以说假设你是费曼，请给我解释一下为什么天是蓝色的，假设我是一个五岁的小朋友，你给我解释一下为什么天是蓝色的。提示词不同，就可以得到不同的回答。类似地，蛋白质结构预测工具不仅会利用它要预测的蛋白质的结构序列，而且会参考与该序列相似的祖先序列。这个过程有点像是根据关联来推断相互作用，我们可以把祖先序列当成是一种提示词，给 AlphaFold 这部分序列，就可以让它预测出这种结构，给它另一部分序列就可以预测出另一部分结构。AI 在不同的提示词情况下，会预测出不同的蛋白质结构，变相地我们就把蛋白质动力学用 AI 解出来了。这样我们自己不再是 AI 的工程师，而是提示词工程师，我们给 AI 设计提示词，虽然没有打开 AI 的黑箱，但最终还是打开了 AI 的黑箱。（参看：《AI+Science新视野：用物理信息引导AlphaFold 2预测蛋白质动力学》）

图2. 当 AI 可以像第谷一样生成数据，人类自己可以做开普勒，分析 AI 生成的数据，从中发现新的物理规律。｜摘自唐乾元老师报告

- 5 -

统计物理与复杂系统

可以为人工智能领域提供哪些启发？

Q：现在 AI 领域主要应用的是统计物理，但我们知道物理学在统计物理之后有很多发展，包括量子力学、量子场论，以及现在的前沿领域。不知道这些物理理论未来是否也有可能被应用到 AI 架构设计中去？

尤亦庄：我觉得在很大程度上，AI 的发展在不断地将各种数学工具融入其中。比如前馈神经网络实现了任意函数的映射；循环神经网络（RNN）实现了时间序列的处理，类似于物理学中的动力学方程；还有像 Neural ODE 这样的模型实现了微分方程的求解，包括自动微分和反馈等功能。这些都是基于高等数学的概念。我们自然非常期待有更高级的数学工具能够被引入到 AI 中。当我们谈论更深刻的物理时，往往会涉及到一些复杂的数学，比如范畴论、拓扑学等代数和拓扑领域。这些数学工具也有可能被应用到神经网络架构的设计中，人们在这方面也在进行一些尝试。

总的来说，我认为这与此次诺贝尔奖的启示有关。这两位获奖者将物理学应用到了学习算法的设计中，从而开启了整个 AI 领域的新篇章。作为后来者，我们想要在他们的基础上进一步发展，自然也需要更多地借鉴，将他们尚未引入 AI 领域的数学知识逐步引入，这是一个目标。更具体地说，像刚才提到的量子力学，这个领域现在非常热门。比如在美国，明年春天就有一个会议专门讨论 AI 与量子的结合。量子计算和人工智能的结合是非常自然的，因为它们有一个共同的话题——信息。关于如何处理信息，如何用人工智能帮助我们构建量子计算机，以及如何用量子算法来改进 AI 算法，这些都是当前讨论的热点。

2025 年 AI+Quantum 会议

https://sites.google.com/view/quai-acp-2025/home

唐乾元：实际上，统计物理与复杂系统和机器学习之间存在着许多联系。首先，就像尤亦庄老师刚才提到的，我们所说的深度学习不仅包括以深度神经网络为代表的结构，还包括循环神经网络等，它们可以用动力系统等复杂系统领域的工具来描述，这些也是复杂系统研究的对象。此外，复杂系统领域的一些工具，如储备池计算（Reservoir Computing）等，也可以用来帮助我们分析这些模型中的基本理论问题。还有像尤亦庄老师提到的 Neural ODE，这是一种在图像识别方面表现非常好的网络，它被解释为一种微分方程的表示。还有最近非常火热的扩散模型（diffusion model）和大语言模型，大家都在讨论这些模型中的一些基础理论问题，这些问题物理学家们可以做出更多的贡献。

但这里我想问一个问题，这个问题不是我首创的。在诺贝尔奖刚刚发布的时候，中科院理论物理所的张潘老师在他的报告中提出，深度学习或者说机器学习在发展初期与统计物理的联系是非常紧密的，但现在看起来越来越远了。所以我想问问两位老师，在未来某个时期，它们是否有可能重新合并，或者说在哪些领域上，它们可能会再次合并？

图3. 机器学习与统计物理两个领域之间的联系。｜摘自张潘老师报告

尤亦庄：我认为，张潘老师的那张表中列出的是与自旋模型和自旋玻璃相关的统计物理的内容，但是，统计物理不仅仅包括这些，它还涵盖了非平衡态统计物理。非平衡态统计物理中一个非常重要的部分就是福克-普朗克方程和朗之万方程，这些方程描述的是随机过程，而随机过程正是当前扩散模型的基础。因此，在我看来，我们不能说机器学习与统计物理越来越远，反而它们结合得越来越深刻，与越来越多的领域结合在一起，越来越广泛地融合。

张江：从另一个角度来看，正如刚才提到的复杂系统，现在尤其是在大语言模型出现后，有很多现象未来可能需要用物理学的工具来解释。有两个典型的现象：一个是所谓的规模法则（Scaling law），另一个是涌现能力（Emergent abilities）。目前对这两个现象还没有非常好的解释，而这些正是复杂系统的典型特征。我们观察城市、生物等任何复杂系统时，都能看到随着规模的增大，各方面指标会呈现幂律缩放。在神经网络中，OpenAI 之所以敢于在大模型上下注，是因为规模法则有很强的预测性，当我们把模型做到一定规模时，损失（loss）一定会降到这么低。但这仅仅是众多规模法则中的一小部分。现在可能在训练之后，推理阶段也会展现出相应的规模法则。我们知道，规模法则是临界现象的一个典型标志，这意味着神经网络模型最终变成一个复杂系统后，一定是一个远离平衡的临界系统。对于这种系统的认知，统计物理可能提供相应的工具，而目前还没有其他更深入的认识。因此，我认为这些都是未来两个领域能够密切结合的非常重要的点。

- 6 -

AI 会超越人类的理解力发现新物理吗？

Q：AI是否真的有可能帮助我们发现新的物理现象或者新的机制呢？还是说 AI 的长处并不在这里，仍然需要我们人类的参与？

尤亦庄：我觉得这是一个非常好且重要的问题。现在的 AI 看起来与我们追求的通用人工智能（AGI）还有一定的差距，所以很多人都在问，通往通用人工智能的路在哪里？我以前听祁晓亮老师讲过，也有很多人在交流这些观点，就是所谓系统一和系统二的概念。系统一是凭直觉响应的系统，系统二则需要反思，需要为世界建模。我认为 AI 发现新物理的过程其实就是在从系统一慢慢走向系统二。很多时候，人类的理性思维能力来源于对世界的预测，当发现预测被现实打脸时，会感到痛苦，从而产生理性思考。因此，如何训练 AI 对世界进行预测、建立世界模型，是一个非常重要的问题。以前大家可能更重视的是表示学习，有点像是如何描述世界，或者更多的是关注如何做编码。现在，我们还需要学习如何预测，更多的是在说这个事件如何演化，如果你对世界进行一些操作，这些操作会如何改变世界，有什么因果效应。所以，这些问题可能是未来 AI 更需要关注或研究的方向。

作为物理学家，我觉得物理学实验室为 AI 提供了一个很好的平台，可以让 AI 在实验室里与实验和现实互动。也许不能直接把 AI 放到大街上自由游荡，那有点危险，但可以在一个可控的科学实验室环境中，让 AI 做化学实验、物理实验，在这个过程中学习自然的规律、自然科学的规律，让它为自然科学建模。我认为这是让 AI 学到物理、发现新物理规律所必须要经过的途径。

相关文章：《时间、信息与人工智能：从信息动力学角度看大模型的未来》

张江：我非常同意尤亦庄老师的观点，AI 需要更多地理解物理世界。在现代社会，我们面对的世界充满了复杂性和不确定性。此外，我认为可能还会出现另一种可能性，这与大型模型的发展有关，特别是许多大公司正在开发的多模态大模型。现在的模型可以同时学习语言、图像，甚至音频和视频等，将这些多模态数据集中起来后，可以有一个统一的表征，无论是建立对世界的模型还是进行理解。

因此，我预见未来可能存在这样一种可能性，这与两位的探讨有关：AI 可能在人类难以处理的领域之间发现一些共同的规律。例如，一方面在学习气象模型，另一方面在学习经济模型，如果将两边的数据同时用来训练一个更大的模型，它很有可能找到不同领域之间的共性规律。这正是我们复杂科学追求的目标，即探索复杂系统背后是否有一些统一的规律。但由于人脑的局限性，我们很难找到这种统一性。未来在大型模型中，人工智能可能自行学会这些规律。但这时，可解释性问题又出现了，即 AI 可能发现了新物理，但很难向我们解释清楚。因此，我们后续可能需要研究其数据或模型本身，以揭开这层神秘的面纱。很有可能会出现这种情况。

唐乾元：刚才尤亦庄老师提到了“打脸”的事情，也就是说，为什么我们会对某些预测感到意外，是因为它与我们预期中要发生的事实不符。因此也有人提出自由能原理来解释人类或智能体对世界的感知和探索，并认为这有可能是意识形成的基础。那么，是否有可能这是另一种发现物理的方法？想请张江老师就这一点进一步阐述一下。

张江：自由能原理（Free Energy Principle）可能对我们理解智能有很大的帮助。有人说自由能原理在某种意义上是智能的第一性原理，这有一定的可能性。它给我们的最大启发，是智能系统实际上是内在和外在双向结合的结果。我们现在的数据驱动型人工智能模型比较强调直接从数据中获取经验，可能不太关注先天结构这部分。但实际上，我们知道人脑有先天性的结构，比如我们对对称性很敏感，一看到对称的东西就很兴奋，尤其是物理学中，我们非常喜欢追求更高层次的对称性，这可能来源于智能的某种先天性结构。因此，学习过程不仅是单方面被动地被外在数据训练，很多时候是自己的先天性结构和外在数据之间的互训，相当于互相影响。

所以我认为，现在的人工智能在这方面的探索还比较少，尤其是智能的先天结构对最终结果的影响，这是一个非常有趣的问题。我对这个问题也非常感兴趣，因为我认为很多 AI 网络在初始化时，其初始化并不那么符合生物学或物理学原理。自然界中，实际上会用一些更简单的物理机制产生初始结构，然后再演化。虽然这些结构在某些表现上不如机器学习任务，但它们有一些好处，比如能耗少，不需要那么多能量就能执行复杂任务，这是智能的另一种体现。比如下围棋，虽然人下不过机器，但人脑耗能少。从这个角度看，自然规律本身的约束可能在其中起到了重要作用，帮助降低了训练成本或迁移难度，或者拥有了更强的多模态能力等。这些可能都需要我们有更多的理论解释和研究。

尤亦庄：我觉得现在的 AI 缺乏文化。实际上，很多知识是固化在人类社会文化中的。比如刚才提到的对称性，可能是因为我们受到了关于对称性教育的影响，被数学老师反复强调对称性的重要性，或者让我们感受到了它的美。这种文化能够固化在结构中，一代代传承下去，成为一种信仰。但现在的 AI 似乎就缺乏这种信仰，数据指向哪里，它就往哪里走，它没有办法形成自己的信仰。我认为这是一个需要我们去思考的问题，我们该如何让 AI 形成自己的信仰。

- 7 -

下一个诺奖级的科学研究会是什么？

Q：之前2021年复杂系统的研究者获得了诺贝尔物理学奖，在这次 AI 研究获得诺贝尔物理学奖之后，我们不禁会想，在未来是否还会有更多超乎我们想象的、与复杂系统和 AI 相关的研究能够获得诺贝尔物理学奖？

张江：我想先谈谈我个人的看法。我认为目前的 AI 研究虽然非常火热，但还相对局限在单体智能上。即便我们有再大的模型，它也只是一个公司拥有的大参数量模型。我认为未来很有可能，这些模型本身会变得更加分布式、更加多体化。为什么这么说呢？因为我观察到，尽管 AI 发展迅猛，但它仍然无法解决我们在物质世界中面临的大部分主要问题，比如现在最大的一些问题包括能源危机、气候危机。整个地球可能会因为温度升高到一定程度而发生巨大变化，这是非常令人担忧的。但目前人工智能的发展很少有相关研究朝这个方向努力，所以我认为这个领域有很大的改进空间。比如，今天我开车时发现交通问题非常严重。未来，如果自动驾驶技术大规模应用，可能会使每个人的出行变得更加优化，减少很多能源浪费。当然，相关的领域还有很多，包括物流、人们的出行，以及整个物质的生产和消费，这些领域都有巨大的改进空间。

未来的 AI 研究是否有可能更加跨学科，帮助我们使整个人类社会的物理、物质、能量的流动变得更加高效？我认为这将具有重大意义，可能是一个诺贝尔奖级别的研究。不知道大家对此有什么看法？

尤亦庄：我认为，如果我们实现了常温超导，这无疑是诺贝尔奖级别的成就。同样，如果可控核聚变得以实现，那也将是诺贝尔奖的有力候选。从物理学的角度来看，我认为量子信息领域很有可能再次获得一两个奖项，因为这个领域的进展确实非常显著，并且成为了众多学科的研究焦点。至于量子引力领域，也有可能获得奖项。比如，今年有几位科学家，他们提出了引力与量子纠缠和时空对偶的观念，已经获得了一个仅次于诺贝尔奖的奖项。所以，我认为在量子力学、量子信息以及对时空认识的深化这些领域，未来很有可能出现更多的诺贝尔奖级别的研究。

唐乾元：AI 在寻找共同观点方面的帮助，我认为是值得获得和平奖的。还有很多各种各样的可能性，前段时间我看到一个文章，可能是在《自然》杂志上，讲到我们可以利用 AI 来解决矛盾和促进沟通。比如说，当双方存在分歧时，AI 能够更便捷地找出双方观点中的共同点，帮助我们更好地达成共识。在这个意义上，AI 的贡献或许可以获得和平奖的提名。

尤亦庄：那 GPT 完全值得诺贝尔文学奖了。

问答环节

Q：AI 是否能解释 complexity？

张江：目前关于复杂性的研究还相对较少，因为现在基本上我们不需要深入理解复杂性是什么，AI 的风格就是直接干掉。历史上关于复杂性的定量定义不下二十多种，大家对此争论不休。但有一个共同点是，复杂性与信息、热力学以及统计物理等领域密切相关。由此可见，复杂性本身既立足于信息计算领域，又与物理和统计学紧密相关，因此它与 AI 的关系也极为密切。

Q：既然大模型是对势函数的构建，我们能不能把训练之后的势函数提取出来，对 AI 进行解释？

尤亦庄：这是一个挺不错的思路。但是大模型中的参数太多了，很多时候我们并不清楚它是如何得出答案的。在这方面，人们已经有了一些思考。比如我以前参与合作的项目中，我们提出了一个想法：或许可以用第二个 AI 来分析第一个 AI 的思考过程。第一个 AI，我们称之为任务 AI，它的任务是处理数据，只需要完成从数据 A 到数据 B 的转换任务。它在训练过程中会形成自己的神经网络参数，这些参数以及神经网络的神经元活动本身也可以作为训练数据，用来训练第二个 AI，以学习第一个 AI 的思考方式。比如，第二个 AI 可以尝试对第一个 AI 的神经元数据进行压缩或表示学习等。你可以想象，这个过程可以不断地嵌套，就像俄罗斯套娃一样，第二个 AI 可以再嵌套第三个 AI。

所以我认为，在当前的 AI 领域，我们开始看到一些将小 AI 嵌套在大 AI 模型中运作的工作，这可能是未来发展的一个趋势。比如最近比较火的序列模型 TTT（Test-Time Training），就是将小的 transformer 嵌入到大的 transformer 中。我认为，用 AI 去分析 AI，而不是靠人来分析 AI，可能是未来提高可解释性的一个途径。

Sun, Yu, et al. Learning to (learn at test time): Rnns with expressive hidden states. arXiv preprint arXiv:2407.04620 (2024). https://arxiv.org/abs/2407.04620

‍Q：我们观察到机器学习领域经历了大数据的规模效应，这种效应使得大型模型得到了训练。它可能还带来了推理的规模效应。那么，下一个规模效应会出现在哪个方面呢？会不会是 AI 创造 AI，或者是多个 AI 协同工作？

张江：如果我们跳出 AI 这个圈子，从一个非专业人士的角度来看，一个显著的观察是它扩展了人机交互的带宽。传统上，这个带宽受限于屏幕、鼠标和键盘，非常串行化。但现在，我们有了自然语言处理和多模态交互，这意味着我们可以用各种各样的方式与计算机进行交互。别忘了，站在机器前的人本身就是一个天然的、超级复杂的智能体，背后隐藏着深奥的东西和大规模的未知。我认为，如果未来还有进一步的发展，很可能就出现在这种人机交互的带宽上。当带宽扩展到一定程度，可能会引发某种突变，说不定在某种意义上，心灵感应就会出现。你一个念头，机器就能捕捉到你的微表情，甚至你都不用说话，你自己可能都没意识到你的眼睛眨了一下，但机器已经明白了，这时，它可能会为你提供一些服务。我认为这才是真正的未来，而不仅仅是单纯地开发机器的能力，这是非常酷的。

尤亦庄：我非常赞同这个观点。我认为我们人类社会的一个重要规模效应就在于此。单个个体的力量是有限的，但我们的社会已经发展出了人类文明，这个文明的持续传承，才是整个人类社会智能的真正实体所在。我认为 AI 也是如此，AI 的下一个规模效应将体现在 AI 网络的形成上，即 AI 之间形成一个相互作用的复杂网络。在这个复杂系统中，随着 AI 数量 N 趋向于热力学极限，即数量极大时，AI 将形成一个社会，从个体走向社会化。同时，AI 社会和人类社会将通过人机交互紧密联系在一起。这种社会规模效应可能是下一个规模效应。

张江：补充一点，如果你回顾人工智能的发展历史，其实非常有趣。它一直在单体智能和多体智能之间循环往复，不断迭代。早期，比如1956年人工智能学科创立时，目标是让机器单体具备强大的推理能力。到了八九十年代，圣塔菲学派兴起，他们的一个重要贡献就是转向多体智能，通过大量智能体的合作来实现突破。现在，随着深度学习大模型在单体智能上的突破，未来一定是大规模多体智能合作的时代。

我们今天的讨论实际上是从物理学开始的。要描述这样复杂的系统，我们肯定需要更新的统计物理学，需要统计物理学有更多的突破，无论是多模态信息处理的统计物理学，还是多个智能体互动意义上的东西。这里可能还会带来许多新的问题，这些问题可能会被纳入物理学的研究范畴。我们已经看到，机器学习领域中的一些难题，或许统计物理学可以作为一种工具。在我们刚才设想的未来，可能还会有更多的问题出现，统计物理学、复杂系统等各种各样的工具都可能被应用到这个领域中。

阅读报告全文，请访问欧米伽研究所的“未来知识库”

https://wx.zsxq.com/group/454854145828

未来知识库是“欧米伽未来研究所”建立的在线知识库平台，收藏的资料范围包括人工智能、脑科学、互联网、超级智能，数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。欢迎扫描二维码或访问https://wx.zsxq.com/group/454854145828 进入。