杨立昆访谈全文：AI Agent要实现真智能，必须摆脱“Token游戏”-CSDN博客

数字开物
2025年05月08日 19:04

4月25日，Meta首席 AI 科学家杨立昆在宾夕法尼亚大学进行了一场圆桌对谈。本次对话杨立昆分享了早期神经网络项目的探索、对AI范式的演进，并深入剖析了深度学习革命的驱动因素。还探讨了强化学习的角色、AI的社会影响与风险、开源生态的重要性等话题。最后，杨立昆还就AI Agent、物理世界理解、非语言思维等前沿问题与现场观众进行了互动。

杨立昆认为AI的生存风险被夸大，当前AI远未达到人类水平智能，仅靠扩大LLM规模无法实现AGI。他指出，真正的风险在于偏见、滥用和信息控制，而AI本身也是对抗这些风险的有效工具。对于AI偏见，他认为无法完全消除，解决方案在于发展多样化的AI助手，而这需要一个强大的开源AI平台生态系统。

杨立昆表示，AI Agent的真正规划能力，远非LLM通过大量生成Token序列挑选可行解的弱推理所能及，需要根本性变革。

人类大部分思考过程与语言无关，让机器掌握这种非语言的、接近动物本能的智能是一大难题，构建智能机器不能仅靠工程设计，而必须依赖机器自身的学习与自组织过程。

以下是本次对话实录：

早期神经网络模拟器与现代深度学习框架

主持人提问：您在机器学习和神经网络领域的杰出工作广为人知。但您能否介绍一下您在贝尔实验室时期的一些“副业”项目，例如SN和Deja Vu，这些项目是如何发展并取得成功的？

杨立昆：SN这个项目是我1987年在法国读博士的最后一年，与同事Léon Bottou共同启动的。Léon Bottou后来也成为了我在贝尔实验室的同事，现在他是我在纽约Meta的FAIR (Facebook AI Research)的同事。那个项目本质上是一个神经网络模拟器，它允许用户通过类似组装模块的方式来构建神经网络，并且能够在这些模块之间实现或多或少的自动微分。至于前端语言——那时候还没有Python之类的东西——所以我们不得不自己编写解释器，前端解释器用的是Lisp解释器。我们当时就是这么做的。

核心代码是用C语言写的，但前端的解释器确实非常“任性”。但也正因如此，它变得极其灵活，因为它使得我们基本上可以使用一种非常灵活的解释型语言Lisp来构建和控制神经网络的模拟过程。通过这个过程，我们深入学习了神经网络的实际工作原理。这个系统还具备图形化界面等功能。在某种程度上，即便是像PyTorch这样先进的现代工具，其某些功能实际上也仅仅是部分达到了我们当年在那些系统中所拥有的一些特性的水平。但你可以看到，SN，也就是后来我们大约在2000年代初将其开源并更名为Lush的那个项目，它基本上成为了像PyTorch这类框架的“鼻祖”。这里面有一条清晰的传承脉络。具体来说，SN和Lush启发了我的两位学生以及Ronan Collobert，他们开发了一个名为Torch的系统，其前端语言是Lua。之后，Soumith Chintala和其他几位开发者又对Torch进行了重写，将前端语言替换为Python。于是，就有了我们今天所熟知的PyTorch，它基本上就是这条技术路线的直接后代。其底层的张量(tensor)操作库，在很大程度上是受到了我们九十年代初期在SN中所做工作的启发。

AI范式转型：从规则到学习的演进

主持人提问：AI领域的研究范式从主要依赖基于逻辑的规则体系和手工编程，逐渐转变为以机器学习为主导，尤其是在计算机视觉等领域。您对这一长达十年的转型期有何观察与见解？

杨立昆：对于计算机视觉领域而言，这可以说是一个相当缓慢的转变过程。计算机视觉学术圈实际上是两个不同研究群体的交汇点：一个群体是传统的计算机视觉研究者，另一个则专注于所谓的模式识别。这两个群体在某种程度上是有区别的，他们主要的交集点是在一个名为CVPR的学术会议上。那些从事模式识别研究的人其实一直都在使用某种形式的机器学习方法，例如非常简单的分类器，像是线性分类器、最近邻算法等等。后来他们也开始尝试使用像Boosting这样的技术，可能也用了一点点神经网络，但并没有形成大规模的应用。而传统的计算机视觉研究则几乎完全不依赖于学习，基本上是建立在图像形成的原理、几何学等基础之上，比如如何将一个三维模型与真实世界进行匹配？如何从多张图像中重建三维环境等等诸如此类的研究。这些技术主要应用于机器人学、各种计算机图形学、好莱坞的视觉特效等领域。

直到2000年代中期，计算机视觉领域的研究者们才开始逐渐意识到，他们可以利用机器学习来真正攻克计算机视觉的核心难题，那就是实际地去解释和理解图像内容。因此，在最初阶段，当时开始取得成功的计算机视觉系统采用的是手工设计的底层特征，例如边缘方向直方图，或者那些需要手动编程实现的定向边缘检测器。然后，会通过某种中间表示层——这里面可能会用到一点无监督学习之类的方法——最后，会将一个支持向量机(SVM)或者Boosting模型应用在这个中间表示之上，来进行计算机视觉的任务。当时，整个学术社群开始对这些基于学习的方法产生兴趣，也是因为出现了一些实际的成功应用，比如基于Boosting和特征选择相结合的人脸检测器，以及一些类似这样的例子。但那时学术界对于神经网络仍存在大量的怀疑，尚未真正应用。对神经网络的兴趣真正开始升温，最初只是在小范围内，或者说在较低的关注度上。

大约是在2000年代中期，然后在2013年左右则完全呈现出爆发式的增长。这主要是因为在ImageNet数据集上取得了实质性的、基于经验的实验性成功，在那项工作中，深度学习，特别是卷积神经网络，取得了远比当时人们尝试过的所有其他替代方法要好得多的结果。

深度学习革命由海量数据、

GPU与新技术共同驱动

主持人提问：从早期神经网络因训练缓慢而不被看好，到如今深度学习催生出庞大产业，您认为在这场变革中，科学突破、工程进步、硬件发展以及海量数据等不同因素，各自的相对贡献和重要性如何？

杨立昆：深度学习相较于以往人们在计算机视觉等领域所使用的技术，其一大显著优势在于，无需通过工程手段去手工精心设计图像或任何待分析输入的表征，而是能够端到端地学习整个系统。你可以对其进行端到端的训练，从而使系统从数据中习得任务，这仅需相对少量的、通过特征工程方式获得的先验知识。在我看来，这似乎是一个显而易见且非常简单的想法，注定会取得巨大成功。但它的发展受到了三个主要因素的制约。

首先，应用于自然图像的神经网络，其所需的规模相当庞大。这对许多人而言，意味着需要海量的数据来进行训练。他们没有错，深度学习系统的确需要大量数据，远超那些部分依赖工程构建、学习仅扮演次要角色的系统。而在当时，也就是2000年代中后期，计算机视觉领域常用的主流数据集，其训练样本数量是极少的。例如，2000年代后期最常用的数据集是Caltech 101，它包含了101个类别的各类物体图像，但每个类别当时仅有30个训练样本。因此，若使用当时传统的网络模型来训练该数据集，是无法取得破纪录成果的，结果尚可，但并不出色。

后来ImageNet数据集的出现，它不仅拥有130万个训练样本，更重要的是包含了1000个类别，其数据规模才足以让深度学习系统真正得以蓬勃发展。这是其一。其二是出现了以GPU为代表的、计算速度更快的硬件设备。再者，还有一些在发展过程中涌现的新技术。大约在2000年代初期至中期，具体说来是2004、2005年左右，Jeff Hinton、Yoshua Bengio和我共同发起了一项“小小的策划”，旨在重新激发学术界对神经网络的兴趣。我们深知其有效性，但自上世纪90年代中期以来，从事神经网络研究的人已寥寥无几。在某些圈子里，尤其是在理论家群体中，神经网络甚至沦为被嘲讽的对象。因为理论家们会说，神经网络根本不可能有效。它具有非凸的目标函数，若使用梯度下降法进行训练，很容易陷入局部最小值。而且，通常需要训练的参数数量远大于拥有的训练样本数量。这无疑违背了所有教科书的原则——任何一本统计学教科书都会告诫你，相对于训练样本量，模型的参数不宜过多，学习理论也是如此。

然而，这些教科书上的论断后来被证明是错误的。如果将神经网络构建得足够大，局部最小值的问题实际上会随之消失。事实证明，在一个极高维的空间中，具体取决于神经网络的构建方式，系统几乎总能找到一条通往目标函数优质最小值的路径。这是因为高维空间的特性，而我们对于高维几何的直觉往往是错误的。所以，教科书上的这个论点被证伪了。此外，还有另一个现象，理论家们至今仍在某种程度上试图解析，那就是神经网络的规模越大，其性能往往越好，即便其参数量远超训练样本数。人们将此现象称为“双重下降”，目前对其已有初步理解。

但事实表明，那些统计学教科书所阐述的“金科玉律”，在实验层面往往是错误的。然而，正因为神经网络的整个理念，在根本上违背了许多理论家所固守的先验认知，它一度成为饱受诟病的对象，即便已有实验结果证明了其有效性。

“机器学习是任何问题的次优方案”的

说法已不再适用

主持人提问：我记得您曾引用过“机器学习是解决任何问题的次优方案”的说法。请问这具体指的是什么？这个观点在今天是否依然成立？

杨立昆：没错，我并不认为这个说法的首创者是我本人。我是从其他人那里听说的。在当时，这句话的含义是：针对任何一个特定的问题，总能找到一种专门为此设计的、通过工程手段实现的解决方案。但与此同时，你也可以运用机器学习或神经网络来解决同一个问题，并且通常能获得不错的性能，尽管可能略逊于那种依据先验知识手动硬编码构建的定制方案。在神经网络远未发展到如今的水平、数据集规模较小、计算机算力也不够强大的那个年代，这种说法在很大程度上是成立的。如今，得益于互联网及其他多方面的发展，收集大规模数据集已变得容易得多，因此，之前的那种评论基本上已经不再适用。

此外，还有另一种情况，或者说另一个原因，也使得那种说法逐渐消弭，并且在很大程度上确实如此。或者可以说，是其原有的“正确性”消失了。这是因为，当前我们训练深度学习系统的主要范式，已经不再是针对某一特定任务进行训练了。我们会为了一个更通用的目标来预训练模型，其本质在于捕获输入数据内部的依赖关系。具体做法是，取一个输入，以某种方式对其进行损坏，然后训练一个大型神经网络来预测缺失的部分，或者从损坏的、或部分被遮盖的版本中重建出原始的、未损坏的输入。这正是LLM的训练方式，也是当今计算机视觉系统的普遍训练方法。

这种模型被称为基础模型,首先用海量数据对系统进行预训练，这些数据通常是无标签的，训练过程属于无监督学习或自监督学习。一旦拥有了这个基础模型，便可以在其之上附加少量模块，针对特定应用进行训练；或者也可以针对具体应用需求，对整个系统进行微调。这已成为当今机器学习系统开发的主流模式。因此，现在它已不再是“次优方案”了。

利用数据固有结构对高效模型至关重要

主持人提问：您曾提到，许多性能改进的核心在于约束模型参数以捕捉世界中已知的客观不变性，避免浪费数据学习已知规律。在深度学习和基础模型时代，这种对先验知识的利用和参数约束的现象，是否有所减弱或消失？

杨立昆：可以说这种现象有所减弱，但并非完全消失。基本理念在于，若要构建一个能够识别图像、理解视频或音频信号的系统，应当充分利用数据本身固有的、已知的结构特性。那么，图像具有哪些特性呢？

其一，如果我拍摄这个房间的照片，无论是这张还是那张，同一个人或几个人可能会出现在两张照片中的不同位置。这意味着，图像中的局部统计特性并不依赖于其在图像中的具体位置——图像某处可能出现的模式，在另一处也同样可能出现。这是第一点。第二点，自然界存在一个奇妙的现象，即邻近的事物往往具有相似性。若拍摄一张照片并测量相邻像素间的相似度，你会发现，图像中两个像素距离越近，它们呈现相同颜色的概率就越大。这便是所谓的局部相关性。这种相关性会随着距离的增加而迅速衰减。然而，这也意味着，如果在图像中随机选取一个像素块，比如 5x5 或 7x7 大小，并非所有可能的像素值组合都会在自然图像中实际出现，符合自然规律的只是一部分子集。因此，对这样的局部图像块提取某种表征是有益的，这种表征能够概括该图像块内发生的一切。

更进一步，由于这种局部模式可能出现在图像的任何位置，那么就应该在图像的各个位置都去提取这类图像块。这便是卷积神经网络的核心思想：构建的神经网络包含能够检测局部特征的单元，并且这些单元会在整个图像范围内检测这些局部特征。若想获得移位不变性，可以引入所谓的池化层，它们的作用是聚合某一区域内一组单元的激活值，如此一来，即使某个特定模式的位置发生轻微移动，输出端的激活值也能保持基本一致。这些思想，人们或许会以为源于深奥的理论推演，但实际上它们借鉴自神经科学。动物，特别是哺乳动物视觉皮层的结构，自上世纪60年代起就在一定程度上为人所知了。它基本上就运用了这一整套理念，而这些理念可以被转化为数学概念，进而用于构建神经网络。

此外，还有层级结构的概念。在神经网络中，随着层级的不断加深，获得的表征也愈发抽象，并可能具备更强的不变性，以至于在某个较高层级，会存在一个单元，只要图像中出现一个瓶子，无论其朝向或在图像中的位置如何，该单元都会被激活。这便是卷积神经网络背后的理念，它巧妙地利用了数据的内在结构。

如今，我们有了像Transformer这样的架构，以及一种特别适用于图像的Transformer变体，称为ViT。采用这类架构后，似乎对先前那些硬编码的结构依赖有所降低。当然，还是需要构建一些基本结构，比如指明每个图像块的来源等。并且，坦白说，ViT的第一层实际上就是一个卷积层或一组卷积运算。但总体而言，似乎无需在系统中预设过多结构，它们也能学会。然而，代价是需要极其庞大的数据量来进行训练。

因此，这在某种程度上是用先验知识的减少，换取了训练数据量的急剧增加。另一个需要付出的代价是计算效率。尽管目前在计算机视觉的基准测试中，一些最佳结果是由ViT取得的，传统卷积网络的性能与之相近，但在ViT上进行模型训练和迭代往往更为简单直接。然而，在计算机视觉的实时应用场景，例如驾驶辅助系统、自动驾驶或无人机视觉系统等，目前仍普遍采用卷积网络，因为它们在计算效率和内存占用方面远胜一筹。所以，卷积网络并未过时。

如果智能是蛋糕，自监督学习是蛋糕主体，

强化学习是顶部的樱桃

主持人提问：Rich Sutton曾提出强化学习是生命本身的运行模式，您如何看待强化学习的相对作用？它是否真的是生命的核心模式，或只是工具箱中的一种工具？此外，对于强化学习更适用于那些即使策略糟糕也能快速产生反馈信号的问题这一观点，您有何看法？

杨立昆：我就知道你会问这个。当我在1983、84年开始研究生学习时，我确实读了Sutton和Barto早期关于强化学习的一些论文。我当时觉得那简直太酷了，而且那个概念真的很有发展潜力，并且注定会走得很远。1986年，我还在攻读博士学位，Jeff Hinton邀请我参加一个暑期学校，那是他在卡内基梅隆大学组织的第一个联结主义暑期学校。Andy Barto当时也在场。我发现他是一个非常好、非常聪明的人，我和他进行了一些非常有趣的讨论。同行的还有Jeff、Terry Snowski和其他一些人。所以我一直对这个领域非常着迷。当时也有一些苏联时期的俄罗斯科学家，像Chipkin这样的人，写过一些关于这个主题的东西，我也觉得非常引人入胜。

但快进到后来，强化学习在很长一段时间里被认为不属于机器学习。这很奇怪，但很多强化学习的论文都发表在人工智能会议上，比如Triple AI等，而不是NIPS (NeurIPS的前身)和类似的会议上。然后，在90年代末的某个时候，Michael Currans、Singh和Rich Sutton，他们当时都在AT&T实验室的研究部门，提出了一个很棒的想法，我以前也听说过，就是通过强化学习来训练一个AI Agent，基本上是一个对话AI Agent。比如，我们能否用强化学习来训练一个系统，使其能与人展开对话？我听说过实验室和其他地方的其他人也有过类似的尝试，卡内基梅隆大学也是其中之一。事实上，贝尔实验室也有。Es和其他一些人在此之前就有这个想法。但那个尝试失败了，不是吗？

是的，不温不火。很难让它真正运作起来，也很难获取数据，特别是因为数据涉及到真实的互动，不仅仅是模拟器，而是与真人的互动。所以这非常困难。所以事实证明，这比预想的要困难得多，因为它基本上需要太多的试验次数。后来，还有一些其他的同事，比如Michael Litman，他提出了一些问题，例如，我们有一个理论适用于所谓的无模型强化学习。我们知道最好的方法是基于模型的强化学习，但是这个理论不适用于它，而且实验结果也不如无模型强化学习，尽管它需要的样本更少。所以我们就面临这样一个难题。

在纽约的一次ICML会议上，我不记得是哪一年了，强化学习领域的半神级人物或者说创始人之一，他的名字不幸地在很大程度上被遗忘了，他叫Jerry，做了一次演讲。Jerry就是在90年代初构建了一个强化学习系统，使其能够达到世界大师级水平来玩西洋双陆棋的人。它在某个时刻确实击败了世界冠军。他使用了神经网络作为评估函数，并通过强化学习进行训练。那项工作得到了认可，非常令人印象深刻，然后有十年时间没有人再继续这项研究。这有点像深度学习。在80年代中期到90年代中期，曾经有一股对深度神经网络和类似技术的热潮，然后就完全沉寂了。强化学习也经历了类似的情况，当时人们对基于模型的强化学习非常兴奋，你可以训练自己的神经网络，但这一切在90年代中期也销声匿迹了，参与这些研究的人们开始转向其他领域。我在90年代末期研究了其他东西，就是你提到的那个项目，那不是机器学习，它是一种文档图像压缩技术，使用了FLAC和JPEG。

所以，Jerry在那次演讲中就说，到底发生了什么？为什么人们放弃了那些曾经非常有前景的东西？事实上，DeepMind的创立基础，或者至少是让他们能够将公司出售给Google的关键，在某种程度上正是对这个想法的重新实现，即使用神经网络，通过强化学习来训练模型玩游戏。在那个案例中是Atari游戏。显然那笔交易价值6亿美元左右。然后类似的现象再次发生，DeepMind当时宣称，我们所需要做的就是让强化学习在所需的试验次数方面更有效率一点，我们就能实现AGI。所以AGI指日可可待，人类水平的智能也指日可待。我们只需要让强化学习的效率再高一点。那个计划彻底失败了。

它并非完全失败，因为也取得了一些巨大的突破，比如AlphaGo以及其他类似的使用强化学习的项目。但是那个计划，即仅仅通过强化学习就能构建智能系统的整个想法，持续了很长一段时间。有一篇不太久远的论文，作者是David Silver，Richard Sutton是合著者，Don Hapi和其他一些人，论文标题是Reward is enough。其核心哲学基本上是，强化学习就是生命本身，原则上，你可以用它做任何事情。

但实际上，动物和人类进行的大部分学习都不是强化学习。强化学习有点像是你为了掌握一项任务而必须进行的最后一步。但是我们进行的大部分学习，都是我之前解释过的那种预训练类型的学习，那是完全自监督学习的。所以我有一张广为人知的幻灯片，在圈内都快成一个梗了，我在上面说，如果智能是一个蛋糕，那么蛋糕的主体部分，你可以称之为海绵蛋糕，就是自监督学习。绝大部分学习都属于自监督学习。蛋糕上的糖霜是监督学习。你可以通过为每个输入提供正确输出来训练系统完成特定任务。然后，作为最后的手段，在无法做到这一点的情况下，当系统必须进行反复试验，自行探索时，你就必须使用强化学习，而那基本上就是蛋糕顶上的樱桃。我现在仍然认同这个观点。

关于强化学习适用性，我认为这是一个让强化学习得以奏效的重要特性。另外一个我认为很重要的方面是，将强化学习应用于世界并非完全确定性的情境中要更容易一些。所以，西洋双陆棋就不是确定性的，你需要掷骰子。而国际象棋则是完全可观察且完全确定性的。所以，你必须有某种探索空间的方法，而这种方法不仅仅是掷骰子。而且，事实上，现在强化学习中有很多这样的情况。举个例子，如果你想用强化学习训练一个模拟的类人机器人行走，效果还行。它需要大量的试验，但确实能行。但是，如果你让这个类人机器人从躺在地板上的姿姿势开始，那就不行了。系统永远也搞不清楚如何站起来。你必须让这个类人机器人从站立姿势开始，然后，在最初的几万次试验中，它会不断摔倒，但最终它会找到如何保持站立，并最大化其前进速度的方法。

所以我认为AI在未来几年的一个重大挑战将会是：那些内在的目标函数究竟是什么？我不一定想称之为奖励，因为它们确实是内在的，而且它们可能是可微的，但它们就像是内在的目标函数，驱动着系统去学习那些与你最终想要用它们来实现的目标相关的东西。

但我想说，Rich和Andy获得的图灵奖是完全实至名归的。他们的影响是巨大的。我的意思是，他们当时讨论的那些东西，以及你为那些对话系统所做的实验尝试，正是我们今天微调大语言模型的方式。

AI生存风险被夸大，

仅扩大LLM无法实现人类水平智能

主持人提问：AI技术已深入社会并带来新的伦理关切，如内容毒性、虚假信息、知识产权及偏见等。在您看来，这些问题中哪些最值得我们关注，又有哪些担忧被夸大了？

杨立昆：我认为很多担忧确实是被夸大和言过其实了。当然，所有那些关于AI构成生存风险的论调——谢天谢地，在很大程度上至少有所平息。人们正在迅速意识到，当前AI技术实际上非常有限，它并不会那么危险，因为它首先就没那么智能。我们基本上不可能单单通过扩大LLMs的规模就达到人类水平AI。而且它们目前的推理能力非常有限。我们可能需要一种新的范式才能达到那个水平。所以，至少目前没有生存风险。

诚然，坏人会利用技术做坏事，这并非新鲜事。但在Meta内部我们观察到，当计算机技术可能被用于作恶时，AI往往是最佳的反制措施。于是，这就演变成了一场猫鼠游戏：正义的一方是否拥有更强大、更先进的AI来对抗运用AI的不法分子？迄今为止，答案是肯定的。但这会持续下去吗？这很难说。国家之间可能会利用AI从事有利或有害的活动。目前我们还没有看到大规模的此类事件。例如，几年前，在ChatGPT问世之前，但LLMs刚开始崭露头角时，有人声称LLMs的普及将是一场灾难，因为每个人都能生成海量的虚假信息并在社交网络上传播。但在Meta，我们完全没有观察到这种情况。我们没有看到由AI生成的虚假信息泛滥。我们确实看到了大量虚假信息，但它们是人为制造的。比如QAnon，就是两个人搞出来的，他们在几年前对选举造成了巨大影响。但这只是两个人，你可以移除这些行为者制造的一些最恶劣的内容。然而，这些信息仍然会以某种方式传播，因为它被许多人转发和相信。

所以，这在目前主要是一个社会问题，而非技术问题。我们也没有看到大量带有图像之类的深度伪造。它并没有达到人们担心的程度，我认为这是件好事。现在，关于偏见的问题仍然很突出。对此，我有一个可能听起来有些奇特的答案。在不远的将来，我们每个人获取信息的途径，即我们的全部“信息食粮”以及我们与数字世界的所有互动，都将由AI系统来调节。也就是说，信息必须经过某个AI系统的处理才能到达我们这里——无论是被AI系统生成、过滤、搜索和筛选，还是被AI系统总结。

这些AI系统，或者说AI助手，将存在于我们的智能眼镜、智能手机或任何我们将随身携带的可穿戴设备中。在某个时刻，它们可能会拥有达到人类水平或接近人类水平的智能。然而，每一个AI系统都必然存在偏见。你不可能拥有一个完全没有偏见的系统，就像不可能有一份完全没有偏见的报纸一样。每份报纸都有其特定的偏见。但报纸的妙处在于，我们可以从众多持有不同偏见的报纸中进行选择。因此，我们需要一个市场，或者说一种社会与技术的组织方式，让人们能够接触到多种多样的AI助手，从而可以选择这些AI系统所持有的偏见、使用的语言、代表的价值体系以及迎合的兴趣中心。不是单一的，而是多样化的选择。那么问题就来了。

目前，世界上只有少数几家公司有能力生产那些性能顶尖的AI系统，而且其中大部分是专有系统。有两三个，或者说四个明显的例外：Meta的Llama，显然还有DeepSeek，以及法国的Mistral。此外，还有一些中国公司也在开源领域做出了一些非常值得称赞的贡献。即便如此，商业市场仍然被专有系统主导，基本上只有三家独大。如果我们全部的数字信息获取都由来自美国西海岸的三大系统，或者可能加上中国的几家公司来掌控，这对民主、对文化多样性的维护，对任何事情都没有好处。

我们需要开源平台，因为我们需要一种方法，通过对广泛可用的开源引擎进行微调，来产生多样化的AI助手。这是我认为AI开源平台之所以至关重要的主要原因之一。当然还有其他原因。今天的AI产业若没有像Llama这样的开源项目是无法存在的。许多AI产品实际上都基于开源平台。几乎所有的模型训练都使用了PyTorch——这是Meta开发的另一个开源工具。这可能是其中最重要的一点。

然而，现在的危险在于，一些政府正在考虑将开源AI技术列为非法，以阻止其地缘政治对手获取这些技术。我认为这将是因噎废食的做法。它会导致监管俘获，导致多样性的严重匮乏，并且还会促使世界上大多数国家着手构建和训练自己的基础模型。

AI领域一切都有待发明

主持人提问：对于那些即将进入AI和机器学习研究领域或产业界的年轻科学家，您有什么建议？

杨立昆：好的。首先，你可能会觉得所有东西都已经被发明出来了，你已经没有什么可以贡献的了。这是错误的。一切都有待发明。为什么我们还没有家用机器人？我们拥有像LLMs这样能通过律师资格考试的技术，但我们却没有家用机器人。我们甚至还没有实现L5级别的自动驾驶汽车，尽管我们拥有数百万小时的训练数据。我们没有能够理解物理世界的AI系统。我们没有具备持久记忆的AI系统，它们的推理和规划能力甚至还不如一只猫。你家的猫可比最大的LLMs聪明多了。造成这种情况的原因有很多，我可能不会深入探讨，但事实证明这是莫拉维克悖论的又一个例证。

Moravec是一位机器人专家，他曾提出：为什么计算机相对容易解决那些对人类而言非常复杂的问题，比如计算积分、下国际象棋这类事情，但我们却无法让它们完成诸如抓取物体、识别并抓住物体这样的简单动作？现在我们在一定程度上可以做到后者，但能力仍然非常有限。机器人的能力确实非常受限。目前有大量公司正在涌现，致力于打造人形机器人。这里有一个天大的秘密，一旦说破，整个市场都可能崩溃：那就是，没有人知道如何让这些机器人变得足够聪明以至于真正有用。所以，这些公司下的巨大赌注是：他们希望AI在未来五年内能够取得足够快的进展，以便当他们拥有可行的人形机器人硬件时，AI技术已经足够成熟，可以驱动这些机器人并使其发挥作用。但这并不能保证一定会发生。除非你投身其中去研究它。

所以，这就是未来5到10年AI系统面临的巨大挑战：让AI系统理解物理世界，拥有持久记忆，能够推理和规划。在我看来，这将需要全新的架构，与LLMs完全不同的架构。正如我之前提到的，自监督学习是LLMs成功的核心。在LLMs的语境下，什么是自监督学习？你取一个由词语或Token组成的序列——这些都是离散的对象，然后你训练一个神经网络，让它在输出端重现这个输入序列。这就是所谓的自动编码器。但你在构建这个系统时，要确保它不能通过观察某个输入来预测相应的输出；它只能看到该输入左侧的那些输入。这被称为因果架构。有些人称之为GPT架构，但这个理念的出现要更早。所以，当你以这种方式训练系统时，你基本上是在训练它预测一个序列中的下一个符号。然后，你可以利用它，通过将它自身的输出移位到输入端，来生成第二个符号、第三个符号，以此类推。这就是自回归预测。那么，有一个非常自然的想法，就是你可以用同样的技巧来训练系统理解物理世界。比如，输入一段视频，然后训练系统去预测视频接下来会发生什么。仅仅训练预测下一帧太简单了，你必须训练它进行更长期的预测。然而，这招行不通。在过去近20年的大部分时间里，我一直在尝试这样做，并在过去10年里通过一些加速项目推进这项工作。

我们在Meta的FAIR实验室曾开展过一些大型项目试图实现这一目标，例如一个名为VideoMAE的项目。我们获取视频，对其进行损坏处理，部分遮蔽，然后训练巨大的神经网络来重建缺失的部分——结果是彻底失败。真正有效的是一种不同的、非生成式的方法。也就是说，你不用试图预测视频中发生的所有事情，因为要预测所有像素、所有细节基本上是不可能的。你转而训练一个系统来学习视频的抽象表示，并在表示空间中进行预测。这种架构被称为联合嵌入预测架构(JEPA)。这是我过去几年以及我在Meta的许多同事一直投入精力研究的方向。我们希望这将是使系统理解物理世界、像婴儿和幼崽那样通过观察来学习世界如何运作的一条前进道路。或许还能借此构建世界模型。

也就是说，系统在给定T时刻世界的状态以及你设想采取的行动后，能够预测在你完成该行动后下一个时刻世界的状态。因为如果你拥有了这样的世界心智模型，你就能预想一系列行动的后果，从而进行规划。所以，规划和推理能力可能会从这类架构中涌现出来。这是我所期望的。当然，未来几年可能还会出现其他各种想法，或许就来自在座的各位。这方面还有很多工作要做。所以我的建议是：不要仅仅着眼于LLM。LLMs很酷，有很多应用，很多商业价值，也确实有很多事情应该用它们来完成。但是，有大量顶尖的科学家和工程师团队在众多公司里研究它们。他们拥有数万甚至数十万个GPU，以及巨大的资源。在大学里，你无法与这种规模的投入相竞争。你可以分析这些系统是如何工作的，但这多少有些乏味，你想要的是发明新事物。所以，去研究一些别的东西吧，比如尝试开发超越当前系统能力的下一代AI系统。这是我最重要的建议。

现场问答

现场提问1：您提到AI Agent发展迅速但实际应用尚需时日。如果大语言模型效果不佳，您会推荐哪些其他模型用于AI Agent？这背后的思考逻辑是什么？

杨立昆： 这是一个重要的问题。我知道现场有一些机器人学专家，因为机器人学在宾夕法尼亚大学是一个重要的领域，这要感谢VJ。在经典机器人学中，规划一系列动作的方式是这样的：一个机器人本质上就是一个AI Agent，它需要规划一系列动作以达到目标。这需要进行所谓的运动规划，比如移动机械臂以接触并抓取物体。这就是规划。机器人学中的规划是如何运作的呢？它依赖于一个机器人动力学模型。这个模型能根据机械臂在某一时刻的位置、速度等所有状态，以及施加到关节上的扭矩，预测出整个手臂在下一个时刻的位置和速度。有了这样的模型，你就可以规划轨迹了。这是经典的机器人学。

大家看到的那些波士顿动力机器人做各种酷炫动作的视频，都是使用一种叫做模型预测控制(MPC)的技术进行规划的。那是真正的规划。现在，如果想在机器人学领域取得进展，我们希望这些模型不再是工程师编写的一组方程，而是通过学习得到的，例如一个能够学习系统动力学的大型神经网络。这或许可以基于感官输入、本体感觉、视觉以及其他传感器。问题在于如何实现这一点。但或许你可以构建一个系统，它作为机器人的模型，能从感官输入中提取机器人及外部世界状态的抽象表征，然后在给定一个动作的条件下，预测接下来会发生什么。如果有了这个，就可以进行规划了。现在，如果我们将这个蓝图应用于AI系统可能遇到的所有情境——不仅仅是在现实世界中行动，还包括与图形用户界面交互或与人对话等——我们或许就能拥有一个真正智能的系统，一个能够实际规划的AI Agent。

但是，LLM并不具备实现这一目标的合适特性，因为LLM唯一能做的规划，基本上就是生成大量的Token序列，然后挑选一个看起来不错的。这有点像通过输入随机指令来编写程序，然后期望它能运行。如果尝试足够多次，也许某个实例能够成功。这是一种非常弱的推理形式。尽管该方向已取得诸多进展，但我认为仍需进行一些根本性的变革。

现场提问2：理解物理世界是增强AI模型的关键。在理解神经科学以及人类如何表征物理世界方面，您认为最大的挑战是什么？例如，视觉层级结构和物体识别研究对神经网络模型开发至关重要。您认为理解人类语言抽象表征的必要性有多大？在迭代推理这些表征时，思维在哪个阶段被编码为语言？

杨立昆： 这实际上像是个包含十个不同问题的集合，但我非常喜欢，因为它触及了我正在深入思考并试图解答的许多核心议题。我个人认为，人类大部分的思考过程与语言并无任何关联。我们可以用与语言基本无关的方式操纵情境或现实的心理模型。这一点对动物而言尤其如此。动物没有语言，但它们显然能够思考、推理、计划，并完成一些当今任何AI系统都无法做到的极其复杂的事情。它们并没有将语言作为表征那些想法的方式。作为人类，我们容易被误导，认为语言是思考的重要组成部分——对于某些类型的思考而言，的确如此。但我们所做的大部分事情，当然也包括我们在大约一岁之前所做的所有事情，基本上都与语言关系不大。

让我举个例子：想象一个立方体悬浮在你面前。现在，将这个立方体绕垂直轴旋转90度。大家都能做到吧？即使是那些患有心盲症，即无法形成心理图像的人，也能想象一个立方体并旋转它，并且能立即意识到旋转后的立方体与初始立方体是相同的，因为立方体是对称的。我再问问在场的本科生们，你们都学过微积分。一个非常简单的问题：想象你在一个二维平面，一个二维向量空间中。你们能给出一个在二维平面上由三个线性无关向量组成的例子吗？（听众通常会回答“不能”）大家都答对了，这门课你们学得不错。你们的思考过程是怎样的？对于大多数人来说，可能是先在脑海中构想出这个情景，然后迅速意识到，如果在平面上有三个向量，其中一个必然是线性相关的，可以表示为另外两个向量的线性组合。这是因为你们已经建立了这种直觉。当然，有一个定理指出，在n维空间中，线性无关向量的个数不能超过n个。但这通常是第二步，而不是第一步。第一步是形成心理图像，这显然与语言无关。这是心理图像、直觉，即心理模型。

那么，我们如何让机器做到这一点呢？让它们不用语言思考？或者像猫一样思考？这就是为什么让机器达到猫的智能水平是一个巨大的挑战，因为我们还不知道如何实现。我认为我之前提到的JEPA的概念——即寻找一种世界的抽象表征，其中无关的细节被剔除，从而使你能够进行预测和操纵——是关键。具体想象的是哪个立方体或哪些向量并不重要，重要的是存在某种抽象表征，使你可以在不填充所有细节、也无需将其画出来的情况下进行预测。那么，我们如何实现这一点呢？这正是我试图解答的问题。我对此有一些方案，但它们是否为最终答案，尚不可知。

现场提问3：您提到自己并非计算机科学背景出身。您是如何选择值得解决的问题的？又是如何借鉴其他行业背景（如您的电子工程背景）来处理计算机科学和AI领域的问题的？

杨立昆： 我用30秒钟给你们讲讲我的人生故事。如果你对科学感兴趣，科学领域有三个核心问题：宇宙是由什么构成的？生命的本质是什么？大脑是如何工作的？这些是重大的科学问题。当然，还有许多其他科学问题，但它们或多或少都可以归为这三个大问题的子问题。所以，如果你是一名工程师，并且对“大脑是如何工作的？”或更广泛的“什么是智能？”这类问题感兴趣，你可能会思考智能是如何出现的，甚至可能成为一名人类学家。或者，作为一名工程师，你可能会倾向于实际构建一台智能机器，以此证明你已经理解了智能背后的原理。这基本上就是我读本科时的主要动机。我们如何构建智能机器？什么是智能？这是一个重大的科学问题。而我当时是一名工程专业的学生。作为工程师，你能做的最好的事情或许就是尝试创造一个能够再现我们在生物体中观察到的特性的“人造物”，或许可以从生物体中汲取灵感。我读本科时发现，早在20世纪50和60年代就有人思考过这些问题。但到了70年代末、80年代初我读本科的时候，几乎没有人再研究这个领域了。那种认为我们应该从生物学中汲取灵感来构建AI系统的想法已经消失了。但这并没有让我气馁。那么，为什么要思考通过学习来构建智能机器呢？我们是否足够聪明，能够构思并设计出一个与我们同样智能甚至更智能的系统？我当时认为这是不可能的。再看看动物界，每一个拥有神经系统的生物体都具备学习能力，或者至少是适应能力。所以，智能是通过自组织形成的。这个概念深深吸引了我：一个由大量简单元素相互作用组成的复杂系统，能够涌现出像智能这样的特性。我认为这是一个非常迷人的概念，我非常想研究它。

这意味着，我们不可能仅仅通过工程设计来构建智能机器，我们必须让它们自我训练。于是，我开始研究机器学习。当时这个领域还不叫机器学习，也几乎没什么人在做。之后，有了学习算法，或是像同期出现的反向传播算法，接下来就需要思考如何组织这些神经网络，让它们执行有用的任务。当时我们能接触到的唯一数据，就是一些简单的字符图像或手写数字。在那个年代，将图像输入计算机非常困难，没有USB摄像头，甚至连扫描仪都很少见。所以这是一个挑战。但是，如果你有一些这样的数据，就可以想象构建一个或许受到生物学启发的神经网络来识别图像。卷积网络的想法就是这么来的。它开始起作用了，然后像滚雪球一样发展了几年。后来人们的兴趣有所减退，但重点是，我从来都不是只对用神经网络识别字符感兴趣，我真正感兴趣的是构建智能机器，并且现在依然如此。这可能会让你们惊讶，我已经64岁了，但自从80年代末开始研究神经网络以来，我对目前正在研究的这些东西的未来潜力以及潜在应用从未像现在这样兴奋。因此，我认为这是一个非常激动人心的时代，你们来的正是时候。

关于本期对话

访谈发布时间：2025年4月25日

原视频地址：https://youtu.be/UwMpfGtEnWc?si=uTBM8tn115qN-YQC

END