图灵奖得主杨立昆:LLM缺乏对世界的理解力、孩子看到的视觉信息量媲美大模型全网文本训练数据量...

bdf7f239488315ff99868f1cec3cd516.jpeg

来源:图灵人工智能

本文讲座图文讲稿整理自Yann LeCunHudsonforum Youtube频道的讲座,公开发表于2024月10年13日。原始内容参考:https://www.youtube.com/watch?v=4DsCtgtQlZU

杨立昆在Hudsonforum的主题讲座

内容导读

Yann LeCun在本次演讲中主要阐述了以下观点:

  1. 对人类水平AI的需求与现状差距:  我们迫切需要人类水平的AI来增强人类智能,提高生产力与创造力。但当前AI系统(包括LLM)缺乏理解世界、记忆、直觉、常识、推理和规划等人类能力。

  2. 现有AI技术的局限性:  当前AI的成功依赖于自监督学习,特别是通过重建来学习表示。但这种方法主要局限于离散数据(文本等),无法处理连续数据(视频等),也无法实现真正的推理和常识学习。Moravec悖论体现了这一点:对人类来说简单的事,对机器却很难;反之亦然。

  3. 数据量与学习方式的差异:  人类幼儿在短短几年内获取的数据量与大型语言模型相当,但学习方式截然不同。人类的学习依赖于丰富的多模态数据(视觉、听觉等),而不仅仅是文本。

  4. 目标驱动AI架构的提出:  为了克服现有AI的局限,演讲者提出了一种名为“目标驱动AI”的架构。该架构的核心是通过优化算法进行推理,而非简单的逐层前馈计算。这允许系统根据目标和约束条件,规划并执行一系列动作。

  5. 世界模型与层次化规划的重要性:  目标驱动AI架构的关键在于“世界模型”,它模拟了世界的运行方式。层次化规划是实现复杂任务的关键,但目前AI系统在这方面能力不足。

  6. 学习世界模型的挑战与方法:  学习世界模型的关键在于如何从视频或现实世界中学习常识和物理直觉。单纯预测视频像素的方法失败了,演讲者建议采用“联合嵌入预测架构”(JEPA),学习抽象的表示,并在该表示空间中进行预测。

  7. JEPA架构的优势与训练方法: JEPA架构避免了生成模型的局限,更有效地学习世界表示。训练JEPA需要防止模型坍塌,演讲者提出了一些方法,例如信息量最大化和蒸馏式方法。

  8. 开源AI平台的必要性:  为了促进AI的公平发展和文化多样性,AI平台必须开源,这需要像Meta和IBM这样的公司共同努力。

  9. 通往人类水平AI的道路:  通往人类水平AI的道路漫长而充满挑战,并非一蹴而就,而是一个渐进演化的过程。目标驱动AI架构能够确保AI系统在超越人类智能的同时保持可控。

杨立昆简介

杨立昆(Yann LeCun)是一位法国裔美国计算机科学家,被誉为“深度学习三巨头”之一。他以在机器学习,尤其是深度学习领域的研究而闻名,其贡献包括卷积神经网络(CNN)的发明和推广。

LeCun于1960年出生于法国巴黎,并在巴黎第六大学获得计算机科学博士学位。他于1988年加入贝尔实验室,并在那里开始了对CNN的研究。他的早期工作为后来图像识别和计算机视觉领域的突破奠定了基础。

LeCun于2003年加入纽约大学担任教授,并于2013年加入Facebook(现Meta)担任人工智能研究院(FAIR)的创始主任。他领导团队开发了许多重要的人工智能技术,应用于图像识别、自然语言处理、机器翻译等领域。

LeCun是美国国家工程院院士,并获得了许多奖项,包括图灵奖(2018年,与Yoshua Bengio和Geoffrey Hinton共同获得)。他是一位活跃的研究者和演讲者,致力于推动人工智能领域的进步和发展。

讲座图文讲稿

我将讨论人类水平的AI,或者我们如何实现它,以及我们又将如何无法实现它。首先,我们确实需要人类水平的AI,因为在未来,我们大多数人都会戴着智能眼镜或其他类型的设备,我们会与它们交谈,这些系统将拥有助手,也许不仅仅是一个,可能是一整套助手。

6878a4e12aa6e6b052ebd055bcf222ce.jpeg

这将导致我们每个人基本上都会有一支由智能虚拟人员组成的团队为我们工作。所以这就像每个人都会成为老板,只是不是真实人类的老板。我们需要构建这个系统,基本上是为了增强人类的智力,使人们更有创造力、更高效等等。但为此,我们需要能够理解世界、能够记住事物、具有直觉、具有常识、能够像人类一样推理和计划的机器。尽管你可能从一些最热情的人那里听到过,但目前的AI系统没有任何能力做到这些。所以这就是我们需要的东西,能够学习的系统。

607ce5482f3341eb4217693a6c25cdfe.jpeg

基本上是对世界进行建模,拥有关于世界如何运作的心智模型。每只动物都有这样一个模型。你的猫肯定有一个比任何已建成或构思的AI系统都更复杂的模型。拥有持久记忆的系统,而当前的LLM没有。能够规划复杂动作序列的系统,这在今天的LLM中是不可能的。以及可控且安全的系统。所以我将为此提出一种架构,我称之为目标驱动型AI。大约两年前,我写了一篇关于这方面的展望论文,并发布了它。FAIR的许多人基本上都在努力实现该计划。FAIR曾经结合了长期的蓝天研究和更应用性的项目。但Meta在一年前创建了一个名为GenAI的产品部门,专注于AI产品。他们从事应用研发。因此,FAIR现在已被重新导向更长期的下一代AI系统。我们基本上不做LLM。

77b5af25862a09a6de84adcb26187d38.jpeg

因此,包括LLM在内的AI的成功,以及过去五六年中许多其他系统,都依赖于一组我称为自监督学习的技术。使用自监督学习的一种方法是,自监督学习包括训练一个系统,不是为了任何特定任务,而是基本上训练以某种方式良好地表示输入。一种方法是通过损坏后的重构。例如,你取一段文本,通过删除单词或更改一些单词来损坏它,它可以是文本,也可以是DNA序列、蛋白质或任何其他东西,甚至在某种程度上是图像,然后你训练一个巨大的神经网络来重构完整的输入,即未损坏的版本。好吗?这是一个生成模型,因为它试图,它试图重构原始信号。

a28acdd17e5741a7ee0fb20dbeed60b0.jpeg

所以红色方框就像一个成本函数,对吧?它计算输入y和重构y波浪线之间的距离。这就是学习针对系统中的参数最小化的内容。在这个过程中,系统学习输入的内部表示,可用于各种后续任务。当然,它可以用来预测文本中的单词,这就是自回归预测发生的情况。因此,LLM是这种情况的一个特例,其中架构的设计,一个特殊的架构,其中该事物的设计方式是,为了预测一个项目、一个标记或单词,它只能查看位于其左侧的其他标记。如果你想的话,它不能展望未来。

所以如果你训练一个系统来做到这一点,对吧,你向它展示文本,你要求它预测文本中的下一个单词或下一个标记,那么你当然可以使用这个系统来预测下一个单词,然后你将下一个单词移入输入,然后预测第二个单词,并将它移入输入,预测第三个单词,这就是自回归预测。这就是LLM所做的。这不是一个新概念,它可以追溯到克劳德·香农,所以它可以追溯到50年代。那是很久以前的事了。但改变的是,现在我们拥有这些巨大的神经网络架构,可以在海量数据上进行训练,并且看起来某些特性从中浮现出来。

好的,但是这种自回归预测有一些主要的局限性。所以在通常意义上,这里没有真正的推理。还有一个局限性,那就是这只能用于以离散对象、符号、标记、单词等形式向你提供数据的形式,这些东西本质上是可以离散化的。

而我们仍然缺少一些重要的东西才能达到人类水平的智能。我在这里不一定指的是人类水平的智能,但即使是你的猫或你的狗也能做到一些令人惊叹的壮举,而这些壮举仍然完全超出了当前AI系统的范围。任何一个10岁的孩子是如何学会收拾餐桌和装满洗碗机的呢?10岁的孩子可以一次学会这个,对吧?不需要练习或任何东西。一个17岁的孩子大约需要20个小时的练习就能学会开车。我们仍然没有5级自动驾驶汽车。

781d2a5b95d8f50eb92ead91ef6afdf9.jpeg

我们当然也没有能够收拾餐桌和装满洗碗机的家用机器人。所以我们真的缺少一些重要的东西,对吧?否则我们就能用AI系统做到这些事情。所以我们不断地遇到这个叫做莫拉维克悖论的东西,那就是对我们来说看起来微不足道的事情,我们甚至不认为它很聪明,似乎对机器来说非常非常难以做到。但是像高层次的、复杂的、抽象的思考,比如操纵语言,对机器来说似乎很容易。或者像下象棋、围棋之类的事情。

209fa26564e12b97a5e348db1f9de602.jpeg

好吧,也许原因如下。一个LLM通常在20万亿个标记上进行训练。一个标记基本上,平均来说就像一个词的四分之三。所以这是13个单词的1.5倍。每个标记通常约为三个字节。所以这是13个字节的6倍。我们任何人读完这篇文章都需要大约几万年,对吧?这基本上是互联网上所有公开可用的文本的总和。

59383ca15c720fc35c78b063528a522d.jpeg

但是,让我们考虑一下人类儿童。一个四岁的孩子,已经清醒了一共16000小时,顺便说一句,这相当于30分钟的YouTube上传量。我们有200万条视神经纤维,也就是到达我们大脑的视神经纤维。每条纤维大约每秒传输大约一个字节。也许是每秒半个字节。一些估计认为是每秒三个比特。这并不重要,这是一个数量级的问题。

因此,这个数据量大约是10的14次方字节,与大型语言模型的数量级大致相同。所以,四年内,一个孩子看到的视觉数据或数据量与在整个公开可用的互联网文本上训练的最大型语言模型一样多。这告诉我们很多事情。首先,这告诉我们,仅仅通过文本训练,我们永远不可能达到接近人类水平的智能。这是不可能发生的。

然后,反驳意见是,好吧,但是视觉信息非常冗余。首先,每条视神经纤维每秒一个字节,这与视网膜中的光传感器相比,已经是100:1的压缩比了。我们的视网膜大约有6000万到1亿个光传感器,这些传感器通过视网膜前的神经元压缩到100万条神经纤维。所以已经有100:1的压缩比了。然后它到达大脑,然后被扩展了50倍或类似的倍数。

6c13fd8c3017c420d2e6fd77c53a93ca.jpeg

所以我测量的是压缩后的信息,但它仍然非常冗余。而冗余实际上是自监督学习所需要的。自监督学习只能从冗余数据中学习到有用的东西。如果数据高度压缩,这意味着它完全是随机的,你就什么都学不到。你需要冗余才能学习任何东西。你需要学习数据的底层结构。因此,我们将不得不训练系统通过观看视频或在现实世界中生活来学习常识和物理直觉。

所以,我可能会稍微偏离一下顺序,然后告诉你一点关于这个目标驱动的AI架构到底是什么。它与大型语言模型或前馈神经网络等截然不同,因为推理过程不仅仅是通过神经网络的几层运行,而实际上是在运行一个优化算法。从概念上讲,它看起来像这样。前馈过程是一个你看到一个观察结果,通过一个系统(例如感知系统)、神经网络的几层,并产生一个输出的过程。对于任何单个输入,你只能有一个输出。

cd71a5fe2c6610163ff7fdb0466a8d32.jpeg

有很多情况,对于一个感知,有多种可能的输出解释。你想要一个不仅计算函数,而且计算可能对单个输入有多个输出的映射的过程。你唯一能做到这一点的方法是通过隐式函数。基本上是这样的目标函数(右边红色框),它测量输入和建议输出之间的兼容性,然后通过找到与输入最兼容的输出值来计算输出。

你可以想象这个目标函数是一种能量函数,你正在最小化关于输出的能量。你可能有不止一个解决方案。你可能有一些方法来遍历这些多个解决方案。人类的感知系统就是这样做的。如果你对某个感知有多种解释,你的大脑会自发地循环这些解释。有一些证据表明,这类事情可能会发生。但是让我回到架构。所以,使用这个通过优化的推理原则,人们思考方式的假设如下:你在世界上进行观察。感知系统让你了解世界的状态,当前世界的状态。但是,当然,它只让你了解你目前能够感知到的世界状态。你可能有一些想法。你可能对根据记忆,世界其他状态是什么有一些想法。这可能与记忆的内容相结合。然后将其馈送到世界模型。什么是世界模型?世界模型是你对世界如何运作的心理模型。

cdaf2d3a61d7186052b89ae366d2387f.jpeg

你可以想象一系列你可能采取的动作,你的世界模型将允许你预测这些动作序列对世界的影响。所以,绿色框,世界模型,你向它输入一个假设的动作序列,它会预测世界的最终状态将会是什么,或者它会预测世界中将会发生的事情的整个轨迹。你将此馈送到一系列目标函数。一个目标函数衡量在多大程度上实现了目标,完成了任务,还有一些其他目标可能是保护措施,这些目标基本上衡量所遵循的轨迹或所采取的动作在多大程度上不会对机器人或机器周围的人造成危险等等。所以现在推理过程(我还没有谈到学习,只是推理)包括找到最小化这些目标函数的动作序列。

560ded67c6e39528bf9f14a40b8a5cf9.jpeg

找到最小化这些目标函数的动作序列,好吗?这就是推理过程。它不仅仅是前馈。你可以通过搜索离散选项来做到这一点,但这效率低下。一个更好的方法是确保所有这些框都是可微的,并且你向它们反向传播梯度,并且你使用梯度下降来更新动作序列。现在这个想法已经很久远了,已经有60多年了,甚至可能更久。它基于,好的,所以首先让我谈谈使用世界模型进行这种推理的优势。优势在于,你基本上可以完成新任务而无需任何学习。我们一直都在这样做。我们面临着新的情况。我们考虑一下,我们想象一下我们行动的后果,然后我们采取一系列行动来完成任务。所以在世界上,或者目标,无论是什么,我们不需要学习来完成这项任务。我们可以计划。所以这基本上是计划。你也可以将大多数推理形式简化为优化。因此,这种通过优化的推理过程本质上比仅仅通过神经网络的几层运行更强大。

现在这个你通过优化进行推理的想法,正如我所说,已经有60多年了。在最优控制理论领域,它被称为模型预测控制。你有一个你试图控制的系统的模型,比如火箭或其他东西,或者飞机,或者机器人,你可以,或者机器人,你可以想象,你可以使用你的世界模型计算控制序列、命令的影响,然后你优化序列,以便运动达到你想要的效果。所有经典的机器人技术、运动规划都是这样做的。不是什么新鲜事物。这里的新鲜之处在于,我们将学习世界模型,我们将学习感知系统将提取对世界情况的适当抽象表示。现在,在我进入如何运行这个的示例之前,你可以构建一个具有所有这些组件的整体AI系统,包括世界模型、可以针对手头任务配置的成本函数、参与者(即真正优化、找到给定世界模型的最佳动作序列的模块)、短期记忆、感知系统等等。

7729b4e1682c3517faea9ac19ef63726.jpeg

它是如何工作的呢?所以,如果你的动作不是单个动作,而是一系列动作,而你的世界模型实际上是一个系统,它告诉你给定t时刻的世界状态和它可能采取的动作,预测t+1时刻的世界状态,并且你想预测在这种情况下两个动作序列会产生什么。你可以多次运行你的世界模型,对吧?所以这里它表示为在时间上展开,获取初始世界状态表示,为动作0提供假设,使用世界模型预测下一个世界状态,然后是动作1,下一个世界状态,计算成本,然后通过反向传播和基于梯度的优化方法,找出将最小化成本的两个动作。好的,这就是模型预测控制。现在世界通常不是完全确定性的,你可能需要使用潜在变量来馈送到你的世界模型。所以潜在变量基本上是可以遍历一个集合或从分布中抽取的变量,它们表示,它们基本上导致世界模型遍历与观察结果兼容的多个预测。世界并非完全可预测,因此在进行预测时,你可能需要处理这种类型的不确定性。更有趣的是去做人类似乎能够做到的事情,当然还有许多动物,那就是分层规划。

48583f08486156ad324c160e3a32d939.jpeg

如果你要计划从例如纽约到巴黎的旅行,你可以利用你的世界模型——你对自身身体的模型,以及你对从这里到巴黎的整个世界结构的认知——来规划你的整个行程,精确到低级的肌肉控制。但当然,没有人会这么做。你做不到。你甚至没有足够的信息来做到这一点。而且这简直太疯狂了,对吧?在你前往巴黎之前,你每10毫秒都要进行多少步肌肉控制操作。这简直令人难以置信。

所以你会分层规划。你从非常高的层面开始,你会说,要到巴黎,我首先需要去机场乘坐飞机。我怎么去机场?假设我身处纽约市。我必须下楼叫一辆出租车。我怎么下楼?好吧,我必须站起来离开椅子,走到门口,打开门,走到电梯,按下按钮,等等等等。我怎么从椅子上站起来?你知道,在某些时候,你会有一些可以用低级肌肉控制动作来表达的事情。但我们不会用低级层面来规划整件事情。我们进行的是分层规划。如何在 AI 系统中做到这一点完全没有解决。我们不知道该怎么做。

7ee1e56d3922846f71e1aa677a2cb398.jpeg

这似乎是对智能行为的一个相当大的要求。所以,你知道,我们该如何学习分层的世界模型,在几个不同的抽象层次上工作,并且,你知道,允许我们进行这种分层规划?没有人展示过任何接近这个的东西。这是一个很大的,你知道的,一个很大的挑战。是的,这只是我刚才说的例子的图示。好的,那么我们现在该如何训练这个世界模型呢?因为这才是真正的挑战。你会观察婴儿,但这对动物也适用。

e30da17ee77f4622134fce697c2e68c4.jpeg

心理学家、科学家们试图弄清楚婴儿在多大年龄学习关于世界的基本概念,比如他们是如何学习直觉物理学、物理直觉,所有这些东西的。这发生在他们开始学习语言和互动之类的事情很久之前。因此,诸如面部追踪之类的行为发生得非常早,生物运动也是如此,活物和非活物之间存在差异,这也发生得很早。客体永久性也发生得很早。事实上,当一个物体被另一个物体遮挡时,它仍然存在。然后婴儿学习自然的类别。你不需要给他们命名。他们会知道椅子、桌子和猫是不同的。

6786e920e4976559136637175c0c08cb.jpeg

稳定性和支撑,但像重力、惯性、动量守恒这样的东西,实际上大约在九个月大的时候才会出现。这需要很长时间。因此,如果你向六个月大的婴儿展示左边这种情况,一辆小汽车在一个平台上,你把它从平台上推下去,它似乎漂浮在空中,六个月大的婴儿几乎不会注意,而十个月大的婴儿会像那个小女孩一样。她明白了,这不应该发生,物体应该掉下来,当发生令人惊讶的事情时,这意味着你的模型是错误的,所以你会注意。

因为它可能会杀死你。所以这里需要发生的学习类型与我们之前讨论的学习类型非常相似。好的,接收一个输入,以某种方式对其进行损坏,然后训练一个大型神经网络来预测缺失的部分。如果你训练一个系统来预测视频中将会发生什么,就像我们训练神经网络来预测文本中将会发生什么一样,也许这些系统能够学习常识。

466024d09728580dd3065b98e4a0cab3.jpeg

这方面的坏消息是,我们已经尝试了十年,但这完全失败了。好的?我们从未能够获得任何接近真正学习任何种类的、你知道的、关于世界的通用知识的系统,仅仅是试图预测视频中的像素。你可以训练一个系统来预测看起来不错的视频,现在有很多例子,你知道,视频生成系统。但在内部,它们并不是物理世界的良好模型。它们不能用于此。

好的,所以这个想法是我们将使用生成模型来预测视频中将会发生什么,并且系统将神奇地理解世界的结构,完全失败。我们尝试了十多年许多方法。它失败的原因是因为存在许多可能的未来,并且在像文本这样的离散空间中,你无法预测哪个词将跟随一系列词,但是你可以生成字典中所有可能词的概率分布。

21bd0aac69e7a2d09e9aea42507f522b.jpeg

但是当它是视频、视频帧时,我们没有一个好的方法来表示视频帧上的概率分布。事实上,我的意思是这项任务完全不可能。例如,如果我拍摄这个房间的视频,对吧,我拿起一个相机,拍摄那一部分,然后停止视频,然后我要求系统预测视频中的下一个内容。它可能会预测房间的其余部分,在某些时候会有墙壁,会有坐在那里的人,密度可能与左侧的相似,但它不可能在像素级别预测你们所有人的样子,墙壁的纹理是什么样的,以及房间的精确尺寸和所有这些东西。你无法准确预测所有这些细节。

13766c61dc28294ff576a8eee68b1782.jpeg

所以解决方法就是我所说的联合嵌入预测架构。其想法是放弃预测像素。与其预测像素,不如学习一个表示,一个关于世界中发生的事情的抽象表示,然后在该表示空间中进行预测。好的?这就是架构,联合嵌入预测架构。这两个嵌入,采用 X,损坏的版本,通过编码器运行。采用 Y,通过编码器运行。然后训练系统根据 X 的表示来预测 Y 的表示。

8c82fdbd9c93120b45840d2784a0ad1a.jpeg

现在的问题是如何做到这一点,因为如果你只是使用梯度下降反向传播训练这样的系统来最小化预测误差,它将会崩溃,它会说,它会学习一个恒定的表示,现在预测变得非常容易,但它没有信息量。但这是我希望你记住的区别,试图重建的生成架构、预测器、自动编码器、生成架构、掩码自动编码器等等之间的区别,以及你在表示空间中进行预测的联合嵌入架构。

我认为未来在于这些联合嵌入架构。我们有大量的经验证据表明,学习图像的良好表示的最佳方法是使用这些联合嵌入架构。所有尝试使用重建来学习图像表示的方法都很糟糕。它们效果不好。并且有大量的项目致力于此,并声称它们有效。但它们真的没有。最佳性能是通过右侧的架构获得的。现在,如果你仔细想想,

这实际上是我们用智力所做的事情,找到某种事物或现象的良好表示以便你可以进行预测,这实际上是科学的本质,对吧?例如,如果你想预测行星的轨迹,行星是一个非常非常复杂的物体,它非常巨大。它有天气、温度、密度以及你可以测量到的关于行星的所有种类的其他东西。可能是一个极其复杂的物体。但是要预测行星的轨迹,你只需要知道六个数,三个位置和三个速度。就是这样,你不需要知道其他任何东西。

所以这是一个非常重要的例子,它真正证明了预测能力的本质实际上是为我们观察到的事物找到良好的表示。那么我们如何训练这些东西呢?所以这是一个,好的,我们如何训练这些东西?所以你想阻止系统崩溃。所以一种方法是拥有一些能够衡量表示的信息内容(如果可以的话)的成本函数,并尝试最大化信息内容或最小化负信息,这就是这里写的内容。因此,你正在训练一个系统,同时尽可能多地从输入中提取信息,但同时最小化该表示空间中的预测误差。因此,该系统将在尽可能多地提取信息与不提取不可预测的信息之间找到某种平衡。

0c61220c90c3fd7d8e689de4297e0907.jpeg

好的,你将得到一个很好的表示空间,你可以在其中进行预测。那么,你如何衡量信息呢?这正是事情变得有点奇怪的地方。好的,我跳过这个。嗯,有一种方法可以用数学方法来理解这一点,即训练基于能量的模型和能量函数,但我没有,我没有时间深入讨论这个问题,但基本上我在这里告诉你一些不同的事情。放弃了生成模型,转而采用JEPA架构;放弃了概率模型,转而采用基于能量的模型;放弃了对比方法(我没有讨论这个,因为我稍后会讲到),以及强化学习(我已经说了十年了)。所以这些都是当今机器学习最流行的四大支柱,所以我现在不太受欢迎。

614b038895dcc938d3514b5b2b2fe064.jpeg

好的,所以一种方法是对编码器输出的信息量或信息内容进行某种估计。目前,有很多方法可以做到这一点,大概有六种。这里实际上缺少一种方法,叫做MMCR,来自我在纽约大学和Flatiron的同事开发的方法。那么……所以这里的一个想法是防止系统崩溃并产生常数,对吧?所以取编码器输出的变量,并确保这些变量具有非零标准差。你可以在一批样本上将此放入成本函数中,确保权重使得变量不会崩溃并变成常数。

这很容易。现在问题是系统可以作弊,使所有变量相等或高度依赖或相关。因此,你必须添加另一项,说明我希望最小化这些变量的协方差矩阵的非对角线项,以确保它们不相关。当然,这还不够,因为变量仍然可能依赖,你知道,依赖但又不相关。因此,我们使用了另一个技巧,即将Sx的维度扩展到更高维的空间Vx,然后在这个空间中应用方差-协方差正则化。这似乎已经足够了。但我耍了个花招,或者说骗了你们一些人,因为我在这里……最大化的是信息内容的上界。

35ea80ad3f4a965088a554319fef497f.jpeg

我祈祷实际的信息内容会随着我对上界最大化的提升而提升。我需要的是一个下界,这样它就会向上推高下界,信息量也会增加。不幸的是,我们没有信息的下界。或者至少我们不知道如何计算它,即使我们有的话。还有一套方法,称为蒸馏式方法。这种方法以神秘的方式运作。如果你真的想清楚地解释它为什么有效,你应该问一下苏里亚·甘古利(Surya Ganguly),他就在这里。他本人在这方面有一篇论文,我得到了启发。

但它确实非常有效,它只更新该架构的一半,而不反向传播另一半的梯度,然后以一种奇特的方式共享权重。这是一个非常有趣的方法。有很多关于这方面的论文。如果你想训练一个完全自监督的系统来学习图像的良好表示,它非常有效。这和任何方法一样好。图像的损坏是通过掩蔽进行的。我们有一些较新的工作,我们对视频也做了这个。因此,我们可以训练一个系统来提取视频的良好表示,我们可以将其用于视频中的动作识别等下游任务。它包括获取一段视频,掩盖其中很大一部分,然后通过这个系统运行,然后我们可以用它来创建一段视频。所以这是第一步。然后第二步是创建一段视频。然后第三步是创建一段视频。所以这是第一步。然后第四步是创建一段视频。然后第五步是创建一段视频。

65b8aaa945edb942133866d47afa7569.jpegfa95da884378053861e41adeed54e1cb.jpeg

这非常有效。好的,未来,如果我们在这个项目中取得成功,最终获得能够推理、规划、理解物理世界的系统,那么在我们让这里的一切都能工作之前,还需要数年时间,如果不是几十年的话。扎克伯格一直问我需要多长时间。所以如果我们成功地做到这一点,好的,我们将拥有能够真正调解我们与数字世界所有互动的系统。它们将回答我们所有的问题,它们将经常与我们在一起。

它们基本上构成了所有人类知识的宝库。这感觉像是一种基础设施,就像互联网一样,对吧?它不像一个产品,更像是一种基础设施。这些AI平台必须是开源的。我不需要说服这里的任何IBM的人,因为IBM和Meta是名为AI联盟的组织的一部分,该组织推广开源AI平台。但我真的要感谢达里奥(Dario)为此做出的努力以及IBM的每一个人。所以我们需要这些平台是开源的,因为我们需要这些AI系统是多元化的。我们需要它们理解世界上所有语言、所有文化、所有价值观。你不可能从美国西海岸或东海岸的一家公司生产的单一助手那里得到这些。

6e6557f471f8591505e97b1aa9df343d.jpeg

你知道,这将不得不依赖来自全世界的贡献。当然,训练基础模型非常昂贵,所以只有少数公司可以做到这一点。因此,如果像Meta这样的公司能够以开源的方式提供这些基础模型,那么全世界都可以根据自己的目的对其进行微调。这正是Meta和IBM所采用的理念。所以,开源AI不仅仅是一个好主意,对于文化多样性,甚至可能是民主的保存,都是必要的。

4992475d9935ba8cf0a528528ca9b944.jpeg

因此,训练和微调将由初创公司和其他公司的生态系统众包或完成。真正推动AI初创公司生态系统发展的是这些开源AI模型的可用性。达到人类水平的AI需要多长时间?我不知道。可能需要数年到数十年。差异巨大。并且沿途还有许多问题需要解决。这几乎肯定比我们想象的要难。

d450dc730140e878be58fe7783052444.jpeg

这不会在一夜之间发生。这将像渐进式进化一样。所以这不像有一天我们会发现AI的秘密,然后我们会启动一台机器,然后我们就会立即拥有超级智能,我们所有人都会被超级智能系统杀死。不,不会这样发生的。机器将超越人类智能,但它们将在我们的控制之下,因为它们将是目标驱动的。我们赋予它们目标,它们实现这些目标。这就像我们许多人都是行业或学术界的领导者,或者其他什么。我们与比我们更聪明的人一起工作。我当然是这样。

fd9a1ac0ec5e7a06fbd7010252620e8c.jpeg

有很多与我一起工作的人比我聪明。但这并不意味着他们想统治或接管。这就是故事。存在风险,但我将把这个问题留到问答环节。非常感谢。

参考资料: https://www.youtube.com/watch?v=4DsCtgtQlZU,公开发表于2024-10-13

ffabd2b60c3d19ea034b4670414c9173.jpeg

未来知识库是“欧米伽未来研究所”建立的在线知识库平台,收藏的资料范围包括人工智能、脑科学、互联网、超级智能,数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。欢迎扫描二维码或点击本文左下角“阅读原文”进入。

c94d93cfdd1491c1ad000d768483333e.png
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值