杨立昆教授关于通用人工智能世界模型JEPA观点及争议

-本篇附录杨立昆教授世界模型JEPA论文摘要简介和争议背景,全文将在下一篇播出,论文全文约有4.6万字。‍‍‍‍‍‍

963131db47b6e302b778281145a2cee5.png

目录

1世界模型JEPA观点及争议背景

2编译作者观点‍

3 FT采访立昆和关于META分析摘要

4 杨立昆教授世界模型架构论文摘要

5 序‍ 

6 引 言

7 自主智能模型架构

8 设计与训练世界模型

9 设计与训练演员

10 设计配置器

11 相关工作

12 致谢

13 参考文献

14 世界模型架构图示中使用符号

15 附录:隐变量的折算推理

8ac3803374fbf4d76468e34518be9174.png

1  Meta首席科学家杨立昆关于世界模型观点及争议背景

Meta创始人扎克伯格的战略远景执念:Meta是人工智能的世界领导者,这需要与谷歌、OpenAI、微软等主演对手展开竞争。Meta的人工智能团队组织上两大部分构成,一部分是Cox考克斯领导的面向当下近期的生成式人工智能产品,这个团队研发产品是我们看到的开源Llama2,及Llama3各个尺寸;另一大团队就是杨立昆教授领导的FAIR,人工智能未来研究团队,世界模型JEPA是FAIR正在重点要验证的(包括前期EGO数据集),既然是面向未来,那么研究成果不确定性很大,也许需要十年甚至更长时间才能实现AGI.杨立昆是小扎的主要战略顾问,小扎不顾投资人的反对,重金投入FAIR500人团队及囤积数百万张H100卡,就是为了AGI的梦想。直白一点杨立昆教授也是替老板小扎分担一点资本市场压力同时重申FAIR大团队存在的长远战略价值和AGI改变世界梦想。杨立昆教授是当下生成式人工智能永远也到达不了AGI的批判者,不过他也承认GenAI的当下成绩和价值,此外也有学者对杨立昆教授的世界模型提出批评和和怀疑。

最近Meta AI首席科学家杨立昆教授在英国金融时报FT采访表示,大型语言模型无法达到人类智能 。其实这是杨立昆一直以来的观点。生成式大语言模型(LLMs)在文章、摘要归纳、诗词、界面原型、图片生成以及在教育、游戏及传媒动漫、代码开发行业应用,消费级人际交流如伴侣得心应手,这些最大发挥生成式大模型的强项。依赖Transformer神经网络向量库大概率预测生成下一个单词及句子内容。但是在视觉和机器人物理真实世界预测是另外一部分。

2  作者看法

研读杨立昆教授观点和真实想法其实对当下生成式LLMs并不是完全否定,而是批判式思维的肯定与吸收式否定正如吴恩达教授所言,我们需要了解生成式大模型LLMs能做什么,不擅长做什么和不能做什么需要有了解。由此翻译了2022年杨立昆教授这篇论文,对比杨立昆教授在哈佛大学数学系的演讲稿,主体基本是来自这篇论文的再叙述。LLMs是大模型人工智能的当下第一阶段,距离通用人工智能AGI还有很长一段距离和好几个阶段,也许十年,也许更长时间。杨立昆教授提出了世界模型的新架构JEPA(以及H-JEPA),目前也在前期高阶研究和数据集准备阶段,目前还没有针对物理世界真实视频进行训练及模型验证,能否实现还待研究。还需要大量真实视频数据和无比大的GPU算力(想象小扎为什么还在囤积大量GPU卡).此外李飞飞教授创业投身空间智能也是印证了人工智能在语言模型的基础上(语音,文本、图片)要迈向真实和深度视觉(数据有三维时间空间的维度属性)。

人工智能教父杨立昆说《金融时报》刊登了一篇好文章,解释说自动回归 LLM 不足以达到人类水平的智力(甚至是猫水平的智力)。但是,我称之为“目标驱动”的替代架构JEPA有朝一日可能会达到人类水平的智能。他们使用基于 JEPA(联合嵌入预测架构,非生成式)的世界模型。有了这个,我们可能拥有以下系统: 

1.了解物理世界 ;

2.具有持久内存 ;

3.可以推理;

4.可以计划,也许是分层的。

人类和许多动物表现出的智能行为所必需以上四个基本特征。

273f0a19fdb7e7a0012e5e2ad5425d0a.jpeg

3  FT采访杨立昆教授及关于Meta分析摘要

杨立昆教授解释说自动回归LLM 不足以达到人类水平的智力(甚至是猫水平的智力)。但是,我称之为“目标驱动”的替代架构有朝一日可能会达到人类水平的智能。他们使用基于 JEPA(联合嵌入预测架构,非生成式)的世界模型。有了这个,我们可能拥有以下系统: 1.了解物理世界 2.具有持久内存 3.可以推理 4.可以计划,也许是分层的。人类和许多动物表现出的智能行为所必需的四个基本特征。

杨立昆认为当前的AI 方法存在缺陷,因为他推动了超级智能的“世界建模”愿景 Yann 立昆 表示,大型语言模型只有在获得正确的训练数据后才能准确回答提示。Meta AI 首席科学家表示,大型语言模型将无法在 x 上达到人类智能 Meta AI 负责人表示, Meta AI 负责人表示,大型语言模型将无法达到人类智能,为 ChatGPT 等生成式 AI 产品提供动力的大型语言模型永远不会实现像人类一样推理和规划的能力,因为他专注于一种激进的替代方法,在机器中创造“超级智能”。杨立昆表示,LLMs“对逻辑的理解非常有限......不了解物理世界,没有持久的记忆力,不能对术语进行任何合理的定义,也无法计划......分层“。在接受英国《金融时报》采访时,他反对依靠先进的LLM来寻求人类水平的智能,因为这些模型只有在被提供正确的训练数据的情况下才能准确地回答提示,因此“本质上是不安全的”. 相反,他正在努力开发全新的人工智能系统,他希望该系统能够为具有人类水平智能的机器提供动力,尽管他说这一愿景可能需要10年才能实现。随着生成式人工智能的爆炸式发展,Meta 一直在投入数十亿美元来开发自己的 LLM,旨在赶上竞争对手的科技集团,包括Microsoft支持的 OpenAI 和 Alphabet 的谷歌。杨立昆教授 在Meta 的基础 AI 研究 (Fair) 实验室管理着一支约 500 人的团队。他们正在努力创造人工智能,这种人工智能可以发展常识,并以一种被称为“世界建模”的方式学习世界如何运作。这位 Meta AI 首席执行官的实验性愿景对于社交媒体集团来说是一场潜在风险和代价高昂的赌博,因为投资者渴望看到 AI 投资的快速回报。上个月,Meta 的市值损失了近2000 亿美元,当时首席执行官马克·扎克伯格 (Mark Zuckerberg) 发誓要增加支出并将这家社交媒体集团变成“世界领先的人工智能公司”,这让华尔街投资者担心成本上升而眼前的收入潜力很小。“我们正处于我们认为我们可能处于下一代人工智能系统的风口浪尖,”立昆说。他发表评论之际,Meta 及其竞争对手正在推进更多增强的 LLM。 OpenAI 首席执行官 Sam Altman 等人物认为,它们为创建通用人工智能 (AGI) 迈出了至关重要的一步——机器的认知能力比人类更强。OpenAI 上周发布了新的更快的 GPT-4o 模型,谷歌推出了一款新的“多模态”AI 智能体,可以回答视频、音频和文本的实时查询,名为 Project Astra,由其 Gemini 模型的升级版本提供支持。Meta 上个月还推出了新的 Llama 3 型号。该公司的全球事务主管尼克·克莱格爵士(Sir Nick Clegg)表示,其最新的LLM已经“大大提高了推理等能力”,即将逻辑应用于查询的能力。例如 该系统可以推测患有头痛、喉咙痛和流鼻涕的人感冒了,但也可以识别出过敏可能是导致这些症状的原因。然而,立昆表示,LLM的这种演变是肤浅和有限的,只有当人类工程师干预以训练这些信息时,模型才会学习,而不是像人类一样有机地得出结论。“在大多数人看来,这当然是推理 - 但主要是它利用了从大量训练数据中积累的知识,”立昆补充说:“[LLM]尽管存在局限性,但非常有用。Google DeepMind还花了数年时间寻找构建AGI的替代方法,包括强化学习等方法,其中AI代理在类似游戏的虚拟环境中从周围环境中学习。周二在伦敦的一次活动中,DeepMind的负责人哈索比斯爵士表示,语言模型缺少的是“他们不理解你所处的空间环境。因此,这最终限制了它们的用处“。

Meta于 2013 年成立了 Fair 实验室,以开拓 AI 研究,聘请该领域的领先学者。然而,在 2023 年初,Meta 创建了一个新的 GenAI 团队, 由首席产品官克里斯·考克斯(Chris Cox考克斯)领导。它从Fair挖走了许多AI研究人员和工程师,并领导了Llama 3的工作,并将其集成到产品中,例如新的AI助手和图像生成工具。GenAI 团队的成立是因为一些内部人士认为,Fair 实验室内的学术文化部分归咎于 Meta 迟迟没有进入生成式 AI 热潮。扎克伯格在投资者的压力下推动了人工智能的更多商业应用。然而,据接近公司的人士透露,杨立昆仍然是扎克伯格的核心顾问之一,因为他作为人工智能创始人之一的记录和声誉,因其在神经网络方面的工作而获得了图灵奖。杨立昆说:“我们已经将Fair的重点重新放在人类水平AI的长期目标上,主要是因为GenAI现在专注于我们有明确路径的东西。“[实现AGI]不是一个产品设计问题,甚至不是一个技术开发问题,而是一个科学问题,”他补充道。杨立昆于 2022 年首次发表了一篇关于他的世界建模愿景的论文,此后 Meta 发布了两个基于该方法的研究模型。生成式人工智能之所以存在,是因为Transformer的今天,他说 Fair 正在测试不同的想法以实现人类水平的智能,因为“这其中有很多不确定性和探索,[所以]我们无法判断哪一个会成功或最终被选中”。其中,杨立昆的团队正在为系统提供数小时的视频,并故意省略帧,然后让AI预测接下来会发生什么。这是为了模仿孩子们如何从被动观察周围的世界中学习. 他还表示,Fair正在探索构建“一个通用的文本编码系统”,该系统将允许系统处理文本中知识的抽象表示,然后可以应用于视频和音频。

一些专家对杨立昆的愿景是否可行表示怀疑。杜兰大学计算机科学副教授阿伦·库洛塔(Aron Culotta)表示,常识长期以来一直是“人工智能的眼中钉”,教授模型因果关系具有挑战性,使它们“容易受到这些意外故障的影响”。一位前 Meta AI 员工将世界建模的推动描述为“模糊的绒毛”,并补充说:“这感觉就像插了很多旗子。另一位员工表示,Fair尚未证明自己是DeepMind等研究机构的真正竞争对手。从长远来看,杨立昆认为,该技术将为用户可以通过可穿戴技术进行交互的AI智能体提供动力,包括增强现实或“智能”眼镜,以及肌电图(EMG)“手镯”。“(人工智能智能体)要想真正有用,他们需要具备类似于人类水平的智能,”

4  杨立昆教授世界模型JEPA架构论文摘要

4.1   一种自动机器智能路径Ver0.9.2论文

杨立昆(Yann 立昆) 教授 Courant数学科学学院,纽约大学 Meta-基础人工智能研究所

编译者摘要:杨立昆教授提出的通用人工智AGI的世界模型架构完全不同于现在的基于Transformer的大语言模型的生成式GenAI,AGI世界模型需要复杂的数学知识,神经科学、认知科学和哲学,机器学习、机器人工程。世界模型采用联合嵌入预测架构(Joint Embedding PredictiveArchitecture,简称JEPA)。JEPA并非生成式模型,它并不能简单地用于从x预测y。 它仅捕捉x和y之间的依赖关系,而无需显式生成y的预测。JEPA能够感知、规划、推理,短期记忆及执行。本报告主要原创贡献在于

·具有所有模块可微分且许多模块可训练的整体认知架构。

·H-JEPA: 一个非生成式分层架构,用于预测性世界模型,能够在多个抽象层次和时间尺度上学习表示。

·一种非对比性自我监督学习范式,它生成同时具有信息性和可预测性的表示。

· 将H-JEPA 作为层次规划中不确定性下的预测世界模型的基础。

感叹杨立昆教授的对物理世界的哲学及深奥抽象能力到数学之知识转化输出、神经网络机器学习知识渊博,惊叹其否定之肯定之批评能力和兼收并蓄的吸收能力。

杨立昆教授的世界哲学观:

现实世界并非完全可预测。未来世界状态的不确定性可能由多种原因造成:世界本质上是随机的。即使使用高度抽象的表示,现实环境也不可能完全预测。

·世界是可决定性的但又混沌的,因此如果没有无限精确的感知,很难预测(类型2的 aleatoric 确定性)。

·世界是可决定性的,但部分可观测(属于第三类 aleatoric 不确定性)。

·世界是完全可观测的,但传感器只提供了关于世界状态的部分信息(知识不确定性,类型1)。

· 视觉模块提取的世界状态表示并不包含精确预测所需的全部信息(元知识不确定性,类型2)

·由于其表现力的局限(有限理性或认识不确定性,类型3),世界模型存在不准确之处。

杨立昆教授提出的世界模型JEPA架构目前还只是高阶的,很多问题都是未知的,例如第一个问题是,是否可以从视频中构建和训练一个层次化的JEPA? 当前方案并未详述各模块的具体架构细节。短期记忆的确切结构和功能,以及它如何用来表示对世界状态的信念,仍然有些模糊。当前提案中最难以理解的方面之一就是配置器模块,其神秘性尤为突出。

论文摘要

机器如何能像人类和动物那样高效学习?如何让机器学会推理和规划?如何构建多层抽象的感知和行为计划表示,使它们能在不同时间尺度上进行推理、预测和规划?这篇立场论文提出了一种架构和训练范式,旨在构建自主智能体。它融合了可配置的预测世界模型、由内在动机驱动的行为,以及通过自我监督学习训练的分层联合嵌入架构。

关键词:人工智能、机器常识、认知架构(Cognitive Architecture)、深度学习、 自我监督学习、能量基模型(Energy-Based Model)、世界模型(World Models)、联合嵌入架构(JEDA:Joint Embedding Architecture)、内驱动机(ntrinsicMotivation.)。

ffeaf1c2af7b29edc9305abad0faa675.jpeg

5  论文序言;

这份文档并非传统意义上的技术或学术论文,而是一篇阐述我对智能机器学习方式的愿景的文章,这些机器更像动物和人类,能够推理和规划,其行为由内在目标驱动,而非硬编码程序、外部监督或奖励。文中所述的许多观点(几乎全部)已在不同作者、不同背景下以各种形式提出过。本文并未声称对任何观点拥有优先权,而是提出如何将它们整合成一个连贯的整体。特别是,它明确了前方的挑战,并列举了一些可能成功或不太可能成功的路径。

本文尽可能地避免使用行话和技术术语,以及复杂的数学知识,以便吸引不同背景的读者,包括神经科学、认知科学和哲学,以及机器学习、机器人工程等领域的专业人士。我期望这篇文章能帮助读者更好地理解人工智能中一些有时难以察觉其相关性的研究。

6  引言

动物和人类展现出的学习能力和对世界的理解远超当前人工智能(Al)  和机器学习(ML)  系统的功能。

青少年如何能在大约20小时的练习中学会驾驶汽车,孩子们又如何能通过少量接触就能习得语言?为什么大多数人在从未遇到过的情况下也能知道如何应对各种情况?相比之下,当前可靠的机器学习系统需要经过大量  的训练试验,即使是罕见的情况组合也需频繁出现,才能确保其可靠性。尽管如此,我们最好的机器学习系统  在诸如驾驶等现实世界任务中的表现仍远逊于人类,即使它们接收了大量专家的监督数据,在虚拟环境中经历了数百万次强化学习试验,以及工程师硬编码了数百种行为。

案可能在于人类和许多动物学习世界模型的能力,即对世界运行方式的内在理解。

当前,人工智能研究必须应对三大挑战

1. 机器如何通过观察来学习表征世界、进行预测和行动呢?

在现实世界中的交互代价高昂且危险,智能代理应当通过观察尽可能多地学习世界知识,以减少执行特定任务所需的昂贵和危险尝试的数量。

2. 机器如何能够以与梯度学习兼容的方式进行推理和规划?

我们学习的最佳方法依赖于估计和利用损失的梯度,而这只能在可微分架构中实现,且与基于逻辑的符号推理难以调和。

3. 机器如何学会以层次化的方式表示感知和动作计划,涉及多级抽象和不同的时间尺度?人类和许多动物能够构想出多层次的抽象,通过将复杂动作分解为低层级动作序列,实现长期预测和长期规划。

本文提出了一种智能体的架构,针对上述三个挑战提出了可能的解决方案。

该论文的主要贡献如下:

1.一个整体的认知架构,其中所有模块都是可微分的,并且许多模块是可以训练的(第3节,图2)。

2.JEPA和层次化的JEPA  : 一种用于预测性世界模型的非生成式架构,它学习表示的层次结构(第4.4节和 第4.6节,图12和图15)。

3.一种非对比性自我监督学习范式,它生成同时具有信息性和可预测性的表示(参见第4.5节及图13)。

4.将H-JEPA  作为不确定环境下层次规划的预测世界模型的基础(第4.7节,图16和17)。

6.1  学习世界模型

人类和非人类动物似乎能够通过观察和在无需任务指导、无人监督的情况下进行微不足道的互动,学习到 关于世界运行的庞大背景知识。可以推测,这种积累的知识可能构成了通常所说的常识的基础。常识可以 视为一系列描述世界的模型,它们能告诉一个智能体什么可能是真的,什么合乎情理,什么不可能发生。 利用这些世界观模型,动物们能以极少的尝试学习新技能。它们能预测行为的结果,推理、规划、探索,并设想解决问题的新方法。重要的是,当面对未知情境时,它们还能避免危险的错误。

人类、动物和智能系统使用世界模型的概念在心理学中有着悠久的历史(Craik,1943)。     自20世纪50年代以来,作为最优控制的标准做法,使用预测当前状态和考虑动作下一状态的前向模型(Bryson  and  Ho,1969),这一方法被称为模型预测控制。在强化学习中,可微分的世界模型长期以来被忽视,但现在又重新受到关注(例如Levine,2021)。

自动驾驶汽车系统可能需要数千次强化学习试验,才能理解在弯道超速会导致不良后果,并学会减速以防止打  滑。相比之下,人类能够利用对直觉物理学的深刻理解,预知这类结果,并在学习新技能时大体上避免致命的行动路径。

常识知识不仅能让动物预测未来的后果,还能填补时空上的信息空

白。它使它们能够根据常识对感知进行解释,使其与内在世界模型相一致。当面对模糊的感知时,常识让动物能够排除与内部世界模型不符的解释,并特别关注,因为这可能暗示着危险的情况和学习更精细世界模型的机会。

我认为,设计能够使机器在无监督(或自我监督)方式下学习世界模型,并利用这些模型进行预测、推理和规 划的学习范式和架构,是当前人工智能 (Al)    和机器学习 (ML)     的主要挑战之一。 一个主要的技术难题是如何构建可训练的世界模型,以处理复杂的预测中的不确定性。

6.2  人类与动物学习模型层次结构

人类和非人类动物在生命的最初几天、几周和几个月内习得关于世界基本运作方式的知识。尽管这些知识的获 取速度惊人,但它们看似基础,以至于我们常常理所当然地认为如此。在生命的最初几个月里,我们了解到世界是三维的。

19d2e00b542780983094f87568907abe.png

 1 : 这张图表 (Emmanuel       Dupoux 提供),显示了婴儿通常在什么年龄获得关于世界运行方式的各种概 念。它支持这样的观点,即抽象概念,如物体受到重力和惯性的影响,是在更不抽象的概念(如物体永久性和 将物体归类到大类别)之上习得的。大部分这些知识主要通过观察获得,尤其是在最初几周和几个月内,很少有直接干预。

世界中的光、声和触觉源头与我们有一定距离。视觉感知中每个点都有距离,这是解释我们从左眼到右眼 视角变化,或头部移动时世界观变化的最佳方式。视差运动使得深度变得明显,进而使物体的存在变得清 晰,以及物体可以遮挡远处物体的事实得以体现。 一旦物体的存在被确立,它们可以根据外观或行为自动归类。在物体概念之上,我们了解到物体不会自发出现、消失、改变形状或瞬间移动:它们平滑地移动,且任何时刻只能处于一个位置。掌握了这些概念后,学习起来就容易了,比如有些物体是静止的,有些有可预测的轨迹(无生命的物体),有些行为稍显不可预测(如风中的水、沙、树叶等集体现象),还有  些似乎遵循不同的规则(有生命的物体)。在此基础上,直观的物理概念如稳定性、重力、惯性等也会逐 渐形成。通过观察有生命物体对世界的效应(包括主体自身的行动影响),我们可以推断因果关系,进而获取语言和社会知识。

图1 (Emmanuel   Dupoux提供),展示了婴儿在何时似乎习得了基本概念,如对象持久性、基本类别和直觉物理学等。更高抽象层次的概念似乎建立在较低层次概念之上。

借助对世界的这种认知,结合硬编码的行为和内在驱动力/目标,动物能够迅速学习新任务,预测并适应环境变化。

他们考虑行动的后果,并提前规划,预见到成功的行动路径,以避免危险的局面。

但人类或动物的大脑是否能容纳所有生存所需的世界模型呢?本文的一个假设是,动物和人类的前额叶皮层中可能只有一个世界模型引擎。这个模型引擎可以根据手头的任务动态配置。拥有一个可配置的世界模型引擎,而非为每种情况单独建立模型,可能会使得对世界运作方式的知识在不同任务之间共享。这或许能够支持类比推理,即将针对一种情况配置好的模型应用到另一种情况中。

为了具体说明,我将直接进入所提议模型的描述。

2bf37ff1d1ea4555e36e0801be50b9a6.jpeg

图2自主智能的系统架构。假设该模型中的所有模块都是可微分的“,因为一个模块馈入另一个模块(通过连接它们的箭头)可以获得成本标量输出相对于其自身输出的梯度估算。

自主智能系统的架构该模型中的所有模块都被假设为“可微分”的,即通过连接它们的箭头从一个模块流向另一个模块时,可以得到成本标量输出相对于其自身输出的梯度估计。

配置器模块接收(此处为清晰起见未表示)所有其他模块的输入,并配置它们以执行当前任务。

感知模块估计当前世界的状态。

世界模型模块根据演员提出的想象动作序列预测可能的未来世界状态。

成本模块(Cost)计算一个名为“能量”的单个标量输出,衡量智能体的感知不适程度。

它由两个子模块组成:不变(不可训练)的内在成本(Intrinsic Cost)模块,负责计算当前状态的即时能量(如疼痛、快乐、饥饿等);以及可训练的批评者模块,用于预测内在成本的未来值。

短期记忆模块负责跟踪当前和预测的世界状态及其关联的内在成本。

演员模块计算动作序列的提议。世界模型和评估器计算可能的结果。演员能够找到一个最小化估计未来成本的最佳动作序列,并输出该序列的第一个动作。

7  自主智能模型架构

自主智能体的提议架构如图2所示。

它由多个模块组成,其功能如下所述。其中一些模块可以在运行时配置,即它们的确切功能由配置器模块决定。配置器的作用是执行控制:当接收到一个待执行的任务时,它会预先配置感知、世界模型、代价函数和执行者。

理想情况下,世界模型能够操作不同抽象层次的世界状态表示,从而允许它在多个时间尺度上进行预测。

关键问题在于,世界模型必须能够表示对世界状态的多种可能预测。自然世界并非完全可预测。特别是当它包  含可能存在对抗性的智能代理时更是如此。即使世界仅包含行为混沌或状态不完全可观测的无生命物体,这种情况也常常存在。

在构建提议的架构时,有两个关键问题需要回答:

(1)如何使世界模型能够生成多个合理预测并表示预测中的不确定性;

(2)如何训练这个世界模型。

成本模块通过一个称为能量的标量量来衡量代理的“不适”程度。能量由两个子模块计算的两个能量项之和  组成:内在成本模块和可训练的批评者模块。代理的整体目标是采取行动,以保持处于平均能量最低的状态。

IntrinsicCost内在成本模块是硬编码的(不可变、非可训练),它计算一个标量,即内在能量,用于衡量代理在瞬时的“不适”程度。

考虑疼痛(高内在能量)、快乐(低或负内在能量)、饥饿等。模块的输入是世界状态,由感知模块  提供,或是世界模型预测的潜在未来状态。

智能体的最终目标是在长期内最小化内在成本。这是基本行为驱动力和内在动机的基础。

内在成本模块的设计决定了智能体行为的本质。基本驱动力可以在这个模块中硬编码,例如,当激励腿部机器人站立以驱动其行走时,感到“良好”(能量低);影响世界状态  以驱动智能体行为;与人类互动以激发社交行为;感知附近人类的喜悦以激发同理心;拥有充足的能源供应(饥饿/满足);面对新情况以激发好奇心和探索欲;执行特定程序时等。相反,当面临痛苦情境 或明显危险(接近极端高温、火灾等)时,能量会升高,或者在使用危险工具时也是如此。内在成本模块可能由配置器调节,以在不同时间驱动不同的行为。

可训练的批评者模块预测未来的内在能量估计。

类似于内在成本,其输入要么是世界的当前状态,要么是由世界模型预测的可能状态。在训练过程中,批评者从关联记忆模块中检索过去的状态和随后的内在成本,然后 训 练自己根据前者预测后者。批评者模块的功能可以通过配置器动态调整,以引导系统朝着更大的任务中的特定子目标前进。

由于成本模块的两个子模块都是可微分的,能量的梯度可以反向传播到其他模块,特别是世界模型、执行器和感知器,用于规划、推理和学习。

短期记忆模块存储有关过去、当前和未来世界状态的相关信息,以及对应的内在成本值。世界模型在预测 (或回溯)未来(或过去)世界状态的同时,访问并更新短期记忆,填充缺失的空间信息或修正关于当前 世界状态的不一致信息。世界模型可以向短期记忆发送查询并接收检索到的值,或者存储新的状态值。批  评者模块可以通过从记忆中检索过去的状态及其关联的内在成本进行训练。该架构可能类似于Key-Value Memory Networks(Miller等人,2016年)的设计。这个模块可以被视为在脊椎动物中扮演海马体的部分功能。

演员模块计算动作序列的提议,并将动作输出给效应器。演员向世界模型提出一个动作序列。世界模型根 据动作序列预测未来的状态序列,并将其传递给成本函数。

如果动作空间是离散的,可以使用动态规划来寻找最优动作序列。优化完成后,演员将第一个动作(或一小串动作)输出给效应器。这个过程类似于最优控制中的模型预测控制 (Bryson    Ho,1969)

6747f506785c114dc88c3083677569d8.png

图3:模式 1 感知-动作事件。感知模块估计世界的状态 s[0] = Enc(x)。参与者通过策略模块 a[0] = A(s[0]) 直接计算一个操作或一小段操作序列。

7.1  典型感知-行动循环

模型在感知-行动序列中可以采用两种可能模式。

第一种无需复杂的推理,直接从感知输出和可能的短期记忆访问中产生动作。我们将称其为“模式-1”,类比于卡内曼的“系统1”。

第二种模式涉及通过世界模型和成本进行推理和规划,类似于优化控制和机器人技术中的经典规划和推理范式  模型预测控制(MPC)

模 式 1 : 反 应 行 为

Mode-1的感知-行动片段如图3所示。

感知模块,通过编码器模块,从输入x 中提取世界状态的表示s[0]=Enc(x),A其中包含与当前任务相关的重要信息策略模块,作为演员组件的一部分,根据状态s[0]生成动作:a[0]=A(s[0])。 产生的动作被发送给效应器。

策略模块的功能由配置器调控,根据当前任务对其进行配置。

通过利用世界模型,智能体能够设想一系列行动并预测其效果和结果,从而减少了在外部世界尝试多个动作并测量结果的昂贵和危险的探索需求,降低了寻找良好行为和策略的必要性。

模式2:使用世界模型进行推理和规划

98b271600fafdea7edff60ed429863bf.png

图4展示了模式2中典型的感知- 行动序列

1.感知 :感知系统从世界当前状态中提取一个表示,记作 s[0]=P(x)。成本模块计算并存储与该状态相关的即时成本。

2.行动提案演员提出一个初始动作序列,供世界模型评估(a[0],…,a[t],…,a[T]).

3.模拟:世界模型预测由提议的动作序列(s[1],…,s[t],…,s[T])    可能导致的一个或多个可能的世界状态表示序列。

4.评估:成本模块根据预测的状态序列估算总成本,通常表示为时间步长的累加和  

5.规划:演员提出一个成本更低的新动作序列。这可以通过梯度基方法实现即反向传播成本梯度通过计算图到动作变量。由此得到的最低成本动作序列表示为(a~[0],…,a~[T])。完整优化可能需要多次迭代步骤2-5。

由于总能量随时间累加,当动作空间小且离散时,动态规划也可以使用。编码器计算或预测器预测的状态及其对应的内在成本和可训练的批评者能量对存储在短期记忆中,用于后续训练批评者。

6.表演:在确定一个低成本动作序列后,演员将该序列的第一个(或前几个)动作发送给效应器。这个过程会重复进行,针对每一次感知-行动环节。

7.记忆:每次行动后,内在成本和评估器产生的状态及其相关成本会被存储在短期记忆中。这些对将用于后续的训练或评估器适应。

这个过程本质上就是控制理论文献中所说的模型预测控制(Model-PredictiveControl,MPC),采用的是递归视界策略。与经典最优控制的主

要区别在于,世界模型和成本函数是通过学习得到的。

原则上,任何优化策略都可以用于步骤5。

当世界模型和代价函数表现良好时,基于梯度的优化方法可能效率较高。然而,如果动作-代价映射存在不连续性,特别是在状态和/或动作空间可以离散化的情况下,可能需要使用其他优化策略,如动态规划、组合优化、模拟退火和其他无梯度方法,以及启发式搜索技术(例如剪枝的树搜索)等。

从模式2到模式1:学习新技能

5b18d4768aaba92ebdf502e6097077cb.jpeg

如图5所示的过程展示了如何训练一个策略模块A(s[t])推理作为能量最小化

71126410ee2bf7af9591e5ea0ed4a906.jpeg

图6:成本模块的体系结构。成本模块包括内在成本模块

批评者 (TC)     的角色有两个方面:(1)在尽量减少对复杂世界模型的依赖下预估长期结果;(2)允许配置器引导智能体专注于实现学习到的成本相关的子目标。

通常情况下,人工智能智能体的行为特性可以通过以下四种方式来定义:

1.通过显式编程,在满足特定条件时激活特定行为

2.通过定义一个目标函数,使得代理通过找到最小化该目标的动作序列来执行期望的行为。

3.通过直接监督训练代理,使其表现出某种行为。代理观察专家教师的动作,并训练 一个模式1策略模块来复制它。

4.通过模仿学习训练代理。代理观察专家教师的行为,推断出他们在执行动作时似乎正在优化的目标函数。这产生了模式2行为的评估子模块。这个过程有时被称为逆强化学习。

第二种方法在工程实现上比第一种简单得多,因为它只需要设计一个目标,而不是设计完整的行为。此外,第二种方法也更健壮:预设的行为可能会因意外情况或环境变化而失效。有了目标,代理可以调整其行为。

图7:训练评估器。cd25455a4027a00257852b83d268089e.jpeg

满足在未预期环境条件和变化下的目标。第二种方法利用代理的学习和推理能力,以减少设计师可能预先设定的脆弱先验知识量,这些先验知识可能会变得过时。

7.2  训练批评者

短期记忆可以被实现为键值记忆网络中的内存模块:查询向量与多个键向量进行比较,产生一个得分向   量。这些得分经过归一化后,作为系数用于输出存储值的线性组合。它可被视为一种“软”关联记忆,能够 进行插值。其优点在于,通过适当的新的键/值槽分配策略,它具备一次性学习的能力,同时可以在键之间进行平滑过渡,并且是端到端可微分的。

8 设计与训练世界模型

可以说,设计适用于世界模型的架构和训练范式是未来几十年人工智能取得实质性进展的关键挑战。本提议的一大贡献正是提出了一种层次化的架构和世界模型的训练方法,使其能够在其预测中表示多种可能的结果。

训练世界模型是一个典型的事例,即自我监督学习 (Self-Supervised                       Learning,SSL), 其基本思想是模式补全。预测未来的输入(或暂时未观察到的输入)是模式补全的一个特例。在这个工作中,世界模型的主要目标被视为预测世界状态的未来表示。

主要需要解决三个问题。首先,显而易见的是,世界模型的质量在很大程度上取决于它在训练过程中能够 观察到的状态序列(或状态-动作-结果状态三元组)的多样性。其次,由于世界并非完全可预测,对于给定的状态表示和代理执行的动作,可能存在多个合理的后续世界状态表示。世界模型必须能够有意义地表示这个可能无限的合理预测集合。最后,世界模型还需要能够在不同的时间尺度和抽象层次上进行预测。

第一个问题涉及到序列决策过程学习的核心问题之一:训练集的多样性取决于所采取的行动。这个问题将在第4.10节中进行讨论。

第二个问题更为严峻:世界并非完全可预测。因此,世界模型应能够从给定状态(如有需要,包括动作)表示出多种可能的结果。这可能是当前提议所解决的最艰巨挑战之一。这个问题将在下面第4.8节中进行讨论。

第三个问题涉及长期预测和规划。人类在抽象层次上规划复杂目标,使用对世界状态和行动的高层描述来  进行预测。然后,通过利用世界模型的短期预测,将高级目标分解为一系列更基础的子目标序列。这个分  解过程一直持续到受局部条件影响的毫秒级肌肉控制。关于世界模型如何在多个时间尺度和抽象级别表示行动计划的问题,在第4.6节中进行了讨论。

929c5b3541e400e0981b0de5b72120ac.jpeg

图8: 自监督学习(SSL)与能量基模型 (EBM) 

661c8306cf6fd95461257c3fae561eff.png

9:基于潜在变量能量的模型 (LVEBM)

df0d0cad88506747365bc712dc05c075.jpeg

图10:几种标准架构及其对崩溃的容忍度。

600b591c42b30b697a7cadfcbf14f40e.jpeg

图11: EBM 训练中的对比和正则化方法。  

这就是我反对对比方法的主要原因。

对于EBM 训练的正则化方法,从长远来看比对比性方法更具前景,因为它们可以避免困扰对比性方法的 维度灾难。这些方法的核心是构建一个损失函数,它会降低训练样本的能量,并同时最小化模型赋予低能 量区域的y空间体积。

低能量区域的体积由能量和/或损失中的正则化项衡量。通过在降低数据点能量的同时最小化这个正则化项,低能量区域会“紧密包裹”高数据密度区域。

非对比性正则化方法的主要优势在于,它们比对比性方法更不易受到维度灾难的影响。

关键问题是如何设计这样的体积最小化正则器,这很大程度上取决于模型架构,将在接下来的章节中讨论。然而,非对比性方法早已存在,例如稀疏建模、稀疏自编码器,以及带有噪声潜在变量的自编码器(如VAE)

重要的是要注意,对比式和正则化方法并不相互排斥,可以在同一模型上同时使用。

正规化方法如何应用于图10(b-d)所示的架构呢?

 联合嵌入预测架构(JEPA:Joint       Embedding       Predictive       Architecture)

核心内容是联合嵌入预测架构(Joint Embedding PredictiveArchitecture,简称JEPA)。JEPA   并非生成式模型,它并不能简单地用于从x预测y 它仅捕捉xy之间的依赖关系,而无需显式生成y的预测。

d134af3ae0b6220d09500faebe1ffa52.png

图12:联合嵌入预测架构 (JEPA)      由两个编码分支组成。

7356257d4c75a5f9c1b648898a2536cf.jpeg图13:JEPA 的非对比性训练。

JEPA 在表示空间中的预测能力使其明显优于直接生成y预测的生成模型。

在视频预测场景中,几乎不可能 准确预测每个未来帧的每一个像素值。地毯上的纹理细节、树叶随风摇曳或池塘上的涟漪,长时间内无精确预测,除非消耗大量资源。 JEPA  的一个显著优势在于,它可以选择

eef5fe0f837ad34359f210c35e0b5b1d.jpeg

图14:使用VICReg 训练JEPA

层次化JEPA(H-JEPA)

非对比性训练的JEPA模型可能是我们学习能够掌握相关抽象的世界模型的最佳工具。当使用VICReg 和类似方法进 行训练时,

19951c29cb5842172bff1913f6ce5524.jpeg

图15:分层JEPA(H-JEPA)

JEPA的学习能力使其能够处理抽象表示,实现准确的预测,从而支持层次堆叠。在这个图示中,JEPA-1 提取低层次表示并进行短期预测。 JEPA-2   接受JEPA-1  提取的输入,进一步提取更高级别的表示,以便进行更长期的预测。更抽象的表示忽略了长期难以预测的输入细节,使得它们能够用更粗略的世界状态描述来进行更长远的预测。

JEPA可以选择训练其编码器,以消除输入中的无关细节,从而使表示更具可预测性。换句话说,JEPA将学习使世界可预测的抽象表示。编码器的不变性特性会消除不可预测的细节,或者将它们推入预测器的潜在变量中。通过训练准则和潜在变量正则化,将尽可能减少被忽略的信息量。

值得注意的是,生成式潜在变量模型并不能消除无关细节,除非将它们编码到潜在变量中。这是因为他们不会生成关于 y 的抽象(不变)表示。这就是我们反对使用生成架构的原因。

JEPA 学习抽象概念的能力表明,有必要扩展其架构以处理多尺度和多层次的预测。直观地说,低层次表示包含大量输入细节,可用于短期预测。然而,使用同样详细程度进行长期精确预测可能会有困难。相反,高层抽象表示可能支持长期预测,但代价是牺牲了许多细节。

让我们以一个具体的例子来说明。

在驾驶汽车时,如果给出了未来几秒钟方向盘和踏板的操作序列,驾驶员可以准确预测车辆的行驶轨迹。长时间的轨迹细节更难预测,因为它们可能取决于其他车辆、交通信号灯、行人等外部事件,这些事件在一定程度上是不可预知的。但驾驶员仍然可以在更高层次的抽象级别做出准确预测: 忽略轨迹的具体细节、其他车辆、交通信号等,汽车大概率会在可预见的时间内到达目的地。这个描述层次中将不会包含详细的轨迹信息。但大致的轨迹,如地图上的绘制,会被表示出来。一个离散的潜在变量可以用来代表多个备选路线。

图15展示了多级、多尺度世界状态预测的一种可能架构。变量 x,x',x" 表示一系列观测值。

第一级网络(记作JEPA-1)  使用低层次表示进行短期预测。第二级网络JEPA-2 则利用高层次表示进行更长期的预测。可以设想这种类型的架构具有多个层级,可能包含卷积和其他模块,并在层级间使用时间池化来粗粒度表示,以进行更长期的预测。训练可以逐层进行,也可以全局进行,对于JEPA 可以使用任何非对比性方法。

我认为在多个抽象层次上表示世界状态序列对于智能行为至关重要。通过多级的世界状态和动作表示,复杂任务可以分解为越来越详细的子任务,当接收到局部条件时,这些子任务可以转化为具体的行动序列。

例如,计划复杂的任务,如通勤上班,可以分解为驾驶到火车站、乘坐火车等步骤。驾驶到火车站又可以进一步分解为走出家门、启动汽车、驾驶等。走出家门需要站起来、走到门口、开门等操作。这种分解一直细化到毫秒级别的肌肉控制,只有在感知到相关的环境条件(障碍物、交通信号灯、移动物体等)时才能具体执行。

 分层规划

如果我们的世界模型能够分层进行预测,那么它能否被用来分层进行模式2推理和规划呢?

802a574326a9f8639ce1dcdc0e71f907.jpeg

 16:模式2层次规划的分层JEPA(Hierarchical JEPA for Mode-2 Hierarchical Planning)。

应对不确定性

现实世界并非完全可预测。未来世界状态的不确定性可能由多种原因造成:

·世界本质上是随机的(aleatoric 不确定性,类型1)6009866d59044d6ab37b1f9d99419407.jpeg

图17:面向模式2的不确定环境中的分层JEPA(层次化JEPA) 层次规划。  

在规划阶段,隐变量从通过吉布斯分布(Gibbs应用于正则化项得到的分布中采样。每次采样都会导致不同的预测。为了生成一致的隐状态序列,正则化的参数可以作为先前状态和检索记忆的函数。

随着预测的进行,生成的状态轨迹数量可能会呈指数级增长。如果每个潜在变量有k个可能的离散值,那么可  能的轨迹数将以kt的形式增加,其中t是时间步数。必须采用定向搜索和剪枝策略。对于多个预测轨迹,可以计算出最小化平均成本的最优动作序列,或者结合平均值和成本方差以最小化风险。

·世界是可决定性的但又混沌的,因此如果没有无限精确的感知,很难预测(类型2的 aleatoric 确定性)。

·世界是可决定性的,但部分可观测(属于第三类 aleatoric 不确定性)。

·世界是完全可观测的,但传感器只提供了关于世界状态的部分信息(知识不确定性,类型1)。

· 视觉模块提取的世界状态表示并不包含精确预测所需的全部信息(元知识不确定性,类型2)

·由于其表现力的局限(有限理性或认识不确定性,类型3),世界模型存在不准确之处

·由于训练数据有限,世界模型存在不准确性(知识不确定性,类型4)。

世界模型架构

世界模型的架构细节应取决于智能体所演化的环境类型。

对于更高抽象层次的长期预测,相关的特征是物体及其相互作用4

监控世界状态

传统上,深度学习架构中的模块通过向量或多维数组来传递状态。然而,这种方法在被建模对象的状态在每次

迭代中仅发生轻微变化的情况下往往效率低下。

一个智能体的典型行为只会改变世界状态的一小部分。如果一个瓶子从厨房被移动到餐厅,瓶子、厨房和餐厅的状态会受到影响,但世界其他部分保持不变。

这表明世界状态应当存储在某种可写入的内存中。每当发生事件时,仅更新事件影响的世界状态内存部分,其余部分保持不变。

数据流

许多关于世界的知识可以通过纯粹的观察来获取。原则上,物理物体的运动定律可以通过观察推导出来,而无需干预。但高效训练世界模型可能需要更积极或“主动”的信息收集。

一个智能体可以列举出五种获取信息的方式,通过这些方式它可以了解世界运行的机制:

1.观察(Observation):  通过直接感知环境来收集数据。

2.交 互(Interaction):  通过与环境中的对象进行操作,学习其响应。

-被动观察:代理接收到传感器流(如视频、音频等)。

-活动性聚焦:智能体接收到的数据流中,注意力的焦点可以自由移动而不会影响环境。例如,可以在

定向视觉和声音传感器的同时观看场景,或者接收一个宽视角、高分辨率的视频和/或音频流,在其中可以控制注意力的集中点.

3.被动智能体:观察另一个作用于环境的智能体的感官流,从而推断出智能体行为对环境状态的影响。

4.主动自我运动:智能体从真实或虚拟环境中接收感官流,其中传感器的位置可以调整而不会显著影响环境。这可能包括可操纵的主动传感器(如距离传感器、热传感器、化学传感器),以及触觉传感器。

5.主动智能体:受智能体行动影响的感觉流。这使得能够建立因果模型,使智能体能够学习预测其行为的后果。这种模式将探索-利用困境置于前沿。

9  设计与训练演员

演员模块的作用有三个方面:

1.给定世界模型对模式2动作的预测,推断出最小化成本的理想动作序列。

2.生成多个潜在变量配置,这些配置表示代理未知的世界状态部分。

3.训练生成模式1行为的策略网络。

动作和潜在变量在概念上没有区别。无论是哪种变量,演员都必须探索其可能的配置。对于潜在变量,需要探 索以在不确定性中进行规划;而对于动作变量,目标是找到一个最优配置,以最小化成本。在对抗性场景(如游戏)中,演员需要探索最大化成本的潜在配置。实际上,演员扮演着优化器和探索者的角色。

当世界模型和成本函数表现良好时,演员模块可以通过基于梯度的优化过程推断出最优的动作序列。它通过反向传播计算并通过展开的世界模型得到成本的梯度估计。演员模块利用这些估计来更新动作序列。

当世界模型或成本函数表现不佳时,基于梯度的动作序列最优搜索可能失效。在这种情况下,可以采用其他搜 索/规划方法。如果动作空间是离散的或者可以离散化,可以使用动态规划方法或近似动态规划方法,如束搜  索或蒙特卡洛树搜索。实际上,任何在最优控制、机器人或“经典”人工智能背景下发展起来的规划方法,在这种情况下都适用。

通过规划/推理/优化过程获取到最优动作序列后,可以将这些动作作为目标来训练策略网络。策略网络随后可用于快速执行,或者仅用作优化阶段前的良好初始动作序列起点。可以为多个任务训练多个策略网络。

演员 (Actor) 还会生成潜在变量的配置。这些潜在变量表示代理未知的世界状态部分。理想情况下,演员会系统性地探索潜在变量的可能配置。理想情况下,如图17中的R1 和R2 所示,潜在变量的正则化器应当代表从其中可以采样的对数先验概率。然而,类似于策略网络,可以设计一个潜在变量的近似推断模块,该模块学习潜在变量的分布。良好的分布会产生合理的预测,而这些预测可能依赖于当时的全部变量。

10  设计配置器

配置器是代理的主要控制器,它接收所有其他模块的输入,并调节它们的参数和连接图。这种调节可以路由信号、激活子网络、集中注意力等。在一个预测器和感知编码器的上层是Transformer 块的情景中,配置器的输出可能构成这些Transformer     块的额外输入令牌,从而调节其连接图和功能。

配置器模块的引入有两方面的原因:硬件重用和知识共享。能够复用同一电路执行多个任务具有明显优势,特别是当任务可以按顺序完成,并且资源(如参数内存)有限时。但还有一个好处:知识重用。 一个合理的假设是,针对特定环境训练的世界模型可以通过微调调整,用于一系列不同的任务。可以设想一个“通用”的环境模型,其中一小部分参数由配置器根据当前任务进行调节。这比为每个技能单独建立世界模型更加数据和计算高效。然而,缺点是代理一次只能执行一项任务。

世界模型的预测部分必须能够根据当前任务执行各种功能。对于执行低抽象层次短期预测的预测器,配置  可能涉及动态信号路由。在低级视网膜映射特征数组表示中,预测可能简化为单个特征向量的局部位移,伴随微小的向量变换。这可以通过局部门控/路由电路高效实现。对于更高抽象层次的长期预测,使用Transformer  架构可能更优。 Transformer  块特别适合处理对象交互的物体基础推理,因为它们的功能对排列具有不变性。由于这个特性,无需关心哪些对象对应哪个输入令牌:结果将保持一致且与输入分  相符。基于模型的机器人领域的最新工作提议在整个轨迹级别使用Transformer, 通过调整注意力电路来配置预测器进行因果预测或其他任务

配置器最重要的功能之一是为代理设定子目标,并为此子目标配置成本模块。如第3.2节所述,一种简单的方法是通过调整基本成本子模块线性组合的权重来使成本可配置。这可能适用于不变的内在成本子模块:过于复杂的内在成本调节可能会使代理的基本驱动力难以控制,包括实现安全防护的费用项。相比之 下,可以设想更复杂架构,使得成本中的可训练批评者部分能够灵活调整。如果将高级成本定义为对象之 间的一组期望关系(“螺母是否已安装在螺丝上?”),则可以使用经过训练的变压器架构来衡量世界状态与所需条件之间的偏离程度。同样,可以使用额外的标记输入来调节函数。

未得到解答的问题是,配置器如何学会将复杂任务分解为一系列子目标,这些子目标可以单独由智能体完成。这个问题留待未来进一步研究。

11   相关工作

论文中提出的大部分观点并非新颖,已经在认知科学、神经科学、最优控制、机器人技术、人工智能和机器学习(特别是强化学习)等领域以各种形式进行了深入探讨。

该论文可能的主要原创贡献在于

·具有所有模块可微分且许多模块可训练的整体认知架构。

·H-JEPA: 一个非生成式分层架构,用于预测性世界模型,能够在多个抽象层次和时间尺度上学习表示。

·一种非对比性自我监督学习范式,它生成同时具有信息性和可预测性的表示。

· H-JEPA 作为层次规划中不确定性下的预测世界模型的基础。

以下是尝试将当前提议与相关先前工作相联系的努力。

11.1  训练好的世界模型、模型预测控制与层次规划

为了解决多模态/模糊问题,有研究提出在表示空间中进行视频预测。在某些工作中,表示空间来自于经  过监督训练的视觉管道,例如用于语义分割 然而,对预训练视觉管道的依赖降低了这些方法仅通过观察学习世界模型的通用性。

JEPA 的精神一致,也有人提出自动学习视频帧表示的方法,以便于轻松预测。这些提议通常局限于学习低  级特征,并且常常通过解码器重构来防止模型塌陷.

11.2  能量基模型与联合嵌入架构

对于许多作者来说,能量基模型(Energy-Based Model,EBM)指的是其分布为能量函数的负指数化的概率模型。

11.3 人规划能力是人类智能中被广泛研究的特性

构建当前提案的认知架构,详尽实现所有细节,并让系统处理非平凡任务绝非易事。通往成功的道路可能充满了未预见的挑战。解决这些问题可能会耗时多年。

13.4 拟议模型中缺失了什么?

要将提议的架构转化为实际运行的系统,需要付出巨大的努力。可能会出现一些看似在该架构规格范围内难以解决的问题和陷阱。

第一个问题是,是否可以从视频中构建和训练一个层次化的JEPA?它能否学习第4.1节中提到的那种抽象概念层次结构?

关于JEPA (具体上下文未知,推测可能是一个协议或模型),一个尚未明确的问题是如何精确地规范化潜在变量以最小化其信息含量。提出了几种可能的机制:使潜在变量离散、低维、稀疏或随机。但目前尚不清楚哪种方法最终会更优。

当前提案并未规定演员必须采用何种方式推断隐变量实例和最优动作序列。所有模块的可微性原则上使得基于 梯度的优化方法可用于此目的,但在实践中可能面临复杂问题。特别是当动作空间离散或从动作到成本的映射高度非光滑时,基于梯度的方法可能效果不佳,此时可能需要使用其他(无需梯度的)搜索算法,如动态规划、信念传播、蒙特卡洛树搜索(MCTS)、 satisfiability 求解等。

在模式-2的规划/推理中,对潜在变量进行多重配置可能需要现有提案未描述的额外机制。人类似乎具备自发地在不同感知解释之间循环的能力,这可以从魔方和具有多个等效解释的其他视觉错觉中看出。在这 个模型中,对模糊感知的不同解读可能由潜在变量的不同值表示。虽然可以设想多种探索性机制系统地探索潜在变量值的空间,但这里并未详述这样的机制。

11.5 所提方法的更广泛相关性

尽管提出的架构并非专为模拟人类和其他动物的自主智能、推理和学习而设计,但仍然可以从某些方面进行类比。

以下内容具有一定推测性,旨在串联认知科学和神经科学中启发当前工作的某些概念。

该架构中的许多模块在哺乳动物大脑中都有对应部分,执行相似的功能。

感知模块对应于大脑皮层的视觉、听觉和其他感觉区域,以及一些联合区域。世界模型和评估器对应于前 额叶的不同部分。内在代价模块对应于基底节中参与奖励的结构,包括杏仁核。可训练的评估器可能对应 于前额叶中参与奖励预测的部分。短期记忆的功能与已知的海马体功能重叠。配置器可能对应于前额叶执行控制和调节注意力的结构。演员则集合了运动前区中负责制定和编码运动计划的区域。

预测性世界模型的概念在认知科学中久负盛名,而预测编码的理念在神经科学中同样占据重要地位。JEPA 架构及其对应的非采样对比式自监督学习方法在一定程度上契合了预测编码和有效编码的理念。

提出的架构拥有一个单一 的世界模型引擎,可通过配置器针对手头任务进行配置。我主张这不仅可能通过 硬件重用带来计算优势,还可能支持跨多个任务的知识共享。人类大脑中可能存在一个可配置的世界模型 引擎的假设,可能解释了为何人类能同时执行一个“意识”驱动的推理和规划任务。 一个大胆的猜测是,意识的错觉可能是大脑中类似配置器模块的副产品,它监督大脑其他部分的功能,并为当前任务进行调整。或许,如果大脑足够大到容纳多个独立且不可配置的世界模型,配置器就变得多余,意识的幻象也会随之消失。

动物和人类的情绪基础是什么?即时情绪(如疼痛、快乐、饥饿等)可能是由类似于提议架构中内在成本模块的大脑结构引发的结果。其他情绪如恐惧或欣喜可能是大脑结构(其功能类似于可训练的评价器)对结果预期的结果。

存在一个成本模块,通过寻找最优行动驱动代理的行为,这表明这里所提议的自主智能代理必然具备类似情绪的属性。如同动物和人类,机器的情绪将源于内在的成本,或者是可训练的评价器对结果的预期。

11.6  这是通向机器常识的道路吗?

普遍认为,当前没有任何人工智能系统具备任何形式的常识,哪怕是在家猫身上也能观察到的那种。动物似乎能够获取足够的世界运行背景知识,展现出一定程度的常识。相比之下,即使在自我监督预训练(如从文本中学习)的情况下,人工智能系统展现的常识水平也非常有限,这使得它们显得有些脆弱。

例如,大型语言模型(LLMs)似乎从书面文本中提取了惊人的大量背景知识。但人类的常识知识很大程度上并未在任何文本中体现,而是源于我们与物理世界的互动。由于LLMs 没有直接体验到潜在的真实世界,它们展现的常识知识非常肤浅,可能与现实脱节。

对常识的一种可能描述是其使用世界模型来填补空白的能力,例如预测未来,或者更广泛地说,填充从感知或记忆中获取不到的世界信息。根据这个定义,常识是一种能力,它源自一系列世界模型或是一个可配置以适应当前情境的单一模型引擎。这种对常识的理解完全符合“基于实例的智能”范畴:常识是一系列从低抽象层次到高抽象层次的模型集合,包括通过语言习得的知识在内。

SSL (安全套接层)能否应用于可配置的H-JEPA 架构,从而构成机器常识的基础?一个经过适当训练和配置 的H-JEPA  是否能够嵌入足够的预测知识,并捕捉到足够多关于世界的依赖关系,以展现出某种程度的常识性行 为 ?

我推测,常识可能源于学习能够捕捉世界中观察到的自洽性和相互依赖性的世界模型,使代理能够填补缺失的信息并检测其世界模型的违背。

11.7  只是规模问题吗?奖励真的足够吗?

本节概述了近年来提出的一些可能通向人类级别智能的路径。大型Transformer架构在预测文本和其他模态方面的惊人能力促使一些人认为,我们只需要扩大这些模型的规模(Brown  et  al.,2020;Brown  et  al.,2020)。强化学习在游戏和其他简单环境中的惊人效果让另一些人相信奖励机制就足够了(Silver    et     al.2021)。最后,当前深度学习系统的局限性表明,当面临更复杂的任务时,我们需要更多策略。

11.7.1 只靠缩放是不够的

大型语言模型(LLMs)以及更广泛地说,通过生成式自我监督学习训练的大型Transformer架构,在捕捉文本中的知识方面取得了惊人的成功。这引发了人工智能界关于是否可以通过扩展这些架构实现人类级别Al的争论。在这个辩论中,我的观点是,仅凭规模扩大并不足够,原因有两点。

首先,当前大语言模型基于“分词化”数据并具有生成性。每个输入模态必须转化为一系列“令牌”,以向量形式编码。对于文本,这已经是一种离散令牌的序列,但对于连续高维信号如视频,这种方法就不太适用了。

LLM风格模型使用的SSL训练可以视为一种特定类型的无隐变量生成模型,使用了一种称为去噪自编码器(Vincent   et   al.,2010)或遮掩码自编码器 (Devlin   et   al.,2018)的特定对比方法。因此,它们受限于生成模型、无隐变量模型和对比方法的局限性。生成模型在连续空间中难以表示复杂的不确定性。

大语言模型LLMs通过只处理有限集合中的离散对象(如字典中的单词)来简化预测中的不确定性表示。预测一个单词的不确定性,归结为生成一个向量,其各维度对应字典中每个单词(或离散令牌)的概率得分。然而, 对于像视频这样的高维连续模态,这种方法无效。为了表示这类数据,需要通过编码器消除要建模变量的

无关信息,就像JEPA那样。此外,信号的高维度性也阻碍了通过规范化分布来表示不确定性。

其次,当前模型只能处理非常有限形式的推理。由于这些模型中缺乏抽象潜在变量,它们无法探索感知的多种解释或寻找实现目标的最佳行动路径。实际上,在这样的模型中动态地设定目标几乎是不可能的。

11.7.2 奖励是不够的

提出的架构旨在最小化系统在现实世界中学习任务所需的实际操作次数。它通过学习一个世界模型,该模型尽可能多地掌握世界知识,而无需在现实中采取行动来实现这一目标。它利用可微分的世界状态内在成本。这使得该提议更接近于最优控制,而不是强化学习。在这个模型中,大部分学习发生在世界模型层面(感知编码器和预测器)。在这种背景下,强化学习(RL)的作用是什么?

在大多数强化学习(RL)环境中,奖励(或成本,即负奖励)由环境提供给智能体。换句话说,内在成本模块就是环境本身,因此是一个未知函数。我们可以通过观察世界状态、采取行动并观察结果奖励来探究该函数的值。奖励对动作或状态的梯度是未知的,必须通过估计来获取。

类似于策略梯度方法中的多动作试验。在Actor-Critic算法中,奖励函数被一个称为批评者(Critic)的模块近似,该模块被训练来逼近未来奖励期望值的估计。批评者提供了奖励函数的可微分近似。

但是模型自由的强化学习(RL)在样本效率上极其低下,至少与人类和动物的学习相比是这样,学习一项技   能需要大量的尝试。标量奖励为学习系统提供了低信息反馈。因此,纯粹的RL 系统需要大量尝试才能学会相   对简单的任务。基于模型的RL 显然具有显著提高样本效率的潜力。但问题在于如何训练世界模型:它是通过   执行动作并获取奖励来训练,还是通过预测世界状态来训练?在后一种情况下,奖励显然不够:系统中的大多  数参数被训练用来预测大量世界观测值。这与Silver等人的近期立场论文标题(Silver 等人,2021)所表达的观点相反,奖励在这个场景中起着相对较小的作用。

11.7.3 我们需要推理的符号吗?

在提出的架构中,推理被归结为演员通过各种搜索方法(参见3.1.4节)通过最小化能量或满足约束来找到合适的行为组合和潜在变量。

如果动作和潜在变量是连续的,且预测器和代价模块可微并且行为良好,可以使用基于梯度的方法进行搜索。 然而,可能存在这样的情况:动作作为预测器输出的函数变化迅速,且动作空间本质上是不连续的。这通常发 生在抽象级别较高时,决策更倾向于定性。自动驾驶汽车的高层决策可能对应于“在岔路口左转或右转”,而低层版本则是轮子角度的一系列序列。

但是,基于梯度的搜索方法相对于无梯度搜索方法在效率上的优势促使我们寻找让世界模型训练过程能够发现层次表示的方法,这样规划/推理问题就可以构成原本离散问题的连续松弛版本。

一个悬而未决的问题是,这里提出的推理类型是否能够涵盖人类和动物所有具备的推理形式。

12  致谢

本文的观点源于多年与众多人士的交流互动,不可能在此一一列举。

以下是其中一些突出的名字:莱昂·波图(Léon Bottou)、约书亚·本吉奥(Yoshua    Bengio)、杰弗里·辛顿(Geoffrey  Hinton)、 罗伯·费格斯(Rob Fergus)和贾延德拉·马利克(Jitendra   Malick);埃马纽埃尔·杜普勒 克斯 (Emmanuel     Dupoux) 和斯坦尼斯拉斯·德哈恩(Stanislas  Dehaene);米卡埃尔.亨纳夫 (Mikael

NYU的Alfredo Canziani和Nicolas  Carion;FAIR的Li Jing、Yubei Chen、Randall Balestriero和Stéphane Deny;NYU的Vlad   Sobal、Jiachen   Zhu和Katrina   Evtimova 。

我对以下同事对稿件的评论表示感谢:Olivier Delalleau、Gus Xia、Yoshua Bengio和Emmanuel Dupoux。

13  参考文献

省略。下一篇全文将如论文全部附录。

14 世界模型架构图示中使用的符号         

dbd52f95bf60f0ac98f524d47d6d1706.jpeg

图18:架构图示中使用的符号。

架构图纸使用了通常绘制因子图的符号——圆表示变量,矩形表示因子。圆角矩形则代表确定性函数。填充的圆圈表示观测变量,或者是确定性函数的输出。

空心圆圈代表潜在变量,即必须通过最小化某种成本或从分布中采样来推断的变量。红色矩形代表能量项。这些模块有一个隐含的标量输出,它以加性的方式对系统的总能量做出贡献。这类似于 因子图中的约定。圆角矩形表示确定性函数,可能有一个或多个输入。

15  附录:隐变量的折算推理

34edc8eaadf3a03501954e1ae3bdfc01.jpeg

图20:带有正则化生成潜在变量EBM  架构的平均推理。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值