Optimus-1:Hybrid Multimodal MemoryEmpowered Agents Excel in Long-HorizonTasks混合多模态记忆赋能的智能体在长时任务中表现出色_optimus-1: hybrid multimodal memory empowered agen-CSDN博客

本文链接：https://blog.csdn.net/Together_CZ/article/details/144339211

今天看到哈工大发表的Optimus-1，一个多模态智能体，旨在解决现有智能体在开放世界中完成长时任务的挑战。主要内容如下：

背景与动机：
- 现有智能体在许多领域取得了显著进展，但仍难以在开放世界中完成长时任务。
- 缺乏必要的世界知识和多模态经验是主要原因。
混合多模态记忆模块：
- 分层有向知识图（HDKG）：将知识转化为图结构，使智能体能够显式学习和表示世界知识。
- 抽象多模态经验池（AMEP）：动态总结和存储任务执行过程中的多模态信息，提供丰富的上下文学习参考。
Optimus-1框架：
- 知识引导规划器：在规划阶段融入视觉观察，利用HDKG生成可执行的子目标序列。
- 经验驱动反射器：定期激活，从AMEP中检索历史经验，评估当前状态并指导规划修订。
- 行动控制器：生成低级行动，与游戏环境交互以更新智能体状态。
实验结果：
- Optimus-1在Minecraft中的长时任务基准测试中显著优于现有智能体，表现出接近人类水平的表现。
- 引入多种多模态大语言模型（MLLMs）作为Optimus-1的骨干，实验结果显示在混合多模态记忆的帮助下，性能提升了2到6倍，优于GPT-4V基线。
自进化能力：
- 通过“自由探索-教师指导”的非参数学习方法，Optimus-1的混合多模态记忆逐步扩展，使其在自进化的方式下逐步提升性能。
结论：
- Optimus-1展示了在有限数据资源下实现高性能预训练语言模型的可能性，通过三阶段数据课程和优化架构设计，实现了与更大模型相当的性能。
- 模型权重已在Apache 2.0许可证下公开发布，旨在促进LLMs的民主化，并使其完全可访问于整个开源社区。

这里是自己的论文阅读记录，感兴趣的话可以参考一下，如果需要阅读原文的话可以看这里，如下所示：

官方项目在这里，如下所示：

摘要

构建一个通用智能体是人工智能领域长期以来的愿景。现有智能体在许多领域取得了显著进展，但仍难以在开放世界中完成长时任务。我们将此归因于缺乏必要的世界知识和多模态经验，这些知识和经验可以指导智能体完成各种长时任务。本文提出了一种混合多模态记忆模块来解决上述挑战。它1) 将知识转化为分层有向知识图，使智能体能够明确表示和学习世界知识，2) 将历史信息总结为抽象多模态经验池，为智能体提供丰富的上下文学习参考。基于混合多模态记忆模块，构建了一个多模态智能体Optimus-1，配备了专门的知识引导规划器和经验驱动反射器，在面对Minecraft中的长时任务时，有助于更好地规划和反思。大量实验结果表明，Optimus-1在具有挑战性的长时任务基准测试中显著优于所有现有智能体，并在许多任务中表现出接近人类水平的表现。此外，我们引入了各种多模态大语言模型（MLLMs）作为Optimus-1的骨干。实验结果显示，在混合多模态记忆模块的帮助下，Optimus-1表现出强大的泛化能力，在各种任务中优于GPT-4V基线。项目页面在这里，如下所示：

1 引言

擎天柱在变形金刚中与人类并肩作战，保护地球和平。在人工智能领域，创建一个像擎天柱一样能够在开放世界中感知、规划、反思并完成长时任务的智能体一直是长期的愿望。早期研究通过强化学习或模仿学习开发了简单的策略。许多工作利用大语言模型（LLMs）作为智能体的行动规划器，生成可执行的子目标序列供低级行动控制器执行。最近的研究采用了多模态大语言模型（MLLMs）作为规划器和反射器。利用（多模态）LLMs强大的指令跟随和逻辑推理能力，基于LLM的智能体在多个领域取得了显著成功。然而，这些智能体完成长时任务的能力仍远未达到人类水平。

根据相关研究，人类在开放世界中完成长时任务的能力依赖于长期记忆存储，分为知识和经验。知识和经验的存储和利用在指导人类行为和使人类能够灵活适应环境以完成长时任务方面起着至关重要的作用。受此理论启发，我们将当前智能体面临的挑战总结如下：

结构化知识的探索不足：结构化知识包括开放世界规则、对象关系和与环境的交互方法，对于智能体完成复杂任务至关重要。然而，MLLMs如GPT-4V缺乏足够的Minecraft知识。现有智能体仅从视频数据中学习分散的知识，无法有效表示和学习这种结构化知识，导致无法执行复杂任务。

缺乏多模态经验：人类从历史经验信息中获得成功策略和教训，帮助他们应对当前的复杂任务。类似地，智能体可以通过经验演示进行上下文学习。然而，现有智能体仅考虑单模态信息，无法像人类一样从多模态经验中学习。

为解决上述挑战，我们提出了混合多模态记忆模块，包括分层有向知识图（HDKG）和抽象多模态经验池（AMEP）。对于HDKG，我们将对象之间的逻辑关系映射到有向图结构中，将知识转化为高级语义表示。HDKG有效地为智能体提供任务执行所需的知识，无需任何参数更新。对于AMEP，我们动态总结和存储智能体任务执行过程中的多模态信息（如环境、智能体状态、任务计划、视频帧等），确保历史信息包含全局概览和局部细节。与直接将成功案例存储为经验的方法不同，AMEP将成功和失败案例都作为参考。这种将失败案例纳入上下文学习的创新方法显著提升了智能体的性能。

基于混合多模态记忆模块，我们构建了一个多模态可组合智能体Optimus-1。如图1所示，Optimus-1由知识引导规划器、经验驱动反射器和行动控制器组成。为了增强智能体应对复杂环境和长时任务的能力，知识引导规划器在规划阶段融入视觉观察，利用HDKG获取所需知识。这使智能体能够高效地将任务转化为可执行的子目标。行动控制器将子目标和当前观察作为输入，生成低级行动，与游戏环境交互以更新智能体状态。在开放世界复杂环境中，智能体在执行长时任务时容易出错。为此，我们提出了经验驱动反射器，定期激活以从AMEP中检索相关多模态经验。这鼓励智能体反思当前行动并改进计划。

我们在流行的开放世界游戏环境Minecraft中验证了Optimus-1的性能。实验结果显示，Optimus-1在长时任务中表现出显著性能，比现有智能体提升了高达30%。此外，我们引入了各种多模态大语言模型（MLLMs）作为Optimus-1的骨干。实验结果显示，在混合多模态记忆的帮助下，Optimus-1的性能提升了2到6倍，在许多长时任务中优于强大的GPT-4V基线。此外，我们验证了即插即用的混合多模态记忆可以驱动Optimus-1以自进化的方式逐步提升其性能。大量实验结果表明，Optimus-1在实现具有人类水平性能的通用智能体方面迈出了重要一步。本文的主要贡献如下：

我们提出了混合多模态记忆模块，由HDKG和AMEP组成。HDKG帮助智能体高效地进行长时任务规划。AMEP提供精炼的历史经验，指导智能体有效推理当前情况状态。
基于混合多模态记忆模块，我们构建了Optimus-1，包括知识引导规划器、经验驱动反射器和行动控制器。Optimus-1在长时任务基准测试中优于所有基线智能体，并展现出接近人类玩家的能力。
在混合多模态记忆的驱动下，各种基于MLLM的Optimus-1展示了2到6倍的性能提升，展示了混合多模态记忆的泛化能力。

2 Optimus-1

在本节中，我们首先详细介绍如何在第2.1节中实现混合多模态记忆。作为核心创新，它在使Optimus-1执行长时任务中起着至关重要的作用。接下来，我们概述Optimus-1框架（第2.2节），包括混合多模态记忆、知识引导规划器、经验驱动反射器和行动控制器。最后，我们介绍了一种非参数学习方法来扩展混合多模态记忆（第2.3节），从而提高Optimus-1任务执行的成功率。

混合多模态记忆

为了赋予智能体长期记忆存储机制，我们提出了混合多模态记忆模块，包括抽象多模态经验池（AMEP）和分层有向知识图（HDKG）。

图2：(a) 多模态经验提取过程。帧通过视频缓冲区和图像缓冲区进行过滤，然后使用MineCLIP [7]计算视觉和子目标相似度，最后它们被存储在抽象多模态经验池中。(b) 分层有向知识图概述。知识以有向图的形式存储，其中节点表示对象，有向边指向该对象可以制作的材料

2.1.1 抽象多模态经验池

相关研究强调了历史信息对智能体完成长时任务的重要性。Minedojo和Voyager采用了单模态历史信息存储。Jarvis-1使用了一种多模态经验机制，存储任务规划和视觉信息而未进行总结，对存储容量和检索速度提出了挑战。为解决这一问题，我们提出了AMEP，旨在动态总结任务执行过程中的所有多模态信息。它在保持长时数据完整性的同时，提高了存储和检索效率。

具体来说，如图2所示，为了进行静态视觉信息抽象，Optimus-1在任务执行过程中捕获的视频流首先输入视频缓冲区，以固定频率（每秒1帧）过滤流。基于过滤后的视频帧，进一步进行动态视觉信息抽象，这些帧被输入图像缓冲区，窗口大小为16，动态计算图像相似性并自适应更新最终抽象帧。为了将这种抽象视觉信息与相应的文本子目标对齐，我们使用预训练的视频-文本对齐模型MineCLIP计算它们的多模态相关性。当这种相关性超过阈值时，相应的图像缓冲区和文本子目标被保存为多模态经验到池中。最后，我们将环境信息、智能体初始状态和知识引导规划器生成的计划进一步纳入池中，形成AMEP。通过这种方式，我们考虑了每个子目标的多模态信息，并最终总结为给定任务的多模态经验。

图3：Optimus-1的总体框架。Optimus-1由知识引导规划器、经验驱动反射器、行动控制器和混合多模态记忆架构组成。给定任务“制作石剑”，Optimus-1将HDKG中的知识融入知识引导规划，然后行动控制器生成低级行动。经验驱动反射器定期激活，从AMEP中引入多模态经验，以确定当前任务是否能成功执行。如果不能，它将要求知识引导规划器改进计划

2.1.2 分层有向知识图

在Minecraft中，采矿和制作代表了复杂的知识网络，对有效任务规划至关重要。例如，制作钻石剑需要两个钻石和一个木棍，而采矿钻石需要铁镐，涉及进一步的材料和步骤。这种知识对于智能体执行长时复杂任务的能力至关重要。我们提出了HDKG，将知识转化为图表示，使智能体能够通过从知识图中检索信息进行显式学习，而不是通过微调进行隐式学习。

然后通过拓扑排序，我们可以获得完成任务所需的所有材料及其关系。这些知识作为生成更合理子目标序列的方式提供给知识引导规划器。通过HDKG，我们可以在无需训练的情况下显著增强智能体的世界知识。

Optimus-1：框架

相关研究表明，人类大脑对规划和反思至关重要，而小脑控制低级行动，两者对复杂任务都至关重要。受此启发，我们将Optimus-1的结构分为知识引导规划器、经验驱动反射器和行动控制器。在给定的具有长时任务的游戏环境中，知识引导规划器感知环境，从HDKG中检索知识，并将任务分解为可执行的子目标。行动控制器然后依次执行这些子目标。在执行过程中，经验驱动反射器定期激活，利用AMEP中的历史经验评估Optimus-1是否能完成当前子目标。如果不能，它指示知识引导规划器修订计划。通过与环境的迭代交互，Optimus-1最终完成任务。

知识引导规划器。开放世界环境差异很大，影响任务执行。以前使用LLMs进行任务规划的方法未能考虑环境，导致任务失败。例如，在洞穴中的智能体目标捕鱼。它缺乏视觉信息来规划当前情况的条件，如“离开洞穴并找到河流”。因此，我们将环境信息融入规划阶段。与Jarvis-1和MPS将观察转换为文本描述不同，Optimus-1直接将观察作为视觉条件生成与环境相关的计划，即子目标序列。这导致更全面和合理的规划。更重要的是，知识引导规划器从HDKG中检索完成任务所需的知识，允许任务规划一次性完成，而不是在每次迭代中生成下一步。给定任务t和观察o，子目标序列g1,g2,g3,...,gn可以表示为：

行动控制器。它将子目标和当前观察作为输入，然后生成低级行动，即鼠标和键盘的控制信号。因此，它可以与游戏环境交互以更新智能体状态和观察。公式如下：

经验驱动反射器。知识引导规划器生成的子目标是相互依赖的。任何子目标的失败都会停止后续子目标的执行，导致整体任务失败。因此，反射模块对于及时识别和纠正错误至关重要。在任务执行过程中，经验驱动反射器定期激活，从AMEP中检索历史经验，然后分析Optimus-1的当前状态。Optimus-1的反射结果分为完成、继续或重新规划。完成表示成功执行，提示行动控制器继续下一个子目标。继续表示未完成但智能体状态良好，有高概率完成任务。重新规划表示失败，需要知识引导规划器修订计划。反射r由经验驱动反射器生成可以表示为：

在任务执行过程中，即使在任务失败需要重新规划的情况下，多模态经验也会存储在AMEP中。因此，在反思阶段，Optimus-1可以从AMEP中检索最相关的案例，这些案例包含完成、继续和重新规划三种场景，作为参考。第3.3节的实验结果证明了这种将失败案例纳入上下文学习的创新方法的有效性。

混合多模态记忆的非参数学习

为了实现混合多模态记忆并增强Optimus-1的能力，我们提出了一种名为“自由探索-教师指导”的非参数学习方法。在自由探索阶段，Optimus-1的装备和任务随机初始化，并在随机环境中探索，通过环境反馈获取世界知识。例如，它学习到“石头剑可以用木棍和两块鹅卵石制作”，并将此存储在HDKG中。此外，成功和失败案例存储在AMEP中，为反思阶段提供参考经验。我们初始化多个Optimus-1，它们共享相同的HDKG和AMEP。因此，记忆高效填充。自由探索后，Optimus-1具备基本的世界知识和多模态经验。在教师指导阶段，Optimus-1需要基于额外知识学习少量长时任务。例如，它从教师那里学习到“钻石剑由木棍和两个钻石制成”，然后执行任务“制作钻石剑”。在教师指导阶段，Optimus-1的记忆进一步扩展，并获得了执行完整长时任务的经验。

与微调不同，这种方法在不更新参数的情况下逐步增强Optimus-1，以自进化的方式进行。从空的混合多模态记忆开始，Optimus-1在“自由探索-教师指导”学习和未见任务推理之间迭代。每次迭代，其记忆容量增长，从简单到复杂的任务逐步掌握。

表1：Optimus-1在长时任务基准测试中的主要结果。我们报告了每个任务组的平均成功率（SR）、平均步数（AS）和平均时间（AT），每个任务的结果可以在附录F中找到。AS和AT指标越低，表示智能体完成任务的效率越高，而+∞表示智能体无法完成任务。Overall表示铁、金、钻石、红石和盔甲五个组的平均结果

3 实验

实验设置

环境。为了确保像人类玩家一样的真实游戏体验，我们使用MineRL和Minecraft 1.16.5作为模拟环境。智能体以每秒20帧的固定速度运行，仅通过鼠标和键盘的低级行动控制信号与环境交互。有关观察和行动空间的详细描述，请参见附录B。

基准测试。我们构建了一个包含67个任务的基准测试，以评估Optimus-1完成长时任务的能力。如表5所示，根据Minecraft中的推荐类别，我们将67个Minecraft任务分为7组。请参见附录D了解更多详情。

表2：消融研究结果。我们报告了每个任务组的平均成功率（SR）。P.、R.、K.、E.分别代表规划、反思、知识和经验

表3：AMEP的消融研究。我们报告了每个任务组的平均成功率（SR）。Zero、Suc.和Fail.分别代表从AMEP中检索时不获取案例、获取成功案例和获取失败案例

图4：反射机制的作用说明。在没有反射机制的帮助下，STEVE-1 [25]经常陷入困境并无法完成任务。而Optimus-1在经验驱动反射器的帮助下，利用AMEP检索相关经验，反思当前情况并纠正错误。这提高了Optimus-1在长时任务中的成功率

基线。我们将Optimus-1与各种智能体进行比较，包括GPT-3.5、GPT-4V、DEPS和Jarvis-1，在具有挑战性的长时任务基准测试中。此外，我们雇佣了10名志愿者在基准测试中执行相同的任务，他们的平均表现作为人类水平基线。请参见附录D.2了解更多关于人类水平基线的详情。为了更全面的比较，我们还在附录F.2中报告了Optimus-1在Voyager、MPS和DEPS使用的基准测试中的表现。请注意，我们初始化Optimus-1时库存为空，而DEPS和Jarvis-1初始状态中有工具。这使得Optimus-1执行相同任务更具挑战性。

图5：(a) 在混合多模态记忆的帮助下，各种基于MLLM的Optimus-1展示了2到6倍的性能提升。(b) 展示了Optimus-1在4个周期内未见任务成功率的变化

评估指标。智能体始终以生存模式开始，库存为空。我们对每个任务至少进行30次测试，使用不同的世界种子，并报告平均成功率，以确保公平和彻底的评估。此外，我们将完成任务的平均步数和平均时间作为评估指标。

4 相关工作

Minecraft中的智能体

我们在附录D.3中总结了现有Minecraft智能体的差异。早期工作引入了策略模型，使智能体能够执行简单的任务。MineCLIP使用文本-视频数据训练对比视频-语言模型作为奖励模型，而VPT预训练未标记视频但缺乏指令输入。基于VPT和MineCLIP，STEVE-1添加了文本输入，从人类指令和图像生成低级行动序列。然而，这些智能体由于指令理解和规划的限制，难以完成复杂任务。最近的工作将LLMs作为规划和反射模块，但缺乏视觉信息集成以进行适应性规划。MPS、MineDreamer和Jarvis-1通过获取视觉信息的文本描述增强了情境感知规划，但缺乏详细的视觉数据。Optimus-1通过在规划阶段直接使用观察作为情境感知条件，实现了更合理、视觉化的规划。此外，与需要多次查询进行任务细化的其他智能体不同，Optimus-1在HDKG的帮助下一次性生成完整有效的计划，使Optimus-1的规划更高效。

智能体中的记忆

在智能体-环境交互过程中，记忆对于实现经验积累、环境探索和知识抽象至关重要。LLM基智能体中表示记忆内容有两种形式：文本形式和参数形式。在文本形式中，信息通过自然语言显式保留和回忆。在参数形式中，记忆信息编码为参数，隐式影响智能体的行为。最近的工作探索了MLLM中的长期视觉信息存储和总结。我们提出的混合多模态记忆模块即插即用，可以高效地为Optimus-1提供世界知识和多模态经验。

5 结论

本文提出了混合多模态记忆模块，包括HDKG和AMEP。HDKG为智能体的规划阶段提供必要的世界知识，AMEP为智能体的反思阶段提供精炼的历史经验。基于混合多模态记忆，我们在Minecraft中构建了多模态可组合智能体Optimus-1。大量实验结果表明，Optimus-1在长时任务中优于所有现有智能体。此外，我们验证了通用MLLMs基于混合多模态记忆且无需额外参数更新，可以超过强大的GPT-4V基线。大量实验结果表明，Optimus-1在实现具有人类水平性能的通用智能体方面迈出了重要一步。

6 局限性和未来工作

在Optimus-1的框架中，我们致力于利用提出的分层有向知识图和抽象多模态经验池来增强智能体的规划和反思能力。对于行动控制器，我们直接引入了STEVE-1作为低级行动生成器。然而，受限于STEVE-1遵循指令和执行复杂行动的能力，Optimus-1在完成“击败末影龙”和“建造房屋”等挑战性任务时表现较弱。因此，未来的研究方向是增强行动控制器的指令跟随和行动生成能力。

此外，包括Optimus-1在内的大多数工作都使用多模态大语言模型进行规划和反思，然后驱动行动控制器执行任务。构建端到端的视觉-语言-行动智能体将是未来的工作。

7 致谢

本研究得到了国家自然科学基金（批准号：62236003和6230690）、深圳市高校稳定支持计划（批准号：GXWD20220817144428005）、广东省自然科学基金（批准号：2024A1515010147）和鹏城实验室重大关键项目（批准号：PCL2023A08）的支持。

附录

Minecraft

Minecraft是由Mojang Studios开发的极其流行的沙盒视频游戏。它允许玩家探索一个由方块组成的、程序生成的3D世界，发现和提取原材料，制作工具和物品，并建造结构或土木工程。Minecraft是一个有价值且具有代表性的环境，用于评估长时任务，与其他环境相比，它提供了更大的多样性和复杂性。与网页/应用导航和具身操作不同，Minecraft是一个具有复杂和动态环境的开放世界（79个生物群系，包括海洋、平原、森林、沙漠等）。为了完成长时任务，智能体必须实现多个子目标（例如，制作钻石剑需要15个子目标），使得构建Minecraft智能体颇具挑战性。许多研究选择Minecraft作为验证长时任务性能的环境。大量实验结果表明，Optimus-1优于所有基线。因此，我们选择Minecraft作为开放世界环境来评估智能体执行长时任务的能力。

基本规则

生物群系。Minecraft世界分为不同的区域，称为“生物群系”。不同的生物群系包含不同的方块和植物，并改变地形形状。Minecraft 1.16.5中有79个生物群系，包括海洋、平原、森林、沙漠等。多样化的环境对智能体的泛化能力提出了高要求。

时间。游戏中的时间流逝，一天持续20个现实世界分钟。夜间比白天危险得多：游戏从黎明开始，智能体有10分钟的游戏时间，直到夜幕降临。敌对或中立的生物在夜间生成，大多数这些生物是危险的，试图攻击智能体。如何在如此危险的世界中生存是Minecraft智能体研究的一个开放问题。

物品。在Minecraft 1.16.5中，可以获得975种物品，如木镐、铁剑。物品可以通过制作或破坏方块或攻击实体获得。例如，智能体可以攻击牛以获得皮革和牛肉。智能体还可以使用1根木棍和2个钻石制作钻石剑。

游戏进度。进度主要涉及发现和利用各种材料和资源，每种材料和资源解锁新的能力和选项。例如，制作木镐使玩家能够开采石头，进而制作石镐和熔炉；这些反过来允许开采和熔炼铁矿石。随后，铁镐允许提取钻石，钻石镐可以开采游戏中的任何方块。同样，种植不同的作物允许繁殖各种动物，每种动物提供超越基本生存的独特资源。敌对生物掉落物也有特定的应用，其中一些比其他更有益。通过整合采矿、耕作和繁殖的资源，玩家可以附魔他们的装备。材料的收集和制作也促进了建筑，使玩家能够建造多样化的结构。除了安全基地和农场等实用考虑外，建造个性化结构构成了Minecraft体验的重要部分。

自由度。在Minecraft中，玩家可以做任何他们能想象的事情。玩家可以制作工具，熔炼矿石，酿造药水，与村民和流浪商人交易，攻击生物，种植作物，在圈养中饲养动物等。玩家甚至可以使用红石建造计算机。这是一个充满自由和无限可能的世界。

更多挑战。在Minecraft中，钻石是一种非常稀有的物品，仅在2到16层生成，生成概率为0.0846%。钻石通常在9层附近或人工或自然矿井中生成，不超过16层。为了减少钻石生成概率对智能体完成任务可能性的巨大影响，我们将钻石生成概率调整为20%，生成在2到16层。此设置同样适用于人类玩家。

观察和行动空间

观察。我们的观察空间与人类玩家完全一致。智能体在游戏过程中仅接收尺寸为640×360的RGB图像，包括快捷栏、生命值指示器、食物饱和度和玩家手部动画。为了帮助智能体在极暗环境中更清晰地看到，我们为智能体添加了夜视效果，增加了夜间的环境亮度。

行动空间。我们的行动空间几乎与人类玩家相似，除了制作和熔炼行动。它由鼠标和键盘两部分组成。按键负责控制智能体的移动，如跳跃、前进、后退等。鼠标移动负责控制智能体的视角和打开GUI时的光标移动。鼠标的左右按钮负责攻击和使用或放置物品。在Minecraft中，精确的鼠标移动在完成需要打开库存或制作台的复杂任务时非常重要。为了与MineDojo的行动空间一致，我们将制作和熔炼行动抽象为行动空间。详细的行动空间描述如表4所示。

长时任务

长时任务是复杂的任务，需要世界知识来解决，并由多个不可或缺的子任务序列组成。在Minecraft中，技术有六个级别，包括木制、石制、铁制、金制、钻石和下界合金。木制工具可以开采石制级别的方块，但不能开采铁制及以上级别的方块。石制工具可以开采铁制级别的方块，但不能开采钻石及以上级别的方块。铁制工具可以开采钻石级别的方块，但不能开采下界合金级别的方块。钻石级别的工具可以开采任何级别的方块。

例如，智能体现在想要完成任务“制作铁剑”。智能体需要制作木制工具来开采石头，并制作石制工具来开采铁矿石。为了制作工具，智能体需要制作台，熔炼铁矿石需要熔炉。此外，制作制作台需要4块木板，制作熔炉需要8块鹅卵石。总之，智能体需要获得许多原材料、木制和石制工具、1个制作台、1个熔炉，最重要的是，2个铁锭。这个任务的过程如图7所示。

附录C 理论

在本节中，我们简要介绍认知科学的相关理论。更多详情请参阅原文。

我们理解和预测周围世界的能力依赖于长期记忆存储，这些存储历史上分为两个不同的系统。语义记忆系统提供了一个概念框架，用于描述在不同上下文中遇到的单词和对象的相似含义（例如，蜜蜂是一种带有黄色和黑色条纹的飞行昆虫，生产蜂蜜），而情景记忆系统记录了我们在不同时间和地点的个人经历，这些经历以单词和对象的共现为特征（例如，上周末在野餐时被蜜蜂蜇伤）。这些信息存储及其之间的交互在指导我们的行为和使我们能够灵活适应环境的各种需求方面起着至关重要的作用。

在本文中，受上述理论的启发，我们将智能体记忆模块分为知识和经验两部分。基于此，我们提出了分层有向知识图和抽象多模态经验池，使智能体在任务执行过程中获取、存储和利用知识和经验。大量实验结果证明了所提出方法的有效性。

基准测试

我们构建了一个包含67个任务的基准测试，以评估Optimus-1在Minecraft中完成长时任务的能力。根据Minecraft中的推荐类别，我们将67个Minecraft任务分为7组：木制、石制、铁制、金制、钻石、红石和盔甲。基准测试的统计数据如表5所示。由于这些任务的复杂性不同，我们对每个任务采用不同的最大游戏步数（Max. Steps）。最大步数由人类玩家完成任务所需的平均步数决定。由于Minecraft的随机性，智能体的世界和初始出生点可能会有很大差异。在我们的基准测试设置中，我们初始化智能体时库存为空，这使得智能体必须完成一系列子目标（采矿材料，制作工具）才能执行任何任务。这使得每个任务对人类玩家来说都具有挑战性。

请注意，钻石是一种非常稀有的物品，仅在2到16层生成，生成概率为0.0846%。钻石通常在9层附近或人工或自然矿井中生成，不超过16层。为了减少钻石生成概率对智能体完成任务可能性的巨大影响，我们将钻石生成概率调整为20%，生成在2到16层。此设置同样适用于人类玩家。

在消融研究中，我们选择基准测试的子集作为测试集（如表6所示）。环境设置与基准测试相同。

基线

现有基线。一方面，我们使用GPT-3.5和GPT-4V作为基线，这些基线未集成混合多模态记忆模块。在规划阶段，它们根据任务提示（和观察）生成行动控制器的计划。在反思阶段，它们以零样本方式生成反思结果。另一方面，我们比较了Minecraft中的现有SOTA智能体。

人类水平基线。为了更好地展示智能体在Minecraft中的表现水平，我们雇佣了10名志愿者作为人类水平基线。志愿者在相同的环境和设置下玩游戏，并要求每个志愿者在基准测试中执行每个任务10次。最终，我们使用10名志愿者的平均分数作为人类水平基线。人类水平基线的结果如表1所示。为了确保实验的有效性，我们确保每个志愿者在进行实验前至少有20小时的Minecraft游戏经验。每个志愿者我们支付25美元作为奖励。

Minecraft智能体

在本节中，我们总结了现有Minecraft智能体的差异。如表7所示，早期工作构建了基于Transformer的策略网络作为智能体。最近的工作引入了多模态大语言模型，通过利用LLM强大的语言理解和规划能力，使智能体能够完成长时任务。

在Mineflayer和Minedojo环境中，智能体可以通过调用API（以代码形式）完成子目标，这与人类的行为模式不同。在MineRL中，智能体必须生成低级行动来执行任务，这更具挑战性，难以完成长时任务。

此外，现有智能体缺乏知识和经验，其性能在Minecraft中仍与人类水平有很大差距。本文中，我们引入了混合多模态记忆，使Optimus-1具备分层知识和多模态经验。这使得Optimus-1在具有挑战性的长时任务基准测试中显著优于所有现有智能体，并在许多任务中表现出接近人类水平的表现。

实现细节

混合多模态记忆

抽象多模态经验池。相关研究证明了记忆对智能体完成长时任务的重要性。Minedojo和Voyager仅考虑了历史信息的单模态存储。Jarvis-1考虑了一种多模态记忆机制，将任务规划和视觉信息作为经验存储，但存储所有历史信息而未进行总结。这种方法存储所有视觉图像，对存储容量和检索效率提出了巨大挑战。为解决这一问题，我们提出了抽象多模态经验池结构，总结智能体任务执行过程中的所有历史信息，保持长时数据的完整性，并大大提高了经验的存储和检索效率。

如图2所示，我们首先将视觉图像流输入视频缓冲区，以固定频率过滤图像流。这使得图像流的长度大大缩短。根据经验，我们将过滤频率设置为1秒/帧，这意味着视频缓冲区从原始图像流中每秒取一帧以组成过滤后的图像流。我们发现，高于此频率会使视觉信息冗余（图像之间的相似度过高），低于此频率则无法保留足够的完整视觉信息。

然后，我们将过滤后的帧输入图像缓冲区，窗口大小为16。我们动态计算图像缓冲区中图像之间的相似性，当新图像进入时，我们计算新图像与最近图像之间的相似性，然后移除相似性最高的图像，以保持图像缓冲区的窗口大小为16。

随后，我们引入MineCLIP，一个结构类似于CLIP的预训练视频-文本对齐模型，作为我们的视觉总结器。对于给定的子目标，它计算当前记忆库中的视觉内容与子目标之间的相关性，当这种相关性超过预设阈值时，记忆库中的帧被保存为该子目标的视觉记忆。最后，我们将视觉记忆与子目标的文本描述存储到抽象多模态经验池中。此外，我们将环境信息、智能体初始状态、知识引导规划器生成的计划等进一步纳入给定任务的经验记忆中。通过这种方式，我们考虑了每个子目标的历史信息，并最终总结为给定任务的多模态经验。

请注意，当反思阶段的反馈为重新规划时，我们还将这些视觉记忆存储为失败案例。因此，在执行长时任务时，Optimus-1可以检索过去成功和失败的案例作为参考，并在任务完成后更新记忆。在反思阶段，Optimus-1从抽象多模态经验池中检索最相关的案例，这些案例包含完成、继续和重新规划三种场景，以帮助智能体更好地评估当前情况属于哪种状态。这种将成功和失败案例纳入上下文学习的创新方法受相关研究的启发，并在第3.3节中验证了其有效性。

分层有向知识图。如图2所示，制作钻石剑需要两个钻石和一个木棍，而采矿钻石需要铁镐，涉及进一步的材料和步骤。我们将这种采矿和制作知识转化为图结构，其中图的节点是对象，节点指向该对象可以制作的对象。通过有向图，我们建立了对象之间的连接，并高效地存储和更新知识。对于给定对象，我们只需检索相应的节点即可从知识图中提取相应的子图。然后通过拓扑排序，我们可以获得对象的前置条件和所需材料，并将这些信息作为生成更合理子目标序列的方式提供给知识引导规划器。通过分层有向知识图，我们可以在无需训练的情况下显著增强智能体的世界知识，如第3.3节的实验结果所示。

我们的HDKG可以高效地更新和扩展。当添加新节点时，HDKG可以通过简单地将节点和关系合并到图中来更新。这种方法涉及对图的局部线性修改，而不是改变整个图，使得过程高效且省时。例如，当添加M个新节点和N条边时，HDKG可以通过M+N次操作进行更新。此外，包含851个对象（节点）的HDKG需要不到1MB的内存。因此，HDKG可以高效地更新和维护。

混合多模态记忆驱动的Optimus-1

为了实现提出的混合多模态记忆并逐步增加Optimus-1的能力，我们提出了一种名为“自由探索-教师指导”的非参数学习方法。

在自由探索阶段，我们随机初始化环境和材料及任务。对于任务“制作木镐”，我们提供初始材料（三块木板，两根木棍），然后Optimus-1（仅激活行动控制器）尝试完成任务。如果环境反馈表明任务成功，知识{3块木板，2根木棍→木镐}被添加到HDKG中。请注意，我们随机初始化材料及其数量，这意味着任务可能并不总是成功。因此，每次自由探索可能不会获取相应的知识，但可以记录相关经验（无论成功或失败）。在自由探索阶段，Optimus-1学习简单的原子操作，如在木制组中制作木棍和在钻石组中采矿钻石。

在教师指导阶段，Optimus-1需要基于额外知识学习少量长时任务。例如，在自由探索阶段，Optimus-1掌握了制作木棍和采矿钻石，但不知道“钻石剑由木棍和两个钻石制成”。因此，我们提供一些任务计划，作为额外知识指导Optimus-1完成任务“制作钻石剑”。我们构建了以下自动化过程以获取“自由探索”所需的任务计划：

我们为每个组（共7组）随机选择5个任务，这些任务不包括在基准测试中。
对于每个选定的任务，我们使用脚本从Minecraft Wiki自动获取制作关系。以任务“制作木剑”为例，我们使用脚本自动获取制作关系：1根木棍，2块木板，1个制作台→1把木剑，1块原木→4块木板，2块木板→4根木棍，4块木板→1个制作台。
这些关系通过自动化脚本转换为有向无环图。通过拓扑排序，图可以转换为材料及其数量的元组：（木剑，1），（制作台，1），（木棍，1）（木板，8），（原木，2）。
我们提示GPT-4从基本材料到高级材料按顺序构建计划。
最后，我们得到计划：1. 获取两块原木 2. 制作八块木板 3. 制作一个制作台 4. 制作一根木棍 5. 制作一把木剑

在教师指导阶段，Optimus-1的记忆进一步扩展，并获得了执行完整长时任务的经验。教师指导阶段允许Optimus-1通过完整长时任务获取高级知识和学习多模态经验。

Optimus-1的骨干

Optimus-1由知识引导规划器、经验驱动反射器和行动控制器组成。本文中，我们使用OpenAI的GPT-4V（gpt-4-turbo）作为知识引导规划器和经验驱动反射器，使用STEVE-1作为行动控制器。我们还使用开源模型如Deepseek-VL和InternLM-XComposer2-VL作为知识引导规划器和经验驱动反射器。

所有实验在4x NVIDIA A100 GPU上实现。我们使用多个Optimus-1同时执行不同任务，这种并行推理大大提高了我们的实验效率。在自由探索和教师指导阶段，无需访问OpenAI的API，学习过程在4x A100 80G GPU上大约需要16小时。在推理阶段，在4x A100 80G GPU上大约需要20小时。

在整个实验过程中，我们花费了约5000美元访问GPT-4V API。然而，我们也提供了更具成本效益的解决方案。如图5所示，如果我们使用Deepseek-VL或InternLM-XComposer2-VL作为Optimus-1的骨干，我们可以以低成本获得可比性能！

Optimus-1的提示

我们展示了经验驱动反射器和行动控制器的提示模板如下。

系统：你是一位Minecraft游戏专家，可以指导智能体完成复杂任务。用户：对于给定的游戏屏幕和任务，你需要完成<目标推理>和<视觉推理>。<目标推理>：根据任务，你需要推断完成任务所需的武器、装备或材料。<视觉推理>：根据游戏屏幕，你需要推断以下方面：生命值条、食物条、快捷栏、环境。我将给你一个示例：[示例] <任务>：制作一把石剑。<目标推理>：石剑 <视觉推理> 生命值条：满食物条：满快捷栏：空环境：森林这是一个游戏屏幕和任务，你必须以示例格式输出。<任务>：{任务}。<游戏屏幕>：{图像} 助手：============================= 用户：现在你需要借助<视觉信息>和<制作图>制定计划。<视觉信息>：包括以下方面：生命值条、食物条、快捷栏、环境。基于当前视觉信息，你需要考虑是否需要前置步骤以确保智能体能够完成任务。<制作图>：一个自上而下的列表，列出完成任务所需的所有工具和材料。我将给你一个在特定视觉条件下规划的示例：[示例] {示例} 这是一个游戏屏幕和任务，你必须以示例格式输出。记住<任务规划>必须以示例格式输出。<任务>：{任务} <游戏屏幕>：{图像} <制作图>：{图} 助手：```

系统：你是一位Minecraft游戏专家，可以指导智能体完成复杂任务。智能体正在执行任务：{任务}。给定两张关于智能体执行任务前后的状态图像，你应该首先检测智能体所在的环境（森林、洞穴、海洋等），然后确定智能体的当前情况是完成、继续还是重新规划。<完成>：比较执行任务前的图像，当前图像显示任务已完成。<继续>：当前图像显示任务未完成，但智能体状态良好（健康良好，不饥饿），有高概率完成任务。<重新规划>：当前图像显示任务未完成，智能体状态不佳（健康差或饥饿）或情况不佳（处于危险或困境中），需要重新规划。对于重新规划，你需要进一步确定智能体的困境是“掉落”还是“在水中”。“掉落”意味着智能体掉入洞穴或被困在山或河中，而“在水中”意味着智能体在海洋中，需要立即返回陆地。用户：我将给你一些示例来说明不同情况。每个示例由两张图像组成，第一张图像是执行任务前的智能体状态，第二张图像是智能体的当前状态。[示例] <完成>：{图像1}，{图像2} <继续>：{图像1}，{图像2} <重新规划>：{图像1}，{图像2} 现在给定两张关于智能体执行任务前后的状态图像，你必须且仅以以下格式输出：环境：<环境> 情况：<情况>（如果情况是重新规划）困境：<困境> ```

附加实验结果

我们基准测试的完整结果

我们在基准测试中列出了每个任务的结果，详细信息包括任务名称、子目标数量、成功率（SR）、平均步数（AS）、平均时间（AT）和评估次数。所有任务在Minecraft 1.16.5生存模式下进行评估。请注意，每次Optimus-1执行任务时，我们初始化其库存为空，并随机初始化出生点。这使得Optimus-1执行每个任务都具有挑战性。

此外，在MineRL环境中，“步数”指的是智能体与环境交互的次数，每秒发生20次。例如，如果智能体花费2秒完成任务“砍树”，它与环境交互40次，记录的步数为40。实验结果显示，Optimus-1的平均任务完成步数（AS）显著低于其他基线。

其他基准测试的结果

为了与当前Minecraft智能体进行更全面的比较，我们还在Voyager、MPS和DEPS使用的基准测试中报告了Optimus-1的表现。由于环境和设置的不同，智能体执行任务的难度各不相同。例如，Optimus-1在MineRL环境中通过低级行动执行任何任务，并且我们初始化其库存为空。而Voyager在Mineflayer环境中仅通过封装代码执行任务，MPS在MineDOJO环境中只需特定的控制信号即可制作工具，无需低级行动（鼠标移动和点击）。

Optimus-1在这些基线中完成任务的成功率如表15和表16所示，Optimus-1在Minecraft中解锁技术树的效率如图8所示。这些结果揭示了Optimus-1在具有挑战性的环境设置中优于各种强大的基线智能体！

案例研究

本节介绍几个案例，全面展示Optimus-1的能力。

图9、10和11展示了我们反射机制的优越性，它根据当前游戏进度动态调整计划。

图9展示了Optimus-1的重新规划能力。当Optimus-1意识到无法完成任务（如图中所示的制作失败）时，它将重新规划当前任务并继续执行。
图10和11展示了Optimus-1根据视觉信号做出判断的能力。当Optimus-1确定已完成任务（如图10中的“杀死一头牛”）时，它将完成当前任务并继续下一个任务。如果Optimus-1发现尚未完成任务且任务未失败（如图11所示），它将继续执行任务。

图12和13说明了基于知识的规划的优势。通过分层有向知识图，我们可以一次性生成高质量的计划，并根据当前视觉信号动态调整计划。

图12展示了知识的重要性。对于“采矿1个钻石”这样的长时任务，Optimus-1首先基于分层有向知识图生成计划。然而，该计划需要根据当前视觉信号进行调整。例如，在本图中，Optimus-1出现在洞穴中，因此首要任务不是“砍树”，而是“离开洞穴”。只有在离开洞穴后，Optimus-1才能继续初始计划。
图13展示了我们方法的高效性。像MPS和Voyager这样的智能体使用迭代规划策略生成计划，这非常耗时，使智能体处于危险之中。如图13所示，一个僵尸正在缓慢接近智能体，但智能体仍在迭代其计划。Optimus-1则基于知识图一次性生成计划，并根据当前视觉信号做出合理计划。