ECCV-2024 | Minecraft中的视-听-思！STEVE：虚拟环境中的具身智能体-CSDN博客

本文链接：https://blog.csdn.net/weixin_37990186/article/details/145662260

作者：Zhonghan Zhao, Shengyu Hao, Wenhao Chai, Shidong Cao, Xuan Wang, Tian Ye, Boyi Li, and Gaoang Wang
单位：浙江大学，华盛顿大学，香港科技大学
标题：See and Think: Embodied Agent in Virtual Environment
原文链接：https://arxiv.org/pdf/2311.15209

论文提出了虚拟环境中的具身智能体框架STEVE，结合了视觉感知、语言指令和代码动作三个关键组件，能够在开放世界环境中实现智能行为和适应性。
STEVE在关键技术任务上表现出色，比之前的SOTA方法在解锁关键技术树方面快1.5倍，在块搜索任务中快2.3倍。
收集了数据集STEVE-21K，包括600多个视觉-环境对、20K个知识问答对和200多个技能-代码对，用于验证STEVE的有效性。
介绍了通过微调从Llama-2-7B/13B获得的一系列大模型（STEVE-7B/13B），这些模型专门针对Minecraft内容进行了优化，以增强其在特定领域的表现。

论文主要解决的问题是如何在虚拟环境中构建一个能够自主行动的多模态具身智能体。

具体来说，研究如何在Minecraft这样的开放世界中，利用大模型（LLMs）和视觉感知来提升智能体的智能行为和适应性。

多模态输入的整合：
- 在开放世界环境中，智能体需要处理来自多种模态（如视觉和文本）的输入。
- 传统的基于文本的交互方式在处理视觉信息时存在局限性，尤其是在需要精确和快速反应的场景中。
- 如何有效地整合视觉和语言信息，以实现对环境的全面理解和互动，是一个重要的研究难点。
自主性和自适应性：
- 设计能够自主驱动和自适应的智能体是一个挑战。
- 智能体需要在没有详尽指令的情况下，自行制定和实施策略和行动。
- 这要求智能体具备强大的推理和决策能力，以应对复杂多变的环境和任务。
复杂任务的执行：
- 在开放世界环境中，智能体需要执行各种复杂的任务，如制作工具、探索环境和解决问题。这些任务通常需要多层次的技能和策略。
- 如何将这些复杂的任务分解为可执行的步骤，并确保智能体能够有效地完成这些任务，是一个关键的研究难点。

STEVE是一个用于具身智能体的LLM多模态自主系统，它能够使用视觉状态和环境信息来管理和执行复杂的任务。

具体来说，STEVE通过将视觉感知、语言指令和代码动作结合起来，生成可执行的代码动作：

其中，是整个系统的函数，是视觉感知模块，是语言指令模块，是代码动作模块。

视觉感知部分包括一个视觉编码器和一个文本分词器，它们将视觉状态、智能体状态和任务转换为文本空间的token表示：

视觉token和文本token结合在一起，形成一个统一的token集，代表当前情境的上下文。

语言指令模块由四个独立的LLM智能体组成，分别是Planner、Critic、Curriculum和Describer，它们各自有不同的功能：

这些智能体通过迭代推理和分解过程，将复杂的策略分解为简单的低层次指南，以便直接映射到Minecraft中的动作。

代码动作部分是将计划和分解的指南转换为Minecraft环境中的具体动作的执行阶段。

这个过程利用一个专门的技能数据库，该数据库将代码片段与其描述和相关元数据配对，并编码为向量以实现高效检索。

通过查询编码和余弦相似度匹配，将低层次文本动作步骤转换为可执行的代码：

其中，是查询编码，是余弦相似度匹配。

为了减少训练开销，论文采用了两阶段训练方法：

训练过程中使用负对数似然目标来优化模型的预测能力：

其中，和分别指非视觉输入和目标token序列，表示模型参数，表示目标序列的长度。

STEVE-21K数据集包含三个主要部分：

视觉-环境对：
- 内容：包含600多对来自Minecraft游戏的第一人称视角视频，涵盖六种不同的地形（如森林、沙漠、沿海等）。每对视频都包括对应视野内的环境方块实体和上下文信息。
- 用途：这些数据对用于训练视觉编码器，帮助智能体理解和解释其周围的环境。视频记录了智能体在执行任务时的操作，以及环境和聊天流的信息。
知识问答对：
- 内容：包含20,000多个来自Minecraft Wiki和Reddit论坛的问题-答案对。这些问题和答案覆盖了六种数据类型，部分数据来自先前的研究。
- 用途：这些问答对用于训练语言指令模块，帮助智能体在Minecraft环境中进行推理和决策。问答对被组织成指令、输入和输出三元组，用于训练STEVE-13B模型。
技能-代码对：
- 内容：包含210个技能执行脚本及其描述，涵盖8种技能类型（如收集、制作、探索等）。代码部分由手动编写。
- 用途：这些技能-代码对用于代码动作模块，帮助智能体执行具体的任务。每个技能都有一个描述和相应的代码片段，存储在数据库中以供检索和使用。

视觉-环境对：使用STEVE-13B模型根据人类玩家定义的任务玩游戏，记录智能体操作的视频和环境信息，并使用Ray Tracing方法获取环境信息。同时记录和保存推理和分解阶段的聊天流。
知识问答对：从Minecraft Wiki和Reddit论坛获取信息，使用GPT-3.5清理数据为单轮问答对。LoRA用于微调过程中的资源分配。
技能-代码对：使用GPT-3.5结合人类玩家的代码来合成代码片段，并在游戏环境中检查和修订。

STEVE-21K数据集不仅用于训练STEVE模型，还用于验证其性能。通过这些数据，研究人员可以评估模型在视觉感知、语言理解和代码执行方面的能力，从而推动具身智能体在Minecraft环境中的进一步发展。

模型训练：训练STEVE-7B和STEVE-13B模型，这些模型是从LLaMA-2微调而来的，使用STEVE-21K数据集中的问答对进行预热训练，并使用成功运行的模拟上下文数据进行模拟训练。
超参数配置：在训练过程中，使用LoRA进行微调。温度设置除任务提议外均为0，任务提议的温度设置为0.9以鼓励任务多样性。视觉单元基于EfficientFormerV2-S0，训练在STEVE-21K数据集的视觉-环境部分上进行。
模拟环境：实验在MineDojo和Mineflayer的基础上构建模拟环境。