论文粗读系列-11:MineDreamer_imaginator论文讲解-CSDN博客

本文链接：https://blog.csdn.net/ileln/article/details/136854109

本文介绍了一种名为MineDreamer的智能体，它通过结合多模态大语言模型和扩散模型，使用Chain-of-Imagination机制在Minecraft环境中稳定执行复杂的指令。该方法通过分解和想象指令步骤，生成适应当前状态的视觉提示，显著提升指令跟随性能。

摘要由CSDN通过智能技术生成

论文粗读系列-11

MineDreamer： Learning to Follow Instructions via Chain-of-Imagination for Simulated-World Control

1.简介

arxiv [Submitted on 18 Mar 2024]

链接：[2403.12037] MineDreamer: Learning to Follow Instructions via Chain-of-Imagination for Simulated-World Control (arxiv.org)

代码：GitHub - Zhoues/MineDreamer: This repo is the official implementation of "MineDreamer: Learning to Follow Instructions via Chain-of-Imagination for Simulated-World Control "

设计一种能够以类似人类的方式执行各种指令的多面手智能体是一个长期的目标。然而，由于难以理解抽象和顺序的自然语言指令，现有的方法往往不能稳定地遵循指令。为此，我们介绍了MineDreamer，这是一个基于具有挑战性的Minecraft模拟器的开放式嵌入代理，具有创新的范例，增强了低级控制信号生成的指令跟随能力。具体来说，MineDreamer是基于多模态大型语言模型(MLLMs)和扩散模型的最新进展而开发的，作者采用了想象链(CoI)机制来设想执行指令的逐步过程，并将想象转化为适合当前状态的更精确的视觉提示;随后，智能体生成键盘和鼠标动作，以有效地实现这些想象，稳定地按照每一步的指示进行操作。大量实验表明，MineDreamer稳定地遵循单步和多步指令，显著优于最佳通才智能体基线，其性能几乎翻了一番。此外，对智能体想象能力的定性分析揭示了其对开放世界的概括和理解。

2.方法

许多文本指令对于低级控制来说是抽象的，模型很难有效地理解。应该将它们转换为更有效的提示，考虑如何根据当前状态执行指令。因此，简单的文本指令不能提供所需行为的精确演示。

许多文本指令是连续的，执行它们可能需要考虑当前状态并将任务分解为多个阶段以逐步完成。因此，由单一文本指令驱动的稳定动作生成经常会失败。

为了解决上述问题，本工作旨在探索如何为预训练的决策基础模型解锁情境感知推理能力。作者引入了一种简单而有效的机制，即想象链(Chain-of-Imagination, CoI)，它使智能体能够想象并根据指令一步一步地采取下一阶段的行动。作者的方法是由两个想法驱动的:

在解决复杂问题时，人类经常根据当前状态设想下一阶段的目标。如果我们可以根据当前状态将顺序指令分解成多个阶段，一步一步，我们可以使agent稳定地遵循指令。-
受提示调谐的启发，如果我们能够为每个想象步骤提供包含物理规则和环境理解的视觉提示，以最优地描述当前状态下的期望行为，这比任务指令更直观，更有效，我们可以更好地指导基础模型预测动作。

为此，作者在Minecraft中提出了MineDreamer，它根据文本指令和当前状态生成一系列“想象”的子步骤。然后将这些可视化子步骤输入到预训练的决策基础模型中，以生成旨在实现子步骤的低级控制动作。具体来说，MineDreamer包括三个模块:

一个Imaginator，一个由多模态大语言模型(Multimodal Large Language model, MLLM)增强的扩散模型，可以更好地生成包含物理规则和环境理解的想象。
作为Imaginator和PolicyNet之间的桥梁，Prompt Generator可以将未来的想象转化为潜在的视觉提示，从而提供对期望行为更合乎逻辑、更精确的演示。
基础模型PolicyNet可以使用潜空间提示作为指导，在开放世界环境中预测agent的行为。

值得注意的是，如图所示，MineDreamer通过Generator和PolicyNet之间的多轮交互，利用想象链机制，循环生成与当前状态更一致的潜在视觉提示，以指导PolicyNet在动作生成中稳定地遵循指令。该机制代表了在顺序决策领域实现“自多回合交互”的一种尝试。在开放世界环境中训练想象者设想下一步的图像需要大量的数据。作者采用Goal Drift Collection方法收集大量以自我为中心的具身数据，帮助想象器理解如何顺序实现指令以及如何重复实现指令。

在这里插入图片描述

MineDreamer与之前研究的比较。在“砍树”任务中，MineDreamer采用了想象链机制，它会根据当前状态一步一步地想象下一步要做什么。想象力包含对环境的理解和物理规则(例如，基于视角的尺寸变化)。这些可以作为更精确的视觉提示，稳定地引导智能体生成动作，在每一步都尽可能有效地实现这些想象。以前的方法看到了一棵树，但错过了砍倒它的机会。

在这里插入图片描述

想象链概述。想象者根据指示和当前观察来想象一个目标想象。考虑到指令和观察到的图像，提示生成器将其转换为精确的视觉提示。Visual Encoder对当前观察进行编码，将其与提示符集成，并将其输入到VPT中。然后VPT决定代理的下一个动作，导致一个新的观察，循环继续。注意，VPT的输入是历史观测值，因此该图不能完全表示自回归过程。

Imaginator是一个特定于Minecraft的参数有效微调扩散模型，利用了多模态大型语言模型(MLLM)的视觉推理能力。
提示生成器从当前观察、未来想象和指令中重建潜在的视觉提示。
PolicyNet是现有的视频预训练(Video Pretraining, VPT)[3]模型，在《我的世界》7万小时的游戏中进行了训练。

为什么要想象未来的目标?给定一个可以预测动作的预训练模型，直观的方法是输入当前状态和指令来直接指导它。那么未来的目标为什么要想象呢?在实践中，作者发现未来目标想象被证明对人类来说更具可解释性，简化了调试，并改善了交互和安全评估。

为什么我的梦想家可以更稳定地遵循指示?首先，MineDreamer采用想象链(chain of imagination, CoI)机制，通过自我多回合交互实现增量目标，使智能体能够对当前状态做出适当的响应。此外，在这种机制的帮助下，提示生成器生成逻辑潜在的视觉提示，提供所需行为的清晰演示，确保代理稳定地遵循指令。此外，增强后的Imaginator不仅能够理解开放式的视觉概念，使其能够想象出以前从未见过的新指令的图像，还能确保这些图像符合物理规则和环境理解，从而提高提示的精度。因此，MineDreamer可以在开放世界环境中稳定地遵循指令。

**想象链(CoI)**使代理能够设想迭代实现目标所需的步骤。如图所示，这是一个演示CoI如何工作的示例。首先，Imaginator接收用户的指令y和当前的观测值Ot，想象一个未来的图像It+1，描绘完成给定指令y过程中的一个时刻，这个时刻与当前的观测值Ot密切相关。接下来，Prompt Generator在当前观察Ot、指令y和未来想象It+1的感知中，逐步创建更精确的潜在视觉提示pt，与视频预训练(Video Pretraining, VPT)模型的视觉输入空间对齐。然后Visual Encoder将Ot处理成一个表示ft，与pt结合后馈入VPT。最后，VPT从观测历史中逐步预测一个动作(即键盘和鼠标)，与环境相互作用，收集一个新的观测值Ot+1，然后重复这个循环。

在这里插入图片描述

通过潜在想象力产生目标想象力。为了解决LLM的隐藏状态与CLIP文本编码器的特征空间之间的差异，我们必须将LLM的顺序目标标记转换为语义相关的表示，以指导目标想象的生成。受BLIP2和InstructBLIP的启发，作者使用了一个目标Q- former和几个可学习的梦想查询，来推导目标想象表示f*

为了增强用f *表示的目标想象来指导想象的生成，我们使用结合变分自编码器(VAE)的潜在扩散模型来进行潜在空间去噪扩散。我们的模型借鉴了InstructPix2Pix的潜在扩散方法，这是基于指令的图像编辑的基石，我们的模型通过编码器E将噪声引入到目标想象It+1的潜在编码z = E(It+1)中，产生跨时间步长s∈S的噪声潜在zs。U-Net 通过将co与zs合并，以当前观测值co = E(Ot)和文本指令cT为条件来估计该噪声。

为了将目标想象转化为PolicyNet能够理解的精确的潜在视觉提示，我们需要一个提示生成器作为想象器和PolicyNet之间的桥梁。受STEVE-1的启发，作者的提示生成器是一个在Goal Drift子集数据集上训练的条件变分自编码器(CVAE)模型。它对MineCLIP的当前观察、目标想象和指令进行编码，产生三个嵌入。然后，这些嵌入被重建为MineCLIP视觉空间中的潜在视觉嵌入，然后一个线性层将其投影到PolicyNet的视觉输入空间中。

在作者的PolicyNet中，作者利用了名为VPT的现有模型的架构和STEVE-1的训练参数。具体而言，如图所示，作者首先使用VPT的Visual Encoder(即ResNet)处理当前观测值，并获得表示ft。将其与Prompt Generator生成的潜在视觉提示pt相加后，将求和结果ot输入PolicyNet。PolicyNet的主干是Transformer-XL，它处理当前的输入表示，并自回归地预测下一个动作。我们可以描述这个过程，在这个过程中，提示生成器创建潜在的视觉提示pt, PolicyNet根据这些提示和历史观察结果，使用简单的符号来预测下一个动作。