【论文笔记】GenEx——具身智能的想象式探索

本文链接：https://blog.csdn.net/Eternity__Aurora/article/details/146267889

在这里插入图片描述

原文摘要：在具身人工智能中，部分观察下的规划是一个核心挑战。大量先前的工作通过开发智能体来应对这一挑战，这些智能体通过物理探索其环境来更新它们对世界状态的信念。相比之下，人类可以通过心理探索来想象未见的世界部分，并通过想象的观察来修正他们的信念。这种更新后的信念可以使他们在不必始终进行物理探索的情况下做出更明智的决策。为了实现这种类似人类的能力，我们引入了生成式世界探索者（Genex），这是一个自我中心化的世界探索框架，允许智能体在心理上探索大规模的三维世界（例如，城市场景）并获取想象的观察来更新其信念。这种更新后的信念随后将帮助智能体在当前步骤中做出更明智的决策。为了训练Genex，我们创建了一个合成的城市场景数据集，Genex-DB。
我们的实验结果表明：
（1）Genex可以在大规模虚拟物理世界的长期探索过程中生成高质量和一致的观察
（2）通过生成的观察更新的信念可以为现有的决策模型（例如，一个LLM智能体）提供信息，以制定更好的计划。

一、核心要点

Genex 是一个能够从单张图像生成一个完全可探索的360° 3D世界，允许智能体通过对三维环境的动态生成与探索，模拟人类对世界的感知与理解，在其生成的想象引导下规划复杂具身世界探索的系统，这为智能体在复杂环境中的决策提供了新的视角。

二、研究背景与动机

在具身智能领域，智能体在部分可观测环境中进行规划和决策是一个核心挑战。传统方法通过物理探索来更新智能体对世界状态的信念，这种方式既费时又不安全。人类能够通过心理模拟来想象未被观察到的环境部分，并据此修正信念以做出更明智的决策。受此启发，研究者们提出了生成式世界探索者（Genex），旨在赋予智能体类似人类的想象能力，使其能够在无需物理移动的情况下，通过想象式探索来更新信念并优化决策。

三、主要贡献

Genex创新框架：Genex 是一种全新的框架，允许智能体在虚拟世界中进行想象式探索，生成高质量且连贯的观察，以更新其信念并做出更明智的决策。
视频生成与信念更新的结合：Genex 是首批将生成式视频引入部分可观测决策过程的方法之一，通过想象驱动的信念修正机制，显著提升了智能体的决策能力。
多智能体场景的应用：Genex 可以自然地扩展到多智能体场景，其中一个智能体可以想象性地探索其他智能体的位置，基于这些想象的观察来更新其信念，从而更好地理解和预测其他智能体的行为。

四、研究方法

1. 输入输出

输入: 是智能体当前的第一人称全景视图，以及探索方向和距离等探索配置。
输出: 生成的第一人称观察视频序列，这些视频序列用于更新智能体的信念。

2. 视频扩散模型

在这里插入图片描述

扩散模型通过逐步去噪来生成数据，确保生成的视频质量和连贯性。具体来说，给定初始全景图和相机位置，模型的目标是生成一系列与相机位置序列对应的图像。相机位置逐步向前移动，代表在世界中的导航。由于全景图表示360度视图，生成过程需要保持之前帧的信息，以维持整个序列的世界一致性。

3. 球面一致性学习（SCL）

为了确保生成的全景视频在球面空间上的连续性和一致性，避免边缘不一致的问题，提出了球面一致性学习方法。通过随机旋转相机位置，对生成的视频和真实视频进行变换，然后通过预训练的时序VAE编码器将变换后的视频映射到潜在空间，计算潜在空间的均方误差，以此作为损失函数的一部分，与原始的去噪预测损失结合，共同指导模型的训练。

$\mathcal{L} = \lambda \underbrace{\left\| \mathcal{E} \left( \mathcal{T} \left( \mathcal{D} \left( z_t - \epsilon_\theta \left( z_t, c \right) \right) \right) \right) - \mathcal{E} \left( \mathcal{T} \left( x_0 \right) \right) \right\|^2}_{\mathcal{L}_{\text{scl}}} + \underbrace{(1 - \lambda) \left\| \epsilon_\theta \left( z_t, c \right) - \epsilon_t \right\|^2}_{\mathcal{L}_{\text{noise}}}$

4. 想象驱动的信念修正

在正常的空间中，每个时间步 $t$ 下，智能体的世界状态， $s^t \in S$ ，和动作 $a^t \in A$ 通过转移概率 $T(s^{t+1} | s^t, a^t)$ 确定下一个世界状态。智能体根据观察模型 $O(o | s^t)$ 接收观察 $o^t \in \Omega$ 并维护一个信念 $b (s)$ ，并根据新观察结果更新，表现为如下公式：

$b^{t+M}(s^{t+M}) = \prod_{t}^{M} \left( \sum_{s^t} O(o^{t+1} | s^{t+1}, a^t) T(s^{t+1} | s^t, a^t) \right) b^t(s^t)$

而在想象空间中，将时间冻结，不考虑时间变量 $t$ 。在这个想象空间中，智能体可以在想象时间步 $I = \{1, ..., i, ..., n\}$ 上执行一系列想象动作 $\hat{a} = \{\hat{a}_i \in \hat{A}\}$ 。通过类似的奖励 $\hat{R}$ 鼓励智能体基于其初始信念和最终目标对未观察到的世界进行连续推测，并更新其信念，公式表示如下：
$\hat{b}^t(s^t) = \prod_{i}^{I} \left( p_{\theta}(\hat{o}^{i+1} | o^i, \hat{a}^i) \right) b^t(s^t)$

5. 多智能体场景的扩展

Genex模型可以简单推广到多智能体场景。核心智能体 $a_1^t$ 可以想象性地探索到第 $k (k > 1)$ 个智能体的位置，以预测智能体 $k$ 的观察 $\hat{o}_{k}$ 并推断智能体 $k$ 的信念 $\hat{b}_{k}$ 。最终，通过聚合其他 $K - 1$ 个智能体的想象信念对应物来调整自身的信念：
$a_1^t = \pi(b^K = \{b_1, ... b_K\}, g)$

五、案例分析

在这里插入图片描述

在这个多智能体场景中， $LL M A g e n t 1$ 在等待交通灯变绿，以便向前移动。前方道路清晰，但右侧有一辆快速行驶的汽车即将右转，同时前方有行人正在过马路。

自我中心单视图决策： $LL M A g e n t 1$ 仅根据当前观察到的信息做出决策，决定停在原地等待，因为交通灯是红色的。这没有考虑到其他智能体的视角和可能的交互。
带有想象性探索的决策：通过Genex， $LL M A g e n t 1$ 能够想象性地探索其他智能体（ $A g e n t 2$ 和 $A g e n t 3$ ）的视角。这种探索使得 $LL M A g e n t 1$ “看到”它原本看不到的情况，例如汽车和行人之间的视线被阻挡，可能会导致碰撞。因此， $LL M A g e n t 1$ 会更新决策制定，做出更明智的决策，警告双方（汽车和行人），以避免潜在的碰撞。

这显示了通过想象性探索获得的额外信息如何帮助智能体做出更安全、更有效的决策。

六、复现思路

数据准备：构建一个大规模的全景图像数据集，如Genex-DB，使用Blender等工具生成多种风格的场景。
模型搭建：搭建智能体模型，包括视频扩散模型、球面一致性学习模块以及大语言推理模型。
训练过程：使用数据集对模型进行训练，优化目标函数包括去噪预测损失和球面一致性学习损失。训练过程中，通过随机旋转相机位置来增强数据，提高模型的泛化能力。
评估与测试：通过想象探索循环一致性（IECC）等度量标准评估生成视频的连贯性和保真度。在具身推理决策任务中，评估模型的决策准确性、黄金行动置信度、逻辑合理性。

七、灵感与启发

Genex模型的研究成果可能用于以下的场景：

自动驾驶决策
Genex可以帮助自动驾驶车辆通过想象其他车辆的行为来做出更安全的驾驶决策，避免潜在的危险。
机器人导航
在未知或动态变化的环境中，Genex能够辅助机器人通过模拟可能的路径来优化导航策略，避免障碍物。

八、小结

Genex 作为一种创新的视频生成模型，允许具身智能体在3D环境中进行想象式探索并更新其信念，无需实际移动身体。通过球面一致性学习，Genex 在长距离探索中生成了高质量且连贯的视频。实验结果证明了 Genex 在生成质量和决策能力增强方面的有效性，为部分可观测环境中的智能体在复杂环境中的决策提供了新的视角。