论文阅读笔记——EnerVerse: Envisioning Embodied Future Space for Robotics Manipulation-CSDN博客

本文链接：https://blog.csdn.net/Multiple_x/article/details/145997933

官网：EnerVerse 官网
论文：EnerVerse 论文 —— arxiv

通过自回归扩散模型（autoregressive diffusion），EnerVerse 在生成未来具身空间的同时，能够有效引导机器人完成复杂任务。与现有方法简单应用视频生成模型不同，EnerVerse 深度结合具身任务的需求，创新性地引入了稀疏记忆机制（Sparse Memory）和自由锚点视角（Free Anchor View, FAV）。这些创新不仅显著提升了 4D 生成能力，还实现了动作规划性能的重大突破。

在这里插入图片描述

Initial Reconstruction：使用安装在机器人上的摄像头的观察图像来构建初始 3D 点云，并根据环境和任务专属的需求设置 anchor views。
Free Anchor View Renders：从这些设定的 anchor views 对场景进行渲染，输出多个图像，得到更全面的场景表示。（增加 ray-direction map）
Chunkwise Autogressive Generation：根据任务指令，使用多视角视频生成 diffusion 以 chunks 形式（相比连续帧强调长时间序列以及因果推理）生成图像序列，结合噪声帧和参考帧，通过稀疏上下文记忆机制保留关键帧信息，确保生成的一致性和连续性。

Next-Chunk Diffusion Model

定义

观测帧为 $o_{1:K}^t = [o_t^1, o_t^2, \ldots, o_t^K] \in \mathbb{R}^{K \times H \times W \times C}$
渲染帧为 $r_{1:J}^t \in \mathbb{R}^{J \times H \times W \times C}$
预测帧为 $z_{1:M}^t = [z_t^1, z_t^2, \ldots, z_t^M] \in \mathbb{R}^{M \times H \times W \times C}$ 。

任务是基于观测帧 $o_{1:K}^t$ 和文本指令 $c$ ，预测未来的潜在帧 $z_{1:M}^t$ ，这一过程建模为条件概率 $p_\theta(z_{1:M}^t | c, o_{1:K}^t)$ 。
模型可定义为：
$\epsilon_\theta(z_{1:M}^t, c, o_{1:K}^t, t)$
损失函数为：
$\min_\theta \qquad \mathbb{E}_{t, z \sim z_{\text{data}}, \epsilon \sim \mathcal{N}(0, I)} \left\| \epsilon - \epsilon_\theta(z_{1:M}^t, c, o_{1:K}^t, t) \right\|_2^2$