论文阅读笔记——EnerVerse: Envisioning Embodied Future Space for Robotics Manipulation

官网:EnerVerse 官网
论文:EnerVerse 论文 —— arxiv

通过自回归扩散模型(autoregressive diffusion),EnerVerse 在生成未来具身空间的同时,能够有效引导机器人完成复杂任务。与现有方法简单应用视频生成模型不同,EnerVerse 深度结合具身任务的需求,创新性地引入了稀疏记忆机制(Sparse Memory)和自由锚点视角(Free Anchor View, FAV)。这些创新不仅显著提升了 4D 生成能力,还实现了动作规划性能的重大突破。

在这里插入图片描述
在这里插入图片描述

  • Initial Reconstruction:使用安装在机器人上的摄像头的观察图像来构建初始 3D 点云,并根据环境和任务专属的需求设置 anchor views。
  • Free Anchor View Renders:从这些设定的 anchor views 对场景进行渲染,输出多个图像,得到更全面的场景表示。(增加 ray-direction map)
  • Chunkwise Autogressive Generation:根据任务指令,使用多视角视频生成 diffusion 以 chunks 形式(相比连续帧强调长时间序列以及因果推理)生成图像序列,结合噪声帧和参考帧,通过稀疏上下文记忆机制保留关键帧信息,确保生成的一致性和连续性。

Next-Chunk Diffusion Model

定义

  • 观测帧为 o 1 : K t = [ o t 1 , o t 2 , … , o t K ] ∈ R K × H × W × C o_{1:K}^t = [o_t^1, o_t^2, \ldots, o_t^K] \in \mathbb{R}^{K \times H \times W \times C} o1:Kt=[ot1,ot2,,otK]RK×H×W×C
  • 渲染帧为 r 1 : J t ∈ R J × H × W × C r_{1:J}^t \in \mathbb{R}^{J \times H \times W \times C} r1:JtRJ×H×W×C
  • 预测帧为 z 1 : M t = [ z t 1 , z t 2 , … , z t M ] ∈ R M × H × W × C z_{1:M}^t = [z_t^1, z_t^2, \ldots, z_t^M] \in \mathbb{R}^{M \times H \times W \times C} z1:Mt=[zt1,zt2,,ztM]RM×H×W×C

任务是基于观测帧 o 1 : K t o_{1:K}^t o1:Kt 和文本指令 c c c ,预测未来的潜在帧 z 1 : M t z_{1:M}^t z1:Mt,这一过程建模为条件概率 p θ ( z 1 : M t ∣ c , o 1 : K t ) p_\theta(z_{1:M}^t | c, o_{1:K}^t) pθ(z1:Mtc,o1:Kt)
模型可定义为:
ϵ θ ( z 1 : M t , c , o 1 : K t , t ) \epsilon_\theta(z_{1:M}^t, c, o_{1:K}^t, t) ϵθ(z1:Mt,c,o1:Kt,t)
损失函数为:
min ⁡ θ E t , z ∼ z data , ϵ ∼ N ( 0 , I ) ∥ ϵ − ϵ θ ( z 1 : M t , c , o 1 : K t , t ) ∥ 2 2 \min_\theta \qquad \mathbb{E}_{t, z \sim z_{\text{data}}, \epsilon \sim \mathcal{N}(0, I)} \left\| \epsilon - \epsilon_\theta(z_{1:M}^t, c, o_{1:K}^t, t) \right\|_2^2 θminEt,zzdata,ϵN(0,I) ϵϵθ(z1:Mt,c,o1:Kt,t) 22

推理阶段,模型通过自回归方式逐步生成未来帧序列:

  • 从随机噪声 z T z^T zT​ 开始,通过迭代去噪生成第一个 chunk z 1 : M 0 z^0_{1:M} z1:M0
  • 将生成的 chunk 作为新的观测帧,输入模型以生成下一个 chunk。
  • 重复这一过程,直到生成完整的未来帧序列或检测到预定义的序列结束(End-of-Sequence, EOS)标志。

实验结果

在这里插入图片描述
可视化
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值