智元机器人最新！EnerVerse：首个机器人4D世界模型来了！

最新推荐文章于 2025-04-29 11:09:30 发布

自动驾驶之心

最新推荐文章于 2025-04-29 11:09:30 发布

阅读量409

点赞数

文章标签：机器人

原文链接：https://mp.weixin.qq.com/s?__biz=Mzg2NzUxNTU1OA==&mid=2247649608&idx=3&sn=b49f281a0933a46ad429408e189feef8&chksm=cf4fab7ca6e44995ccc3cb0c51a09a8c58131b6f26096ed12bfc2f8c50ac909c519d5c8f6262&scene=126&sessionid=0

版权

编辑 | 智元机器人

点击下方卡片，关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

>>点击进入→自动驾驶之心『世界模型』技术交流群

本文只做学术分享，如有侵权，联系删文

EnerVerse 主要科研成员来自智元机器人研究院具身算法团队。论文共同一作黄思渊是上海交通大学与上海人工智能实验室的联培博士生，师从 CUHK-MMLab 的李鸿升教授。博士期间的研究课题为基于多模态大模型的具身智能以及高效智能体的研究。在 CoRL、MM、 IROS、ECCV 等顶级会议上，以第一作者或共同第一作者身份发表多篇论文。另一位共同一作陈立梁是智元机器人的具身算法专家，主要负责具身空间智能与世界模型的研究。

如何让机器人在任务指引和实时观测的基础上规划未来动作，一直是具身智能领域的核心科学问题。然而，这一目标的实现受两大关键挑战制约：

模态对齐：需要在语言、视觉和动作等多模态空间之间建立精确的对齐策略。
数据稀缺：缺乏大规模、多模态且带有动作标签的数据集。

针对上述难题，智元机器人团队提出了 EnerVerse 架构，通过自回归扩散模型（autoregressive diffusion），在生成未来具身空间的同时引导机器人完成复杂任务。不同于现有方法简单应用视频生成模型，EnerVerse 深度结合具身任务需求，创新性地引入稀疏记忆机制（Sparse Memory）与自由锚定视角（Free Anchor View, FAV），在提升 4D 生成能力的同时，实现了动作规划性能的显著突破。实验结果表明，EnerVerse 不仅具备卓越的未来空间生成能力，更在机器人动作规划任务中实现了当前最优（SOTA）表现。

项目主页与论文已上线，模型与相关数据集即将开源：

欢迎访问

主页地址：

https://sites.google.com/view/enerverse/home

论文地址：

https://arxiv.org/abs/2501.01895

如何让未来空间生成赋能机器人动作规划？

机器人动作规划的核心在于基于实时观测和任务指令，预测并完成一系列复杂的未来操作。然而，现有方法在应对复杂具身任务时存在如下局限：

通用模型局限性：当前通用视频生成模型缺乏对具身场景的针对性优化，无法适应具身任务中的特殊需求。
视觉记忆泛化能力不足：现有方法依赖稠密连续的视觉记忆，容易导致生成长程任务序列时逻辑不连贯，动作预测性能下降。

为此，EnerVerse 通过逐块生成的自回归扩散框架，结合创新的稀疏记忆机制与自由锚定视角（FAV）方法，解决了上述瓶颈问题。

技术方案解析

逐块扩散生成：Next Chunk Diffusion

EnerVerse 采用逐块生成的自回归扩散模型，通过逐步生成未来具身空间来引导机器人动作规划。其关键设计包括：

扩散模型架构：基于结合时空注意力的 UNet 结构，每个空间块内部通过卷积与双向注意力建模；块与块之间通过单向因果逻辑（causal logic）保持时间一致性，从而确保生成序列的逻辑合理性。
稀疏记忆机制：借鉴大语言模型（LLM）的上下文记忆，EnerVerse 在训练阶段对历史帧进行高比例随机掩码（mask），推理阶段以较大时间间隔更新记忆队列，有效降低计算开销，同时显著提升长程任务的生成能力。
任务结束逻辑：通过特殊的结束帧（EOS frame），实现对任务结束时机的精准监督，确保生成过程在合适节点终止。

灵活的4D生成：Free Anchor View (FAV)

针对具身操作中复杂遮挡环境和多视角需求，EnerVerse 提出了自由锚定视角（FAV）方法，以灵活表达 4D 空间。其核心优势包括：

自由设定视角：FAV 支持动态调整锚定视角，克服固定多视角（fixed multi-anchor view）在狭窄场景中的局限性。例如，在厨房等场景中，FAV 可轻松适应动态遮挡关系。
跨视角空间一致性：基于光线投射原理（ray casting），EnerVerse 通过视线方向图（ray direction map）作为视角控制条件，并将 2D 空间注意力扩展为跨视角的 3D 空间注意力（cross-view spatial attention），确保生成视频的几何一致性。
Sim2Real 适配：通过在仿真数据上训练的 4D 生成模型（EnerVerse-D）与 4D 高斯泼溅 (4D Gaussian Splatting) 交替迭代，EnerVerse 构建了一个数据飞轮，为真实场景下的 FAV 生成提供伪真值支持。

高效动作规划：Policy Head

EnerVerse 通过在生成网络下游集成 Diffusion 策略头（Diffusion Policy Head），打通未来空间生成与机器人动作规划的全链条。其关键设计包括：

高效动作预测：生成网络在逆扩散的第一步即可输出未来动作序列，无需等待完整的空间生成过程，确保动作预测的实时性。
稀疏记忆支持：在动作预测推理中，稀疏记忆队列存储真实或重建的 FAV 观测结果，有效提升长程任务规划能力。

实验结果

1. 视频生成性能

在短程与长程任务视频生成中，EnerVerse 均展现出卓越的性能：

在短程生成任务中，EnerVerse 表现优于现有微调视频生成模型，如基于 DynamiCrafter 与 FreeNoise 的扩散模型。
在长程生成任务中，EnerVerse 展现出更强的逻辑一致性与连续生成能力，这是现有模型无法实现的。

此外，EnerVerse在LIBERO仿真场景和AgiBot World真实场景中生成的多视角视频质量也得到了充分验证。

2. 动作规划能力

在LIBERO基准测试中，EnerVerse在机器人动作规划任务中取得了显著优势：

• 单视角（one FAV）模型在LIBERO四类任务中的平均成功率已超过现有最佳方法。

• 多视角（three FAV）设定进一步提升任务成功率，在每一类任务上均超越现有方法。

3. 消融与训练策略分析

• 稀疏记忆机制：消融实验表明，稀疏记忆对长程序列生成的合理性及长程动作预测精度至关重要。

• 二阶段训练策略：先进行未来空间生成训练，再进行特定场景动作预测训练的二阶段策略，可显著提升动作规划性能。

4. 注意力可视化

通过可视化 Diffusion 策略头中的交叉注意力模块，研究发现 EnerVerse 生成的未来空间与预测的动作空间具有较强的时序一致性。这直观体现了 EnerVerse 在未来空间生成与动作规划任务中的相关性与优势。

智元机器人通过 EnerVerse 架构开创了未来具身智能的新方向。通过未来空间生成引导动作规划，EnerVerse 不仅突破了机器人任务规划的技术瓶颈，还为多模态、长程任务的研究提供了全新范式。

- END

① 2025中国国际新能源技术展会

自动驾驶之心联合主办中国国际新能源汽车技术、零部件及服务展会。展会将于2025年2月21日至24日在北京新国展二期举行，展览面积达到2万平方米，预计吸引来自世界各地的400多家参展商和2万名专业观众。作为新能源汽车领域的专业展，它将全面展示新能源汽车行业的最新成果和发展趋势，同期围绕个各关键板块举办论坛，欢迎报名参加。

② 国内首个自动驾驶学习社区

『自动驾驶之心知识星球』近4000人的交流社区，已得到大多数自动驾驶公司的认可！涉及30+自动驾驶技术栈学习路线，从0到一带你入门自动驾驶感知（端到端自动驾驶、世界模型、仿真闭环、2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪）、自动驾驶定位建图（SLAM、高精地图、局部在线地图）、自动驾驶规划控制/轨迹预测等领域技术方案、大模型，更有行业动态和岗位发布！欢迎扫描加入

③全网独家视频课程

端到端自动驾驶、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、CUDA与TensorRT模型部署、大模型与自动驾驶、NeRF、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频（扫码即可学习）