英伟达让机器人「做梦学习」，靠梦境实现真·从0泛化

最新推荐文章于 2025-05-23 17:02:55 发布

人工智能学家

最新推荐文章于 2025-05-23 17:02:55 发布

阅读量28

点赞数

文章标签：机器人学习人工智能

原文链接：https://mp.weixin.qq.com/s?__biz=MzIwOTA1MDAyNA==&mid=2650034447&idx=1&sn=099fe0bae85d6cab9594e2dc3086713c&chksm=8e914486e15dae6f9b2c197461145d1fd4d3381958ca0ccf14ffd608c027c943afab7c4df9a7&scene=126&sessionid=0

版权

来源：量子位 | 公众号 QbitAI

鹭羽发自凹非寺

「仿生人会梦见电子羊吗？」这是科幻界一个闻名遐迩的问题。

现在英伟达给出答案：Yes！而且还可以从中学习新技能。

如下面各种丝滑操作，都没有真实世界数据作为训练支撑。

仅凭文本指令，机器人就完成相应任务。

这是NVIDIA GEAR Lab最新推出的DreamGen项目。

它所说的“梦境中学习”，是巧妙利用AI视频世界模型生成神经轨迹，仅需少量现实视频，就能让机器人学会执行22种新任务。

在真实机器人测试上，复杂任务的成功率更是从21%显著提升至45.5%，并首次实现真正意义上的从0开始的泛化。

英伟达掌门人老黄最近也在Computex 2025演讲上将其作为GR00T-Dreams的一部分对外正式进行宣布。

接下来就DreamGen构造我们一一拆解。

在梦境中学习

传统机器人虽已展现出执行复杂现实任务的巨大潜力，但严重依赖人工收集的大规模遥操作数据，成本高且耗时长。

纯粹的计算机仿真合成数据，也由于模拟环境与真实物理世界差距大，机器人所学会的技能难以直接应用到现实。

于是研究团队提出要不试试让机器人在梦境中学习？

这个想法也并非空穴来风，早在2016年MIT的一项研究就证实，婴儿大脑会通过睡眠期间的神经活动进行自发学习。

由此诞生的DreamGen，核心思想就是利用成熟的视频世界模型（如Sora、Veo），对现实视频进行虚拟合成，创建大规模逼真训练数据。

新范式主要遵循四步走流程：

1、微调模型

通过目标机器人的远程操作轨迹，捕捉其运动学与动力学特征，微调视频世界模型。

2、虚拟数据生成

给定初始帧与语言指令后，生成描述预期行为的海量机器人视频序列，既包含微调后的已知行为，也包括未知场景中的新行为。

当然在这一步也要过滤掉那些不听从指令的噩梦。

3、虚拟动作提取

利用潜在动作模型或逆动力学模型（IDM）解析伪动作序列，形成神经轨迹。

4、策略训练

使用生成的视频-动作序列对（即神经轨迹）训练下游视觉运动策略。

通过DreamGen，团队实现仅凭单个环境中的单一拾取任务的遥操作数据，就能在10个新环境中生成22个新动作的“梦境”或神经轨迹，例如倾倒、锤击、折叠、熨烫衣物、舀取M&M‘s豆等，并训练机器人“零镜头”下执行这些任务。

此外它还可以增强不同机器人系统（如Franka与SO-100）以及不同策略架构（如Diffusion Policy、GR00T N1）在接触密集型任务中的表现，真正实现了从0到1的零样本行为泛化和零样本环境泛化。

实验结果表明，利用单一动作数据学习新动作的成功率从11.2%升至43.2%，在单环境训练下，全新环境中的成功率也从0%达到了28.5%（传统方法几乎无法完成）。

以RoboCasa为基准的仿真验证中，神经轨迹规模达到人类演示数据的333倍，策略性能随轨迹数量呈对数线性提升。

在Fourier GR1、Franka Emika和SO-100机器人等真实平台上复杂任务的成功率也提升显著，均证实了DreamGen的有效性。

另外团队还开发了首个机器人视频生成评估基准DreamGen Bench，通过指令遵循度（IF）和物理合理性（PA）两项指标，评估模型生成数据的质量。

英伟达的GR00T-Dreams蓝图

英伟达的野心还远不止于此，DreamGen作为英伟达进军物理AI的宏伟蓝图的一部分，将协助新工具GR00T-Dreams从单个图像中生成大量合成运动数据，并通过压缩动作令牌加速机器人行为学习。

这意味着GR00T-Dreams将会让GR00T N1.5开发从3个月锐减至36小时，作为英伟达开放、通用、完全可定制的类人推理和技能基础模型的首次更新，GR00T N1.5将部署在Jetson Thor上，预计于今年底推出。

老黄谈到这一发展时表示：

从机器人的人工智能大脑，到用于实践的模拟世界，再到用于训练基础模型的人工智能超级计算机，NVIDIA为机器人技术发展的每个阶段提供了基础模块。

也许正如网友所说，英伟达一直走在造梦的路上：

论文链接：https://arxiv.org/abs/2505.12705
项目链接：

https://research.nvidia.com/labs/gear/dreamgen/

参考链接：
[1]https://x.com/DrJimFan/status/1924819887139987855
[2]https://x.com/jang_yoel/status/1924805253993488595
[3]https://www.youtube.com/watch?v=TLzna9__DnI&t=5059s

阅读最新前沿科技趋势报告，请访问欧米伽研究所的“未来知识库”

https://wx.zsxq.com/group/454854145828

未来知识库是“欧米伽未来研究所”建立的在线知识库平台，收藏的资料范围包括人工智能、脑科学、互联网、超级智能，数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。欢迎扫描二维码或访问https://wx.zsxq.com/group/454854145828 进入。