使用NVIDIA Cosmos世界基础模型扩展合成数据和物理AI推理能力
在人工智能快速发展的今天,下一代AI驱动的机器人,如人形机器人和自动驾驶汽车,都依赖于高保真、物理感知的训练数据。然而,如果没有多样化且具代表性的数据集,这些系统将无法获得适当的训练,并在测试中面临诸多风险:泛化能力差、对真实世界变化的适应有限、在边缘情况下行为不可预测等。而收集大规模真实世界数据集不仅成本高昂,还极其耗时,且常常受到现实可能性的限制。
NVIDIA Cosmos通过加速世界基础模型(World Foundation Model, WFM)的开发来解决这一挑战。在其平台核心,Cosmos WFMs加速合成数据生成,并作为后训练的基础,用于开发下游领域或任务特定的物理AI模型,以解决上述挑战。本文将探讨最新的Cosmos WFMs、它们推进物理AI的关键能力,以及如何使用它们。
Cosmos Transfer:基于物理的逼真视频生成
Cosmos Transfer WFM能够从结构化输入生成高保真世界场景,确保精确的空间对齐和场景构成。
该模型采用ControlNet架构,保留预训练知识,实现结构化、一致的输出。它利用时空控制图动态对齐合成和真实世界表示,实现对场景构成、对象放置和运动动态的精细控制。
输入:
- 结构化视觉或几何数据:分割图、深度图、边缘图、人体运动关键点、LiDAR扫描、轨迹、高清地图和3D边界框。
- 真实标注:用于精确对齐的高保真参考。
输出:具有受控布局、对象放置和运动的逼真视频序列。
关键能力:
- 生成与真实世界物理对齐的可扩展、逼真合成数据。
- 通过结构化多模态输入控制对象交互和场景构成。
使用Cosmos Transfer进行可控合成数据生成
借助生成式AI API和SDK,NVIDIA Omniverse加速物理AI模拟。开发人员使用基于OpenUSD构建的NVIDIA Omniverse创建准确模拟真实环境的3D场景,用于机器人和自动驾驶汽车的训练和测试。这些模拟作为Cosmos Transfer的真实参考视频输入,结合标注和文本指令。Cosmos Transfer增强逼真度,同时变化环境、光照和视觉条件,生成可扩展、多样化的世界状态。
这一工作流程加速高质量训练数据集的创建,确保AI代理能够有效地从模拟泛化到真实世界部署。
Cosmos Transfer通过在Isaac GR00T蓝图中实现逼真的光照、颜色和纹理,以及在自动驾驶车辆模拟蓝图中变化环境和天气条件,增强了机器人开发。这些逼真数据对后训练策略模型至关重要,确保从模拟到现实的平稳过渡,并支持感知AI和专业机器人模型(如GR00T N1)的模型训练。
使用Cosmos Transfer进行推理
以下是使用Cosmos-Transfer1-7B模型进行推理的示例命令。
Cosmos Transfer在NVIDIA开放模型许可下在Hugging Face上公开可用。生成Hugging Face访问令牌,使用CLI登录,接受LlamaGuard-7b条款,并按照Cosmos-Transfer1 GitHub说明操作。
以下命令下载Cosmos-Transfer1的基础模型、分词器和护栏模型:
PYTHONPATH=$(pwd) python scripts/download_checkpoints.py --output_dir checkpoints/
使用以下命令运行模型。您可以使用JSON文件自定义设置,单独或组合启用模糊、边缘检测、深度或分割ControlNets功能。
export CUDA_VISIBLE_DEVICES=0
PYTHONPATH=$(pwd) python cosmos_transfer1/diffusion/inference/transfer.py \
--checkpoint_dir checkpoints \
--input_video_path path/to/input_video.mp4 \
--video_save_name output_video \
--sigma_max 70 \
--controlnet_specs spec.json
Cosmos WFMs可以后训练成VLA策略模型,其中视频输出被机器人执行的动作输出所取代。为了理解上下文,策略模型根据当前观察和给定任务生成物理AI系统要采取的动作。训练良好的WFM可以模拟世界的这种动态模式,并作为策略模型的良好初始化。
在GitHub上了解更多关于Cosmos Transfer示例的信息。
Cosmos Predict:生成未来世界状态
Cosmos Predict WFM旨在从多模态输入(包括文本、视频和起始-结束帧序列)建模未来世界状态为视频。它基于Transformer架构构建,增强时间一致性和帧插值。
关键能力:
- 直接从文本提示生成逼真的世界状态。
- 通过预测缺失帧或扩展运动,基于视频序列预测下一状态。
- 在起始和结束图像之间创建完整、平滑的多帧生成序列。
Cosmos Predict WFM为机器人和自动驾驶车辆中的下游世界模型训练提供了强大基础。您可以后训练这些模型,使其生成动作而非视频用于策略建模,或适应它们进行视觉-语言理解,创建自定义感知AI模型。
Cosmos Reason:感知、推理和智能响应
Cosmos Reason是一个完全可定制的多模态AI推理模型,专为理解运动、对象交互和时空关系而构建。使用思维链(CoT)推理,该模型解释视觉输入,基于给定提示预测结果,并奖励最佳决策。与基于文本的大语言模型不同,它将推理植根于真实世界物理,以自然语言生成清晰、上下文感知的响应。
输入:视频观察和基于文本的查询或指令。
输出:通过长期CoT推理生成的文本响应。
关键能力:
- 了解对象如何移动、交互和随时间变化。
- 基于输入观察预测并奖励下一个最佳行动。
- 持续改进决策制定。
- 专为构建感知AI和具身AI模型的后训练而设计。
训练流程
Cosmos Reason通过三个阶段训练,增强其推理、预测和响应决策的能力:
-
预训练:使用视觉转换器(ViT)处理视频帧为结构化嵌入,将其与文本对齐,实现对象、动作和空间关系的共享理解。
-
监督微调(SFT):专注于物理推理的两个关键层面。通用微调增强语言基础和多模态感知,使用多样化视频-文本数据集;而物理AI数据训练则提升模型对真实世界交互的推理能力,学习对象行为、动作序列、多步任务展开和空间可行性,以区分现实与不可能的放置。
-
强化学习(RL):模型通过试错和奖励反馈评估不同推理路径,仅在出现更好决策时更新自身。它使用基于规则的奖励,而非人工标注数据:
- 实体识别:奖励准确识别对象及其属性。
- 空间约束:惩罚物理不可能的放置,同时强化现实对象定位。
- 时间推理:鼓励基于因果-效果关系的正确序列预测。
入门指南
Cosmos WFMs在Hugging Face上提供,GitHub上有推理脚本,可用于Cosmos-Predict和Cosmos-Transfer。
在build.nvidia.com上尝试Cosmos Predict预览NIM。
使用此工作流指南将Cosmos Transfer用于合成数据生成。
探索免费的NVIDIA GTC 2025 Cosmos会话。请于3月26日星期三上午11:00 PDT收听直播,了解最新平台更新。
结论
NVIDIA Cosmos世界基础模型为物理AI开发提供了强大的工具集,解决了高质量训练数据获取的挑战。通过Cosmos Transfer、Cosmos Predict和Cosmos Reason,开发人员可以生成基于物理的逼真合成数据、预测未来世界状态,并实现智能推理能力。这些模型不仅加速了合成数据生成,还为下游任务特定模型提供了坚实基础,推动了机器人和自动驾驶技术的进步。