使用NVIDIA Cosmos世界基础模型扩展合成数据和物理AI推理能力

使用NVIDIA Cosmos世界基础模型扩展合成数据和物理AI推理能力

在人工智能快速发展的今天,下一代AI驱动的机器人,如人形机器人和自动驾驶汽车,都依赖于高保真、物理感知的训练数据。然而,如果没有多样化且具代表性的数据集,这些系统将无法获得适当的训练,并在测试中面临诸多风险:泛化能力差、对真实世界变化的适应有限、在边缘情况下行为不可预测等。而收集大规模真实世界数据集不仅成本高昂,还极其耗时,且常常受到现实可能性的限制。

在这里插入图片描述

NVIDIA Cosmos通过加速世界基础模型(World Foundation Model, WFM)的开发来解决这一挑战。在其平台核心,Cosmos WFMs加速合成数据生成,并作为后训练的基础,用于开发下游领域或任务特定的物理AI模型,以解决上述挑战。本文将探讨最新的Cosmos WFMs、它们推进物理AI的关键能力,以及如何使用它们。

Cosmos Transfer:基于物理的逼真视频生成

Cosmos Transfer WFM能够从结构化输入生成高保真世界场景,确保精确的空间对齐和场景构成。

该模型采用ControlNet架构,保留预训练知识,实现结构化、一致的输出。它利用时空控制图动态对齐合成和真实世界表示,实现对场景构成、对象放置和运动动态的精细控制。

输入

  • 结构化视觉或几何数据:分割图、深度图、边缘图、人体运动关键点、LiDAR扫描、轨迹、高清地图和3D边界框。
  • 真实标注:用于精确对齐的高保真参考。

输出:具有受控布局、对象放置和运动的逼真视频序列。

在这里插入图片描述

关键能力

  • 生成与真实世界物理对齐的可扩展、逼真合成数据。
  • 通过结构化多模态输入控制对象交互和场景构成。

使用Cosmos Transfer进行可控合成数据生成

借助生成式AI API和SDK,NVIDIA Omniverse加速物理AI模拟。开发人员使用基于OpenUSD构建的NVIDIA Omniverse创建准确模拟真实环境的3D场景,用于机器人和自动驾驶汽车的训练和测试。这些模拟作为Cosmos Transfer的真实参考视频输入,结合标注和文本指令。Cosmos Transfer增强逼真度,同时变化环境、光照和视觉条件,生成可扩展、多样化的世界状态。

这一工作流程加速高质量训练数据集的创建,确保AI代理能够有效地从模拟泛化到真实世界部署。

在这里插入图片描述

在这里插入图片描述

Cosmos Transfer通过在Isaac GR00T蓝图中实现逼真的光照、颜色和纹理,以及在自动驾驶车辆模拟蓝图中变化环境和天气条件,增强了机器人开发。这些逼真数据对后训练策略模型至关重要,确保从模拟到现实的平稳过渡,并支持感知AI和专业机器人模型(如GR00T N1)的模型训练。

使用Cosmos Transfer进行推理

以下是使用Cosmos-Transfer1-7B模型进行推理的示例命令。

Cosmos Transfer在NVIDIA开放模型许可下在Hugging Face上公开可用。生成Hugging Face访问令牌,使用CLI登录,接受LlamaGuard-7b条款,并按照Cosmos-Transfer1 GitHub说明操作。

以下命令下载Cosmos-Transfer1的基础模型、分词器和护栏模型:

PYTHONPATH=$(pwd) python scripts/download_checkpoints.py --output_dir checkpoints/

使用以下命令运行模型。您可以使用JSON文件自定义设置,单独或组合启用模糊、边缘检测、深度或分割ControlNets功能。

export CUDA_VISIBLE_DEVICES=0
PYTHONPATH=$(pwd) python cosmos_transfer1/diffusion/inference/transfer.py \
    --checkpoint_dir checkpoints \
    --input_video_path path/to/input_video.mp4 \
    --video_save_name output_video \
    --sigma_max 70 \
    --controlnet_specs spec.json

Cosmos WFMs可以后训练成VLA策略模型,其中视频输出被机器人执行的动作输出所取代。为了理解上下文,策略模型根据当前观察和给定任务生成物理AI系统要采取的动作。训练良好的WFM可以模拟世界的这种动态模式,并作为策略模型的良好初始化。

在GitHub上了解更多关于Cosmos Transfer示例的信息。

Cosmos Predict:生成未来世界状态

Cosmos Predict WFM旨在从多模态输入(包括文本、视频和起始-结束帧序列)建模未来世界状态为视频。它基于Transformer架构构建,增强时间一致性和帧插值。

关键能力

  • 直接从文本提示生成逼真的世界状态。
  • 通过预测缺失帧或扩展运动,基于视频序列预测下一状态。
  • 在起始和结束图像之间创建完整、平滑的多帧生成序列。

Cosmos Predict WFM为机器人和自动驾驶车辆中的下游世界模型训练提供了强大基础。您可以后训练这些模型,使其生成动作而非视频用于策略建模,或适应它们进行视觉-语言理解,创建自定义感知AI模型。

Cosmos Reason:感知、推理和智能响应

Cosmos Reason是一个完全可定制的多模态AI推理模型,专为理解运动、对象交互和时空关系而构建。使用思维链(CoT)推理,该模型解释视觉输入,基于给定提示预测结果,并奖励最佳决策。与基于文本的大语言模型不同,它将推理植根于真实世界物理,以自然语言生成清晰、上下文感知的响应。

输入:视频观察和基于文本的查询或指令。

输出:通过长期CoT推理生成的文本响应。

关键能力

  • 了解对象如何移动、交互和随时间变化。
  • 基于输入观察预测并奖励下一个最佳行动。
  • 持续改进决策制定。
  • 专为构建感知AI和具身AI模型的后训练而设计。

训练流程

Cosmos Reason通过三个阶段训练,增强其推理、预测和响应决策的能力:

  • 预训练:使用视觉转换器(ViT)处理视频帧为结构化嵌入,将其与文本对齐,实现对象、动作和空间关系的共享理解。

  • 监督微调(SFT):专注于物理推理的两个关键层面。通用微调增强语言基础和多模态感知,使用多样化视频-文本数据集;而物理AI数据训练则提升模型对真实世界交互的推理能力,学习对象行为、动作序列、多步任务展开和空间可行性,以区分现实与不可能的放置。

  • 强化学习(RL):模型通过试错和奖励反馈评估不同推理路径,仅在出现更好决策时更新自身。它使用基于规则的奖励,而非人工标注数据:

    • 实体识别:奖励准确识别对象及其属性。
    • 空间约束:惩罚物理不可能的放置,同时强化现实对象定位。
    • 时间推理:鼓励基于因果-效果关系的正确序列预测。

在这里插入图片描述

入门指南

Cosmos WFMs在Hugging Face上提供,GitHub上有推理脚本,可用于Cosmos-Predict和Cosmos-Transfer。

在build.nvidia.com上尝试Cosmos Predict预览NIM。

使用此工作流指南将Cosmos Transfer用于合成数据生成。

探索免费的NVIDIA GTC 2025 Cosmos会话。请于3月26日星期三上午11:00 PDT收听直播,了解最新平台更新。

结论

NVIDIA Cosmos世界基础模型为物理AI开发提供了强大的工具集,解决了高质量训练数据获取的挑战。通过Cosmos Transfer、Cosmos Predict和Cosmos Reason,开发人员可以生成基于物理的逼真合成数据、预测未来世界状态,并实现智能推理能力。这些模型不仅加速了合成数据生成,还为下游任务特定模型提供了坚实基础,推动了机器人和自动驾驶技术的进步。

### NVIDIA COSMOS介绍 NVIDIA COSMOS 是由 NVIDIA 开发的一个先进平台架构,旨在推动深度生成模型的研究与发展。这一架构的主要贡献者是 Ming-Yu Liu,作为 NVIDIA 的研究副总裁 IEEE Fellow,其领导下的深度想象研究(Deep Imagination Research)团队专注于探索如何利用深度学习技术创造更加逼真且富有创意的内容[^1]。 ### 特性 #### 高效的数据处理能力 COSMOS 平台能够高效地处理大规模图像与视频数据集,在多个标准基准测试中表现出色,例如 MS-COCO 2017、ImageNet-1K DAVIS 数据集上的评估显示了强大的性能指标[^2]。 #### 多样化的应用场景支持 除了传统的计算机视觉任务外,COSMOS 还特别针对物理人工智能领域进行了优化,提供了一个专门设计用于此类应用的大型视频数据集。这个数据集中包含了多种类型的视频素材,如鱼眼镜头拍摄的画面、机器人操作场景以及自动驾驶车辆记录下来的路况信息等,极大地促进了相关领域的研究进展。 #### 创新的算法框架 通过引入新颖的 tokenization 技术其他前沿方法论,COSMOS 不仅提高了模型训练效率,还增强了最终产出内容的质量与多样性。这些改进使得研究人员可以更轻松地构建复杂而精细的虚拟世界或增强现实体验。 ```python # 示例代码展示如何加载并预览部分数据集样本 import torchvision.datasets as dset from PIL import Image dataset = dset.ImageFolder(root='path_to_dataset') img, _ = dataset[0] img.show() ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

扫地的小何尚

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值