使用NVIDIA Cosmos世界基础模型扩展合成数据和物理AI推理能力

最新推荐文章于 2025-05-19 10:04:29 发布

扫地的小何尚

最新推荐文章于 2025-05-19 10:04:29 发布

阅读量733

点赞数 10

文章标签：人工智能数据结构 GPU 机器人 c++

本文链接：https://blog.csdn.net/kunhe0512/article/details/146936535

版权

使用NVIDIA Cosmos世界基础模型扩展合成数据和物理AI推理能力

在人工智能快速发展的今天，下一代AI驱动的机器人，如人形机器人和自动驾驶汽车，都依赖于高保真、物理感知的训练数据。然而，如果没有多样化且具代表性的数据集，这些系统将无法获得适当的训练，并在测试中面临诸多风险：泛化能力差、对真实世界变化的适应有限、在边缘情况下行为不可预测等。而收集大规模真实世界数据集不仅成本高昂，还极其耗时，且常常受到现实可能性的限制。

在这里插入图片描述

NVIDIA Cosmos通过加速世界基础模型(World Foundation Model, WFM)的开发来解决这一挑战。在其平台核心，Cosmos WFMs加速合成数据生成，并作为后训练的基础，用于开发下游领域或任务特定的物理AI模型，以解决上述挑战。本文将探讨最新的Cosmos WFMs、它们推进物理AI的关键能力，以及如何使用它们。

Cosmos Transfer：基于物理的逼真视频生成

Cosmos Transfer WFM能够从结构化输入生成高保真世界场景，确保精确的空间对齐和场景构成。

该模型采用ControlNet架构，保留预训练知识，实现结构化、一致的输出。它利用时空控制图动态对齐合成和真实世界表示，实现对场景构成、对象放置和运动动态的精细控制。

输入：

结构化视觉或几何数据：分割图、深度图、边缘图、人体运动关键点、LiDAR扫描、轨迹、高清地图和3D边界框。
真实标注：用于精确对齐的高保真参考。

输出：具有受控布局、对象放置和运动的逼真视频序列。

在这里插入图片描述

关键能力：

生成与真实世界物理对齐的可扩展、逼真合成数据。
通过结构化多模态输入控制对象交互和场景构成。

使用Cosmos Transfer进行可控合成数据生成

借助生成式AI API和SDK，NVIDIA Omniverse加速物理AI模拟。开发人员使用基于OpenUSD构建的NVIDIA Omniverse创建准确模拟真实环境的3D场景，用于机器人和自动驾驶汽车的训练和测试。这些模拟作为Cosmos Transfer的真实参考视频输入，结合标注和文本指令。Cosmos Transfer增强逼真度，同时变化环境、光照和视觉条件，生成可扩展、多样化的世界状态。

这一工作流程加速高质量训练数据集的创建，确保AI代理能够有效地从模拟泛化到真实世界部署。

在这里插入图片描述

Cosmos Transfer通过在Isaac GR00T蓝图中实现逼真的光照、颜色和纹理，以及在自动驾驶车辆模拟蓝图中变化环境和天气条件，增强了机器人开发。这些逼真数据对后训练策略模型至关重要，确保从模拟到现实的平稳过渡，并支持感知AI和专业机器人模型（如GR00T N1）的模型训练。

使用Cosmos Transfer进行推理

以下是使用Cosmos-Transfer1-7B模型进行推理的示例命令。

Cosmos Transfer在NVIDIA开放模型许可下在Hugging Face上公开可用。生成Hugging Face访问令牌，使用CLI登录，接受LlamaGuard-7b条款，并按照Cosmos-Transfer1 GitHub说明操作。

以下命令下载Cosmos-Transfer1的基础模型、分词器和护栏模型：

PYTHONPATH=$(pwd) python scripts/download_checkpoints.py --output_dir checkpoints/

使用以下命令运行模型。您可以使用JSON文件自定义设置，单独或组合启用模糊、边缘检测、深度或分割ControlNets功能。

export CUDA_VISIBLE_DEVICES=0
PYTHONPATH=$(pwd) python cosmos_transfer1/diffusion/inference/transfer.py \
    --checkpoint_dir checkpoints \
    --input_video_path path/to/input_video.mp4 \
    --video_save_name output_video \
    --sigma_max 70 \
    --controlnet_specs spec.json

Cosmos WFMs可以后训练成VLA策略模型，其中视频输出被机器人执行的动作输出所取代。为了理解上下文，策略模型根据当前观察和给定任务生成物理AI系统要采取的动作。训练良好的WFM可以模拟世界的这种动态模式，并作为策略模型的良好初始化。

在GitHub上了解更多关于Cosmos Transfer示例的信息。

Cosmos Predict：生成未来世界状态

Cosmos Predict WFM旨在从多模态输入（包括文本、视频和起始-结束帧序列）建模未来世界状态为视频。它基于Transformer架构构建，增强时间一致性和帧插值。

关键能力：

直接从文本提示生成逼真的世界状态。
通过预测缺失帧或扩展运动，基于视频序列预测下一状态。
在起始和结束图像之间创建完整、平滑的多帧生成序列。

Cosmos Predict WFM为机器人和自动驾驶车辆中的下游世界模型训练提供了强大基础。您可以后训练这些模型，使其生成动作而非视频用于策略建模，或适应它们进行视觉-语言理解，创建自定义感知AI模型。

Cosmos Reason：感知、推理和智能响应

Cosmos Reason是一个完全可定制的多模态AI推理模型，专为理解运动、对象交互和时空关系而构建。使用思维链(CoT)推理，该模型解释视觉输入，基于给定提示预测结果，并奖励最佳决策。与基于文本的大语言模型不同，它将推理植根于真实世界物理，以自然语言生成清晰、上下文感知的响应。

输入：视频观察和基于文本的查询或指令。

输出：通过长期CoT推理生成的文本响应。

关键能力：

了解对象如何移动、交互和随时间变化。
基于输入观察预测并奖励下一个最佳行动。
持续改进决策制定。
专为构建感知AI和具身AI模型的后训练而设计。

训练流程

Cosmos Reason通过三个阶段训练，增强其推理、预测和响应决策的能力：

预训练：使用视觉转换器(ViT)处理视频帧为结构化嵌入，将其与文本对齐，实现对象、动作和空间关系的共享理解。
监督微调(SFT)：专注于物理推理的两个关键层面。通用微调增强语言基础和多模态感知，使用多样化视频-文本数据集；而物理AI数据训练则提升模型对真实世界交互的推理能力，学习对象行为、动作序列、多步任务展开和空间可行性，以区分现实与不可能的放置。
强化学习(RL)：模型通过试错和奖励反馈评估不同推理路径，仅在出现更好决策时更新自身。它使用基于规则的奖励，而非人工标注数据：
- 实体识别：奖励准确识别对象及其属性。
- 空间约束：惩罚物理不可能的放置，同时强化现实对象定位。
- 时间推理：鼓励基于因果-效果关系的正确序列预测。

在这里插入图片描述

入门指南

Cosmos WFMs在Hugging Face上提供，GitHub上有推理脚本，可用于Cosmos-Predict和Cosmos-Transfer。

在build.nvidia.com上尝试Cosmos Predict预览NIM。

使用此工作流指南将Cosmos Transfer用于合成数据生成。

探索免费的NVIDIA GTC 2025 Cosmos会话。请于3月26日星期三上午11:00 PDT收听直播，了解最新平台更新。

结论

NVIDIA Cosmos世界基础模型为物理AI开发提供了强大的工具集，解决了高质量训练数据获取的挑战。通过Cosmos Transfer、Cosmos Predict和Cosmos Reason，开发人员可以生成基于物理的逼真合成数据、预测未来世界状态，并实现智能推理能力。这些模型不仅加速了合成数据生成，还为下游任务特定模型提供了坚实基础，推动了机器人和自动驾驶技术的进步。