(2025|NVIDIA,DiT,ControlNet)Cosmos-Transfer1:具有自适应多模态控制的条件世界生成

Cosmos-Transfer1: Conditional World Generation with Adaptive Multimodal Control

目录

1. 引言

1.1 关键词

2. 预备知识

3. 方法

4. 模态与训练

5. 评估

5.1 单模态与多模态比较

5.2 时空控制图案例

5.3 机器人 Sim2Real 数据生成案例分析

5.4 自动驾驶数据增强案例分析

6. 实时推理

7. 相关工作

8. 结论


1. 引言

多模态可控世界生成旨在通过分割、深度、边缘等模态视频输入,在不同时间和空间生成目标世界视频。该能力可减小 CG 模拟器的 “合成-真实” 域差,使生成的世界更真实且保持结构和语义一致。

本文提出 Cosmos-Transfer1,是一个基于扩散模型的条件世界模型,拓展自 Cosmos-Predict1,核心为 DiT(Diffusion Transformer)。通过 ControlNet 机制为每种模态增加独立控制分支,每个分支单独训练,推理时融合。该模型的关键是其空间-时间自适应控制图,可在不同位置、时刻分配不同模态的权重,赋予用户高度控制能力。

我们在多个物理 AI 任务上评估了 Cosmos-Transfer1,包括机器人 Sim2Real 和自动驾驶数据增强,并展示其在 NVIDIA GB200 NVL72 上的实时生成能力。

(2025,Cosmos,世界基础模型 (WFM) 平台,物理 AI,数据处理,分词器,世界基础模型预训练/后训练,3D一致性)

(2023|ICCV,DiT,扩散 transformer,Gflops)使用 Transformer 的可扩展扩散模型

(2023,ControlNet,CFGRW,diffusion,控制组合)向文本到图像扩散模型添加条件控制 

1.1 关键词

多模态(Multimodal)、控制图(Control Map)、扩散模型(Diffusion Model)、机器人Sim2Real(Robotics Sim2Real)、自动驾驶(Autonomous Driving)、生成质量(Generation Quality)

2. 预备知识

扩散模型核心为去噪器(denoiser),在 Cosmos 中通过 DiT 实现。如图 1(a) 所示,DiT 由一系列 Transformer 组成,训练目标是预测输入视频 token 上的加性噪声,即 n = D(x_σ,σ)

为实现条件控制,本文借鉴了 ControlNet 设计(原用于 UNet),并将其拓展至 DiT 架构。ControlNet 包含一个控制分支,接收模态输入并通过 Transformer 提取条件特征,再通过线性层融合至主干模型。训练时主干模型权重冻结,仅训练控制分支,最终实现条件去噪:
n = D(x_σ,σ,c),其中 c 为条件 token。

每个模态配有一个独立控制分支,推理时将多分支输出融合,支持多模态输入与控制。

3. 方法

Cosmos-Transfer1 通过 对 Cosmos-Predict1 模型的后训练(post-training)构建,支持任意数量模态输入 c_1, c_2, ..., c_N。每个模态控制分支独立训练,仅在推理时融合。

模型引入 空间-时间控制图 w ∈ R^{N×X×Y×T},定义每模态在不同空间(X,Y)和时间(T)的影响力。控制图用于加权每个模态分支的激活值 h^j_i ∈ R^{X×Y×T},最终以 w_i ⋅ h^j_i 的形式融合到主分支。

控制图可手动设计、基于启发式规则或通过神经网络自动学习

为了提升训练效率和灵活性,控制分支分别训练。该方法相比于直接训练所有分支有如下优势:

  • 节省显存,仅需加载一个分支。
  • 支持模态间数据不一致性。
  • 推理时可动态添加/移除模态。

4. 模态与训练

我们实现了两个主要模型版本:

1)Cosmos-Transfer1-7B:通过后训练 Cosmos-Predict1-7B-Video2World 获得

2)Cosmos-Transfer1-7B-Sample-AV:专为自动驾驶设计,从 Cosmos-Predict1-7B-Video2World 的微调版本(Cosmos-Predict1-7B-Video2World-Sample-AV)上进行后训练获得

每个控制分支均在 1024 张 H100 GPU 上训练 2-4 周,生成视频为 5 秒 1280×704@24fps,对应约 56K token。支持模态如下:

  • Blur Visual(Vis):对原视频施加双边模糊,保留色彩结构,适用于纹理增强。
  • Edge:使用 Canny 边缘提取,强调结构线条,增强创意生成。
  • Depth:由 DepthAnything2 提取深度图,保持场景 3D 几何。
  • Segmentation(Seg):用 GroundingDino+SAM2 提取语义分割,保持语义布局。

在自动驾驶模型中,新增模态包括:

  • HDMap:通过城市级 LiDAR 地图构建,提供精细道路布局信息。
  • LiDAR:由多帧融合补齐的稠密点云投影图,保留精细语义细节。

此外,还训练了一个上扩展 ControlNet 4KUpscaler,用于将 720p 视频放大至 4K,提升细节和真实感。

5. 评估

本节对 Cosmos-Transfer1 进行了全面评估,涵盖不同控制配置下的性能表现,并通过多个真实任务场景(如机器人 Sim2Real 和自动驾驶)进行验证。

TransferBench 评估集:

我们构建了名为 TransferBench 的基准数据集,包含 600 个示例,分布在三大场景中:

  • 机器人操作(200条):来自 AgiBot World 数据集,聚焦精细操作和物体交互;

  • 自动驾驶(200条):采自 OpenDV 数据集,涵盖复杂交通环境中的动态决策;

  • 第一人称日常生活场景(200条):取自 Ego-Exo-4D 数据集,专注于人类中心感知。

此评估覆盖结构化与非结构化环境,能全面衡量 Cosmos-Transfer1 在物理智能任务中的表现。

评估指标:

1)控制信号对齐性

  • Blur(SSIM):模糊处理后与原视频结构相似性,值越高越好;

  • Edge(F1):Canny 边缘检测后的 F1 得分,衡量结构线条的一致性;

  • Depth(si-RMSE):深度图之间的缩放不变 RMSE,值越低越好;

  • Seg(mIoU):语义分割结果的平均交并比(IoU),用于衡量语义一致性。

2)生成多样性:对于相同条件输入但不同文本提示生成的视频,通过 LPIPS 比较不同文本提示生成结果差异。

3)整体质量:用 DOVER 技术评分评估视觉美学质量。

5.1 单模态与多模态比较

我们先比较单一模态控制模型与多模态控制模型(使用统一空间权重)的性能。

单模态模型表现

  • Vis 模型在 Blur SSIM 上得分最高(0.96),善于保留整体结构与色彩;

  • Edge 模型在 Edge F1 上最高(0.28),适合细节结构生成;

  • Depth 与 Seg 控制分别在 si-RMSE 和 mIoU 上表现适中;

  • Seg 模型生成最具多样性(Diversity-LPIPS 0.42),但结构保真度较低。

去除某一模态的多模态模型

  • 去掉 Vis 模态后 Blur SSIM 明显下降(0.68);

  • 去掉 Edge 后结构对齐减弱;

  • 去掉 Depth 或 Seg 后,多样性得分下降,反映这两者对自由度影响大。

融合所有模态模型

  • 在所有指标中取得均衡表现(Blur SSIM 0.87,Edge F1 0.20,Depth si-RMSE 0.47,Seg mIoU 0.72);

  • 整体质量评分最高(8.54),说明融合控制对生成质量提升显著。

结论:单模态适合特定任务,多模态控制提供更均衡、更高质量的生成能力。

5.2 时空控制图案例

图 6:不同模态(Vis、Edge、Depth 和 Segmentation)下的时空控制加权示意图。

  • 控制加权图中,黑色像素区域的权重为 0.0,白色区域的权重为 0.5。
  • 我们注意到,尽管标题(caption)仅宽泛描述了一个自行车维修店的场景,但由于蓝色带有白色标志的衬衫以及人物肤色区域受 Vis 和 Edge 控制,这些细节被保留了下来。
  • 相比之下,背景区域由 Depth 和 Segmentation 控制,其位置布局保持一致,但颜色和纹理被随机化(例如:红色工具箱、黄色三脚架、白色维修架)。
  • 此外,模型还在右侧墙上添加了一个新的工具架。 

为进一步提高生成控制的灵活性,我们引入 “SalientObject” 方法构建前景-背景(foreground-background)控制图。具体步骤如下:

  • 通过 VLM 模型判断 SAM2+GroundingDINO 的分割掩码属于前景还是背景;

  • 为前景分配 Vis 与 Edge 控制(低自由度,确保保真度);

  • 为背景分配 Depth 与 Seg 控制(高自由度,增强多样性)。

示例中,前景区域(如人物衣服、肤色)颜色与结构保持一致,而背景区域则随机生成了不同纹理、物体布局等内容,如新增工具架。

定量实验结果显示

  • 随着前景(FG) Vis/Edge 权重增加,Blur SSIM/Edge F1 在前景区域显著提升;

  • 背景(BG)区域 Depth 权重越高,si-RMSE 越低,表示更好的几何对齐;

  • 多样性在背景区域权重较高时也显著提升,前景受限于约束而多样性下降。

结论:时空控制图可灵活调整生成区域的精细度与自由度,实现局部保真、整体多样的理想平衡。

5.3 机器人 Sim2Real 数据生成案例分析

在机器人研究中,高质量数据对模型性能提升至关重要。尽管模拟环境可以大规模生成数据,但“合成-真实” 域差导致训练模型难以直接应用于现实世界。

为验证 Cosmos-Transfer1 在机器人数据生成中的效果,本文构建了 20 个厨房场景任务,每个任务使用 NVIDIA Omniverse 与 Isaac Lab 生成,任务包括开关橱柜、搬运厨房用品等。每个场景配有 6 个不同文本提示,形成多样化输入。除 RGB 视频外,还生成了深度图与分割图。

模型对比如下

  • 单模态模型(Vis、Edge、Depth、Seg);

  • 多模态模型(带自定义时空控制图)两种设置:

    • 设置1:前景控制采用 Vis 与 Edge,背景使用 Seg(目标:保留机器人的结构与外观);

    • 设置2:前景仅使用 Edge,背景仍为 Seg(目标:保持结构,允许外观变化)。

实验结果摘要(见表 3)

  • 单模态模型在对应指标上表现突出,例如 Vis 模型 Blur SSIM 为0.95;

  • 但多模态设置的整体质量评分更高:设置 2 的质量得分达 10.42,为全部最高;

  • 设置 2 的多样性(LPIPS 0.58)与前景一致性(前景 mIoU 0.63)也处于领先;

  • 相比单一 Seg 控制,多模态控制可有效减少机器人前景破损现象,提升视频真实感。

图 8:Cosmos-Transfer1 在机器人数据生成任务中的示例结果。

  • 左侧列展示了由 NVIDIA Isaac Lab 生成的输入视频,右侧三列则展示了 Cosmos-Transfer1-7B 在不同条件模态与时空控制图配置下生成的结果。
  • 每组示例中,上排(single)使用单一模态 “Segmentation” 作为控制信号,整体控制权重为 1;下排则结合了 Segmentation、Edge 和 Vis 三种模态,并应用了时空控制图策略。具体而言,前景区域(机器人部分)使用 Edge、Segmentation 和 Vis 的组合,并分配定制控制权重;而背景区域仅使用 Segmentation,权重为1。
  • 结果表明,采用时空控制图的 Cosmos-Transfer1-7B 能更好地保留前景机器人结构的真实感。 

5.4 自动驾驶数据增强案例分析

与机器人不同,自动驾驶领域已有大量真实数据,但这些数据呈现 “长尾分布”——大量常规场景、少量关键情况(如极端天气、突发障碍)。因此,增强边缘案例数据具有重要意义。

Cosmos-Transfer1 可用于将实际场景结合控制信号(如 HDMap、LiDAR)和文字描述,生成多样化视觉版本,为测试和训练提供数据增广。

图 9 案例:比较仅使用 Depth、Seg 与两者结合的生成结果:

  • Depth 单独使用时中间车道线缺失;

  • Seg 单独使用时生成的车辆朝向错误;

  • 两者结合后能生成车道结构合理、车辆朝向正确的视频。

图10 案例:比较仅用 HDMap(第 1 行)、仅用 LiDAR (第 2 行)与融合控制信号(第 5 行)的效果:

  • (第 3 行)HDMap 控制下车道布局清晰但细节较少;

  • (第 4 行)LiDAR 提供丰富细节(如交通锥)但车道线不准确;

  • (第 5 行)两者结合后兼具结构正确与细节丰富,场景真实性更高。

图 11 与图 12 展示了不同天气与光照场景的生成示例,如雾天、夕阳、雪景与火灾环境。即使训练数据未直接包含这些极端情景,模型依然能利用已有知识生成逼真的视频,反映出强大的泛化能力。

定量评估摘要(见表 4)

  • LiDAR 控制模型在 3D-Bbox mAP(46.50)与 重投影误差(8.60)上表现最佳;

  • HDMap 控制模型在 车道 mIoU 上更优(50.37);

  • 融合控制模型在三项指标上均衡,mIoU 最高(51.55),综合性能最佳。

此外,本文还将 Cosmos-Transfer1 与 NVIDIA Omniverse 的 Sensor RTX 模拟系统结合,通过模拟生成 LiDAR 数据,并用训练于真实数据的模型进行控制,取得良好效果。这表明 Cosmos-Transfer1 可用于增强仿真平台的视觉多样性与真实性。

6. 实时推理

本节介绍了如何借助 NVIDIA 的新一代计算平台 GB200 NVL72,实现 Cosmos-Transfer1-7B 模型的实时视频生成。

GB200 NVL72 系统包含:

  • 36 个 Grace CPU

  • 72 个 Blackwell GPU

  • 全部通过 NVLink 网络进行任意对任意(any-to-any)连接

此架构非常适合大模型并行执行,尤其在训练与推理阶段支持的张量并行(Tensor Parallelism)与上下文并行(Context Parallelism)能力,被多个大型基础模型广泛采用。

该架构非常适合模型并行技术,例如张量并行(Tensor Parallelism)和上下文并行(Context Parallelism)。这些技术已被众多大型基础模型采用,包括世界基础模型(World Foundation Models),适用于训练和推理场景。

相比于通常参数量庞大、一次只生成一个 token 的大型语言模型(LLM)不同,Cosmos-Transfer1-7B 模型的参数量较轻,但生成的是整个视频序列(数万个 token),而非单 token 逐步生成。

为提升推理效率,本文采用了如下并行方案:

  • 非注意力层使用数据并行(Data Parallelism):每个GPU拥有完整模型副本,处理不同数据;

  • 注意力层使用 head 并行(Head Parallelism):每个GPU处理部分 attention head;

  • 每个 Blackwell GPU 配备 192GB HBM,可存储完整模型;

  • 生成一段 5 秒 720p 视频时,共需处理约 56K token,被均匀划分至各 GPU;

  • 注意力操作需 GPU 之间共享完整 token 序列,因此使用 all-to-all 通信机制

  • 模型使用 32个 attention head,并利用 classifier-free guidance 技术分别处理正负提示;通过将正/负条件各自分配给 GPU 子集,可实现完全并行处理。

该策略避免了传统方法中繁琐的 key-value 汇总过程,也提升了内存带宽效率,尤其适用于 Blackwell 架构的高速注意力实现(FMHA)。

表 5 是使用不同数量 GPU 时的性能表现,可以看出:

  • 扩散阶段占整体计算负载的 99% 以上

  • 随着 GPU 数量增加,扩散阶段推理时间几乎线性下降;

  • 使用 64 张 GPU 时生成5秒视频仅需 4.2 秒,实现 低于实时(sub-realtime)吞吐

7. 相关工作

本节概述了 Cosmos-Transfer1 所涉及的关键研究方向,并对相关代表性工作进行了分类回顾。主要包括三个方面:视觉域迁移扩散模型的空间控制机制生成模型用于增强仿真能力

视觉域迁移(Visual Domain Transfer)。大量研究致力于从抽象视觉表示(如分割图、草图等)向真实感图像或视频的迁移:

  • 在图像领域,已有研究将语义分割图或草图转换为高质量图像(如 Dundar et al., Fontanini et al., Huang et al., Wang et al. 等);

  • 在视频生成方向,相关工作如 Wang et al.、Esser et al.、Chung et al. 等则将此方法拓展到时间维度,生成结构连贯的视频内容。

这些方法广泛应用于内容创作、虚拟现实、自动驾驶、机器人模拟等多个领域。

扩散模型的空间控制机制(Spatial Control in Diffusion Models)。扩散模型近年来在文本到图像/视频生成方面取得显著进展。为提升空间可控性,研究者提出了多种增强机制,分为两类:

1)无需额外训练的控制方法(Training-free approaches),如 Bansal et al., Chen et al., Xue et al. 提出的遮挡或注意力掩码方法。

2)需在预训练模型基础上微调的新结构(Training-required methods),效果通常优于无训练方法。代表性工作包括:

  • ControlNet(Zhang et al., 2023):通过冻结主干模型,仅训练附加控制分支实现条件控制;

  • 随后扩展工作包括 Ju et al., Qin et al., Sun et al., Zhao et al. 等;

  • Chen et al.(2024)将 ControlNet 从 UNet 架构扩展到 Transformer 架构,使其适用于视频生成。

近期也有视频控制相关工作:

  • Lin et al.(2024)将图像级 ControlNet 适配至视频;

  • Jain et al.(2024)提出了利用掩码注意力进行空间视频控制的免训练方法。

用生成模型增强仿真系统(Enhancing Simulation with Generative Models)。实际部署物理智能系统(如机器人或自动驾驶)面临高成本与安全风险,因而仿真至关重要。近年来,生成式 AI 极大提升了仿真系统的真实感与多样性。

1)GAN 时代方法

  • CycleGAN(Rao et al., 2020)用于改善合成图像的真实感;

  • RetinaGAN(Ho et al., 2021)强调在保留目标信息的同时增强视觉自然性,提升强化学习任务效果。

2)扩散模型方法

  • Zhao et al.(2024)基于 ControlNet 和扩散模型,将语义图等模拟输出转换为真实感驾驶图像,优于 GAN;

  • Pronovost et al.(2023)基于潜变量扩散模型生成复杂交通情境,提升自动驾驶测试的多样性与危险覆盖。

3)视频级世界模型:NVIDIA(2025)推出的一整套开源世界模型(如 Cosmos 系列),用于机器人控制与场景理解,是对传统仿真系统的重大增强。

8. 结论

Cosmos-Transfer1 是一种具备自适应多模态控制能力的扩散模型,可用于高质量、可控的世界视频生成。其引入的控制分支与时空控制图机制提供了灵活性与精度的平衡。

通过在机器人与自动驾驶领域的广泛评估,展示了其在缩小合成与现实差距、提升多样性和视觉质量方面的优势。其在 GB200 NVL72 平台上的实时推理能力也展示了其实际部署潜力。


论文地址:https://arxiv.org/abs/2503.14492

项目页面:https://github.com/nvidia-cosmos/cosmos-transfer1

进 Q 学术交流群:922230617 或加 CV_EDPJ 进 W 交流群

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值