摘要:我们推出Cosmos-Transfer,这是一款条件世界生成模型,能够基于多种模态(如分割、深度、边缘等)的多个空间控制输入来生成世界模拟。在设计上,该空间条件方案具有自适应性和可定制性。它允许在不同空间位置对不同条件输入赋予不同权重。这实现了高度可控的世界生成,并适用于多种世界到世界的迁移用例,包括从模拟到现实(Sim2Real)。我们进行了广泛评估,以分析所提模型,并展示其在物理人工智能(Physical AI)领域的应用,包括机器人从模拟到现实(Sim2Real)迁移和自动驾驶车辆数据增强。此外,我们还展示了一种推理扩展策略,借助NVIDIA GB200 NVL72机架实现实时世界生成。为助力该领域的研究发展,我们在https://github.com/nvidia-cosmos/cosmos-transfer1上开源了我们的模型和代码。Huggingface链接:Paper page,论文链接:2503.14492
研究背景和目的
研究背景
随着计算机图形学、深度学习和人工智能技术的飞速发展,生成具有真实感和可控性的虚拟世界成为了一个热门的研究领域。在物理人工智能(Physical AI)领域,生成高质量、符合特定条件的世界模拟对于训练和改进机器人、自动驾驶系统等至关重要。然而,传统的世界生成方法往往依赖于复杂的3D建模和渲染技术,这不仅需要大量的专业知识和计算资源,而且在生成符合特定任务需求或用户定义的虚拟世界时存在局限性。
近年来,基于深度学习的生成模型,特别是扩散模型(Diffusion Models),在图像和视频生成方面取得了显著进展。这些模型能够从随机噪声中逐步生成高质量的图像或视频,并且通过引入条件输入,可以生成符合特定要求的输出。然而,现有的条件生成模型在控制生成内容的空间布局和细节方面仍存在不足,特别是在处理复杂的多模态输入时。
因此,研究一种能够结合多种模态输入,并实现高度可控的世界生成模型具有重要意义。这样的模型不仅能够简化世界生成的过程,降低对专业知识和计算资源的需求,还能够生成更加符合特定任务需求或用户定义的虚拟世界,从而推动物理人工智能领域的发展。
研究目的
本文旨在提出一种名为Cosmos-Transfer1的条件世界生成模型,该模型能够基于多种模态(如分割、深度、边缘等)的多个空间控制输入来生成高度可控的世界模拟。通过引入自适应多模态控制机制,Cosmos-Transfer1能够灵活地调整不同模态输入在生成过程中的权重,从而实现更加精细和可控的世界生成。此外,本文还希望展示Cosmos-Transfer1在物理人工智能领域的应用潜力,包括机器人从模拟到现实(Sim2Real)迁移和自动驾驶车辆数据增强等。
研究方法
模型架构
Cosmos-Transfer1基于一个预训练的扩散模型(如Cosmos-Predict1),并通过引入多模态控制分支和自适应控制机制进行扩展。具体来说,Cosmos-Transfer1为每个模态输入(如分割、深度、边缘等)构建了一个控制分支,这些分支在训练过程中单独训练,并在推理过程中融合。
为了实现自适应多模态控制,Cosmos-Transfer1采用了时空控制图(Spatiotemporal Control Map)来指定每个模态输入在不同空间位置和时间实例上的权重。通过调整这些权重,用户可以灵活地控制生成内容的空间布局和细节。
训练与推理
在训练过程中,Cosmos-Transfer1首先对每个控制分支进行单独训练,使其能够从对应的模态输入中提取关键信息。然后,在推理过程中,Cosmos-Transfer1将不同模态的控制分支输出与主分支的输出进行融合,并根据时空控制图调整不同模态输入的权重。
为了实现实时世界生成,本文还提出了一种推理扩展策略,利用NVIDIA GB200 NVL72机架进行模型并行推理。通过合理分配计算资源,Cosmos-Transfer1能够在保持高质量生成的同时,实现实时推理性能。
评估方法
为了全面评估Cosmos-Transfer1的性能,本文设计了一套定量和定性的评估方法。在定量评估方面,本文采用了多种指标来衡量生成内容的质量、多样性和对齐度,包括模糊结构相似性(Blur SSIM)、边缘F1分数(Edge F1 Score)、深度均方根误差(Depth RMSE)、分割交并比(Segmentation IoU)等。在定性评估方面,本文通过可视化生成结果和用户研究来验证Cosmos-Transfer1的效果和用户体验。
研究结果
定量评估结果
实验结果表明,Cosmos-Transfer1在多个评估指标上均表现出色。通过引入多模态控制分支和自适应控制机制,Cosmos-Transfer1能够生成高质量、符合特定条件的世界模拟。特别是在生成内容的多样性和对齐度方面,Cosmos-Transfer1显著优于单模态控制模型。
此外,通过调整时空控制图中的权重,用户可以灵活地控制生成内容的空间布局和细节。例如,在机器人从模拟到现实(Sim2Real)迁移任务中,用户可以通过增加深度模态的权重来生成更加符合真实物理世界的模拟场景。
定性评估结果
可视化生成结果和用户研究表明,Cosmos-Transfer1能够生成具有高度真实感和可控性的虚拟世界。用户反馈显示,Cosmos-Transfer1生成的场景不仅符合他们的预期,而且在细节和布局方面表现出色。特别是在处理复杂的多模态输入时,Cosmos-Transfer1能够准确地捕捉不同模态之间的关联关系,并生成符合要求的输出。
研究局限
尽管Cosmos-Transfer1在多个方面表现出色,但仍存在一些局限性。首先,Cosmos-Transfer1的性能受到训练数据质量和数量的限制。如果训练数据不够丰富或存在偏差,可能会影响生成内容的质量和多样性。
其次,Cosmos-Transfer1的推理性能受到硬件资源的限制。尽管本文提出了一种推理扩展策略来实现实时世界生成,但仍需要高性能的计算设备来支持。
此外,Cosmos-Transfer1在处理极端复杂或罕见的场景时可能存在一定的局限性。例如,在生成包含大量动态物体和复杂交互关系的场景时,Cosmos-Transfer1可能无法完全捕捉所有细节和关联关系。
未来研究方向
针对上述研究局限,未来工作可以从以下几个方面展开:
-
提高训练数据的质量和数量:通过收集更加丰富和多样的训练数据,可以提高Cosmos-Transfer1的生成质量和多样性。此外,还可以采用数据增强技术来进一步扩展训练数据的规模。
-
优化推理性能:通过改进模型架构和推理算法,可以进一步提高Cosmos-Transfer1的推理性能。例如,可以采用更加高效的模型并行和流水线并行技术来加速推理过程。
-
增强对复杂场景的处理能力:通过引入更加复杂的控制机制和更加高级的生成模型,可以增强Cosmos-Transfer1对复杂场景的处理能力。例如,可以采用分层控制策略来处理包含大量动态物体和复杂交互关系的场景。
-
拓展应用场景:除了机器人从模拟到现实(Sim2Real)迁移和自动驾驶车辆数据增强等应用场景外,还可以探索Cosmos-Transfer1在其他领域的应用潜力。例如,可以将Cosmos-Transfer1应用于游戏开发、虚拟现实和增强现实等领域,以生成更加真实和互动的游戏场景和虚拟环境。
总之,Cosmos-Transfer1作为一种具有自适应多模态控制的条件世界生成模型,在物理人工智能领域具有广泛的应用前景。通过不断优化和改进模型架构和推理算法,可以进一步提高Cosmos-Transfer1的性能和应用价值。