说明
Cosmos 世界基础模型: 一系列高性能预训练世界基础模型,专门用于为物理人工智能开发生成物理感知视频和世界状态。
Cosmos 扩散模型是一系列基于扩散的世界基础模型,可从文本、图像或视频输入生成动态、高质量的视频。它可以作为与世界生成相关的各种应用或研究的构建模块。根据英伟达™(NVIDIA®)开放模型许可协议,这些模型可用于商业用途。
模型版本
在 Cosmos 1.0 版本中,Cosmos Diffusion WFM 系列包括以下型号:
- Cosmos-1.0-Diffusion-7B-Text2World:根据文字描述,预测 121 帧视频的输出结果。
- Cosmos-1.0-Diffusion-14B-Text2World:根据文字描述,预测 121 帧视频的输出结果。
- Cosmos-1.0-Diffusion-7B-Video2World:给定文字描述和第一帧图像,预测未来 120 帧图像。
- Cosmos-1.0-Diffusion-14B-Video2World:给定文字描述和第一帧图像,预测未来 120 帧图像。
许可证:
本模型根据 NVIDIA 开放模型许可证发布。如需定制许可证,请联系 cosmos-license@nvidia.com.。
根据英伟达™(NVIDIA®)开放模型许可,英伟达™(NVIDIA®)确认:
- 模型可用于商业用途。
- 您可以自由创建和分发衍生模型。
- NVIDIA 不对使用模型或衍生模型生成的任何输出主张所有权。
重要说明:如果您绕过、禁用、降低或规避模型中包含的任何技术限制、安全防护栏或相关安全防护栏超参数、加密、安全、数字版权管理或验证机制,您在 NVIDIA 开放模型许可协议下的权利将自动终止。
- Cosmos-1.0-Guardrail 是该机型的安全护栏。
软件集成
运行时引擎:
支持的硬件微体系结构兼容性:
- NVIDIA Blackwell
- NVIDIA Hopper
- NVIDIA Ampere
注:我们只测试了 BF16 精度的推理。
操作系统
Linux(我们未在其他系统中测试)
使用
请看 Cosmos 获取更多
推理时间和 GPU 内存使用情况
下面提供的数字可能因系统规格而异,仅供参考。
我们报告了在端到端推理过程中观察到的 GPU 内存最大使用量。此外,我们还提供了一系列 model offloading 策略,以帮助用户有效管理 GPU 内存使用情况。
对于内存有限的 GPU(如配备 24GB 内存的 RTX 3090/4090),我们建议完全卸载所有型号。对于更高端的 GPU,用户可以根据下面提供的数据选择最合适的卸载策略。
Offloading Strategy | 7B Text2World | 14B Text2World |
---|---|---|
Offload prompt upsampler | 74.0 GB | > 80.0 GB |
Offload prompt upsampler & guardrails | 57.1 GB | 70.5 GB |
Offload prompt upsampler & guardrails & T5 encoder | 38.5 GB | 51.9 GB |
Offload prompt upsampler & guardrails & T5 encoder & tokenizer | 38.3 GB | 51.7 GB |
Offload prompt upsampler & guardrails & T5 encoder & tokenizer & diffusion model | 24.4 GB | 39.0 GB |
下表列出了在单个 H100 GPU 上的端到端推理运行时间,其中不包括模型初始化时间。
7B Text2World (offload prompt upsampler) | 14B Text2World (offload prompt upsampler, guardrails) |
---|---|
~380 seconds | ~590 seconds |
伦理方面的考虑
NVIDIA 认为值得信赖的人工智能是一项共同责任,我们已制定了相关政策和实践,以支持各种人工智能应用的开发。在根据我们的服务条款下载或使用时,开发人员应与其内部模型团队合作,以确保该模型符合相关行业和用例的要求,并解决不可预见的产品滥用问题。
有关本模型道德考虑因素的详细信息,请参阅下面的 “可解释性”、“偏见”、"安全性 "和 "隐私 "子卡。请在此处报告安全漏洞或英伟达™(NVIDIA®)人工智能疑虑。
Plus Plus (++) 承诺
我们重视您、数据集、它们所代表的多样性以及我们所肩负的使命。本模型及其相关数据已经:
- 经核实符合当前适用的披露法律、法规和行业标准。
- 经核实符合适用的隐私标签要求。
- 注释以描述收集器/来源(NVIDIA 或第三方)。
- 技术限制特征。
- 审查,以确保 NVIDIA 数据主体及其请求可以访问、维护和遵守适当的披露。
- 在发布前进行审查。
- 标记已知限制和潜在安全影响。