全球首个类Sora架构视频模型Open-Sora直接开源!【附中文技术文档pdf】

中文技术文档下载

sora中文技术文档【open-sora开源】icon-default.png?t=N7T8https://yv2c3kamh3y.feishu.cn/docx/DwRAd1YZeoCYGmxxjU9cYaFLnKg?from=from_copylink

开源地址github

直接上链接,open-sora开源地址:https://github.com/hpcaitech/Open-Sora

Open-Sora

近日,OpenAI的Sora因其出色的视频生成效果赢得了广大赞誉,成为了文字到视频转换领域的领军者,受到了全球瞩目。
紧随其后,Colossal-AI团队也不甘示弱,他们推出了一款全新的开源项目——“Open-Sora 1.0”。这一方案不仅详细阐述了整个训练过程,包括数据处理、详尽的训练细节以及模型检查点,更致力于与全球的AI爱好者携手合作,共同推动视频创作领域的进步,开启一个全新的时代。

open-sora新功能:

  • 📍Open-Sora-v1 已发布。并提供了模型权重。且只需 400K 视频片段和在单卡 H800 上训200天(类比Stable Video Diffusion 的 152M 样本),我们就能生成 2 秒的 512×512 视频。

  • ✅ 从图像扩散模型到视频扩散模型的三阶段训练。我们提供每个阶段的权重。

  • ✅ 支持训练加速,包括Transformer加速、更快的 T5 和 VAE 以及序列并行。在对 64x512x512 视频进行训练时,Open-Sora 可将训练速度提高55%。详细信息请参见训练加速。

  • ✅ 我们提供用于数据预处理的视频切割和字幕工具。有关说明请点击此处,我们的数据收集计划请点击 数据集。

  • ✅ 我们发现来自VideoGPT的 VQ-VAE 质量较低,因此采用了来自Stability-AI 的高质量 VAE。我们还发现使用添加了时间维度的采样会导致生成质量降低。更多讨论,请参阅我们的 报告

  • ✅ 我们研究了不同的架构,包括 DiT、Latte 和我们提出的 STDiT。我们的STDiT在质量和速度之间实现了更好的权衡。更多讨论,请参阅我们的 报告

  • ✅ 支持剪辑和 T5 文本调节。

  • ✅ 通过将图像视为单帧视频,我们的项目支持在图像和视频(如 ImageNet 和 UCF101)上训练 DiT。更多说明请参见 指令解析。

  • ✅ 利用DiT、Latte 和 PixArt 的官方权重支持推理。

  • 3
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值