中文技术文档下载
开源地址github
直接上链接,open-sora开源地址:https://github.com/hpcaitech/Open-Sora
Open-Sora
近日,OpenAI的Sora因其出色的视频生成效果赢得了广大赞誉,成为了文字到视频转换领域的领军者,受到了全球瞩目。
紧随其后,Colossal-AI团队也不甘示弱,他们推出了一款全新的开源项目——“Open-Sora 1.0”。这一方案不仅详细阐述了整个训练过程,包括数据处理、详尽的训练细节以及模型检查点,更致力于与全球的AI爱好者携手合作,共同推动视频创作领域的进步,开启一个全新的时代。
open-sora新功能:
-
📍Open-Sora-v1 已发布。并提供了模型权重。且只需 400K 视频片段和在单卡 H800 上训200天(类比Stable Video Diffusion 的 152M 样本),我们就能生成 2 秒的 512×512 视频。
-
✅ 从图像扩散模型到视频扩散模型的三阶段训练。我们提供每个阶段的权重。
-
✅ 支持训练加速,包括Transformer加速、更快的 T5 和 VAE 以及序列并行。在对 64x512x512 视频进行训练时,Open-Sora 可将训练速度提高55%。详细信息请参见训练加速。
-
✅ 我们提供用于数据预处理的视频切割和字幕工具。有关说明请点击此处,我们的数据收集计划请点击 数据集。
-
✅ 我们发现来自VideoGPT的 VQ-VAE 质量较低,因此采用了来自Stability-AI 的高质量 VAE。我们还发现使用添加了时间维度的采样会导致生成质量降低。更多讨论,请参阅我们的 报告。
-
✅ 我们研究了不同的架构,包括 DiT、Latte 和我们提出的 STDiT。我们的STDiT在质量和速度之间实现了更好的权衡。更多讨论,请参阅我们的 报告。
-
✅ 支持剪辑和 T5 文本调节。
-
✅ 通过将图像视为单帧视频,我们的项目支持在图像和视频(如 ImageNet 和 UCF101)上训练 DiT。更多说明请参见 指令解析。
-
✅ 利用DiT、Latte 和 PixArt 的官方权重支持推理。