全球首个类Sora架构视频模型Open-Sora直接开源！【附中文技术文档pdf】

饱学猿

已于 2024-07-09 09:37:04 修改

阅读量438

点赞数 3

分类专栏： AGI 文章标签： pdf

于 2024-03-19 09:40:12 首次发布

本文链接：https://blog.csdn.net/m0_52599573/article/details/136830049

版权

AGI 专栏收录该内容

11 篇文章 0 订阅

订阅专栏

中文技术文档下载

sora中文技术文档【open-sora开源】https://yv2c3kamh3y.feishu.cn/docx/DwRAd1YZeoCYGmxxjU9cYaFLnKg?from=from_copylink

开源地址github

直接上链接，open-sora开源地址：https://github.com/hpcaitech/Open-Sora

Open-Sora

近日，OpenAI的Sora因其出色的视频生成效果赢得了广大赞誉，成为了文字到视频转换领域的领军者，受到了全球瞩目。
紧随其后，Colossal-AI团队也不甘示弱，他们推出了一款全新的开源项目——“Open-Sora 1.0”。这一方案不仅详细阐述了整个训练过程，包括数据处理、详尽的训练细节以及模型检查点，更致力于与全球的AI爱好者携手合作，共同推动视频创作领域的进步，开启一个全新的时代。

open-sora新功能：

📍Open-Sora-v1 已发布。并提供了模型权重。且只需 400K 视频片段和在单卡 H800 上训200天（类比Stable Video Diffusion 的 152M 样本），我们就能生成 2 秒的 512×512 视频。
✅ 从图像扩散模型到视频扩散模型的三阶段训练。我们提供每个阶段的权重。
✅ 支持训练加速，包括Transformer加速、更快的 T5 和 VAE 以及序列并行。在对 64x512x512 视频进行训练时，Open-Sora 可将训练速度提高55%。详细信息请参见训练加速。
✅ 我们提供用于数据预处理的视频切割和字幕工具。有关说明请点击此处，我们的数据收集计划请点击数据集。
✅ 我们发现来自VideoGPT的 VQ-VAE 质量较低，因此采用了来自Stability-AI 的高质量 VAE。我们还发现使用添加了时间维度的采样会导致生成质量降低。更多讨论，请参阅我们的报告。
✅ 我们研究了不同的架构，包括 DiT、Latte 和我们提出的 STDiT。我们的STDiT在质量和速度之间实现了更好的权衡。更多讨论，请参阅我们的报告。
✅ 支持剪辑和 T5 文本调节。
✅ 通过将图像视为单帧视频，我们的项目支持在图像和视频（如 ImageNet 和 UCF101）上训练 DiT。更多说明请参见指令解析。
✅ 利用DiT、Latte 和 PixArt 的官方权重支持推理。

饱学猿

关注

3
点赞
踩
7

收藏

觉得还不错? 一键收藏
1
评论
全球首个类Sora架构视频模型Open-Sora直接开源！【附中文技术文档pdf】

近日，OpenAI的Sora因其出色的视频生成效果赢得了广大赞誉，成为了文字到视频转换领域的领军者，受到了全球瞩目。紧随其后，Colossal-AI团队也不甘示弱，他们推出了一款全新的开源项目——“Open-Sora 1.0”。这一方案不仅详细阐述了整个训练过程，包括数据处理、详尽的训练细节以及模型检查点，更致力于与全球的AI爱好者携手合作，共同推动视频创作领域的进步，开启一个全新的时代。 open-sora新功能📍Open-Sora-v1 已发布。并提供了模型权重。且只需 400K 视频片段和在单卡
复制链接

扫一扫

专栏目录