最新功能概览
开源地址:https://github.com/hpcaitech/Open-Sora
技术报告:Open-Sora/docs/report_02.md at main · hpcaitech/Open-Sora · GitHub技术报告:
- 支持长视频生成;
- 视频生成分辨率最高可达 720p;
- 单模型支持任何宽高比,不同分辨率和时长的文本到图像、文本到视频、图像到视频、视频到视频和无限长视频的生成需求;
- 提出了更稳定的模型架构设计,支持多时间 / 分辨率 / 长宽比 / 帧率训练;
- 开源了最新的自动数据处理全流程。
时空扩散模型 ST-DiT-2
作者团队表示,他们对 Open-Sora 1.0 中的 STDiT 架构进行了关键性改进,旨在提高模型的训练稳定性和整体性能。针对当前的序列预测任务,团队采纳了大型语言模型(LLM)的最佳实践,将时序注意力中的正弦波位置编码(sinusoidal positional encoding)替换为更加高效的旋转位置编码(RoPE embedding)。
此外,为了增强训练的稳定性,他们参考 SD3 模型架构,进一步引入了 QK 归一化技术,以增强半精度训练的稳定性。为了支持多分辨率、不同长宽比和帧率的训练需求,作者团队提出的 ST-DiT-2 架构能够自动缩放位置编码,并处理不同大小尺寸的输入。
多阶段训练
根据 Open-Sora 技术报告指出,Open-Sora 采用了一种多阶段训练方法,每个阶段都会基于前一个阶段的权重继续训练。相较于单一阶段训练,这种多阶段训练通过