Sora
【内容上】
- 最大支持60秒高保真视频生成,支持短视频前后扩展,即可保持视频连续,并扩展时长;
- 支持基于视频 +文本视频编辑,一句话改变原视频
【技术上】
- 将视频压缩为空间时间块(Spacetime patches),使用 Diffusion Transformer 作为主干网络建模。
- 由于将视频信息压缩为 lower-dimensional latent space,可支持不同尺寸、时间、分辨率的直接生成
【数据工程】
- 使用 DALLE3进行视频文本标注;
- 利用 GPT4 将用户输入的简短提示词,扩充为复杂细节文本;
【其他】
- 交互的细节仍有缺陷,如玻璃破碎与水流,雪地脚印无法生成等;
【相关技术架构】
SORA模型结构
训练流程
- step1:使用 DALLE 3(CLIP )把文本和图像对<text,image>联系起来
- step2:视频数据切分为 Patches 通过 VAE 编码器压缩成低维空间表示
- step3:基于 Difusion Transformer 从图像语义生成,完成从文本语义到图像语义进行映射;
- step4:DiT 生成的低维空间表示,通过 VAE解码器恢复成像素级的视频数据
模型训练
网络结构
【技术总结】
Scaling Law:模型规模的增大对视频生成质量的提升具有明确意义,从而很好地解决视频致性、连续性等问题;
Data Engine:数据工程很重要,如何设计视频的输入(e.& 是否截断、长宽比、像素优化2.等)、patches 的输入方式、文本描述和文本图像对质量;
AlInfra:AI系统(AI框架、AI编译器、AI 芯片、大模型)工程化能力是很大的技术壁垒决定了 Scaling 的规模。
LLM:LLM 大语言模型仍然是核心,多模态(文生图、图生文)都需要文本语义去牵引和约束生成的内容,CLIP/BLIP/GLIP 等关联模型会持续提升能力;