Sora是什么
Sora是一个AI模型,可以根据文本描述生成视频内容。
Sora 发展
图引用自课程ppt
AI视频生成时间线:
Sora能力
1. 文字生成视频
2. 图片生成视频
3. 改变源视频的风格/场景
4. 视频拓展
5. 创建无缝循环
6. 图片生成
7. 自定义输出视频比例
8. 链接虚拟世界,生成游戏视频场景
9. 在长达60s的视频中保持人物和场景的一致性
Sora模型训练流程
引用自深入剖析Sora原理:细节解读与技术洞见 - 知乎 (zhihu.com)
1. 收集视频数据与标注信息
2. 训练图片字幕模型
3. 利用GPT-4丰富视频描述
4. 切分视频为Patches
5. 应用视频压缩模型
6. 潜在空间中的视频数据处理
7. 应用扩散模型与Transformer进行训练
8. 视频恢复
9. 依赖强大的硬件和计算资源
Sora关键技术
1. Vision Transformer
2. Spacetime latent patches
3. 摊大饼法
4. VAE
5. VAE encoder
6. DDPM
7.DiT