Sora原理与技术实战 part1 技术路径

Sora是什么

Sora是一个AI模型,可以根据文本描述生成视频内容。

Sora 发展

图引用自课程ppt

AI视频生成时间线:

Sora能力

1. 文字生成视频

2. 图片生成视频

3. 改变源视频的风格/场景

4. 视频拓展

5. 创建无缝循环

6. 图片生成

7. 自定义输出视频比例

8. 链接虚拟世界,生成游戏视频场景

9. 在长达60s的视频中保持人物和场景的一致性

Sora模型训练流程

引用自深入剖析Sora原理:细节解读与技术洞见 - 知乎 (zhihu.com)

1. 收集视频数据与标注信息

2. 训练图片字幕模型

3. 利用GPT-4丰富视频描述

4. 切分视频为Patches

5. 应用视频压缩模型

6. 潜在空间中的视频数据处理

7. 应用扩散模型与Transformer进行训练

8. 视频恢复

9. 依赖强大的硬件和计算资源

Sora关键技术

1. Vision Transformer

2. Spacetime latent patches

3. 摊大饼法

4. VAE

5. VAE encoder

6. DDPM

7.DiT

  • 10
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值