Sora视频生成大模型原理

url:Sora (openai.com)

Sora

【内容上】

  • 最大支持60秒高保真视频生成,支持短视频前后扩展,即可保持视频连续,并扩展时长;
  • 支持基于视频 +文本视频编辑,一句话改变原视频

【技术上】

  • 将视频压缩为空间时间块(Spacetime patches),使用 Diffusion Transformer 作为主干网络建模。
  • 由于将视频信息压缩为 lower-dimensional latent space,可支持不同尺寸、时间、分辨率的直接生成

【数据工程】

  • 使用 DALLE3进行视频文本标注;
  • 利用 GPT4 将用户输入的简短提示词,扩充为复杂细节文本;

【其他】

  • 交互的细节仍有缺陷,如玻璃破碎与水流,雪地脚印无法生成等;

【相关技术架构】

SORA模型结构

训练流程

  • step1:使用 DALLE 3(CLIP )把文本和图像对<text,image>联系起来
  • step2:视频数据切分为 Patches 通过 VAE 编码器压缩成低维空间表示
  • step3:基于 Difusion Transformer 从图像语义生成,完成从文本语义到图像语义进行映射;
  • step4:DiT 生成的低维空间表示,通过 VAE解码器恢复成像素级的视频数据

模型训练

网络结构

【技术总结】

Scaling Law:模型规模的增大对视频生成质量的提升具有明确意义,从而很好地解决视频致性、连续性等问题;

Data Engine:数据工程很重要,如何设计视频的输入(e.& 是否截断、长宽比、像素优化2.等)、patches 的输入方式、文本描述和文本图像对质量;

AlInfra:AI系统(AI框架、AI编译器、AI 芯片、大模型)工程化能力是很大的技术壁垒决定了 Scaling 的规模。

LLM:LLM 大语言模型仍然是核心,多模态(文生图、图生文)都需要文本语义去牵引和约束生成的内容,CLIP/BLIP/GLIP 等关联模型会持续提升能力;

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值