SORA原理与技术实战——Part01

文章深入探讨了Sora视频生成模型,包括其如何处理多样化的视频、时空信息的图像块处理、Transformer-Diffusion架构的应用、以及生成的三维一致性、长距离连贯性等特性。文章还讨论了模型的规模、训练方法和潜在应用,以及与现有技术的比较。
摘要由CSDN通过智能技术生成

【Sora前言】

Sora是一个高级的视频生成模型,它代表了在视频数据上应用大规模生成模型的一个进步,特别是在文本到视频的生成领域。Sora的创新之处在于它能够处理和生成不仅在持续时间、分辨率和宽高比方面多样化的视频,而且在质量上也能达到高保真度。这是通过将视频和图像数据转换成所谓的“时空补丁(patches)”,并在这些补丁上训练 transformer architecture 模型来实现的。

【数据处理】

1.包含时空信息的图像块

atches的实质就是将完整的图片拆成 NxN 的小方格后,再将每个图像块转换成向量,这样就得到了包含每个小方格位置信息的嵌入。

将原始视频数据转化为低维度潜空间特征。可能通过【VAE结构】,encoder将视频帧压缩到一个低维度隐式空间,然后展开成序列的形式送入模型训练,然后用decoder解码器去解码映射回像素空间形成视频。

2.在原始图片尺寸上训练

将视频预处理至新的长宽比通常会导致视频的原始构图丢失。一个在宽屏中心呈现人物的视频,裁剪后可能只能部分展示该人物。因为 Sora 能接收任何视频作为训练输入,所以其输出不会受到训练输入构图不良的影响。

3.使用re-captioning获得text-videos对

在训练阶段,Sora团队将DALL·E 3中介绍的标题生成技术用到了视频领域,训练了一个具备高度描述性的视频标题生成(video captioning)模型,为所有的视频训练数据生成了高质量文本标题。将视频按1帧或者隔n帧用DALLE3(CLIP)按照一定的规范形成对应的描述文本,然后输入模型训练。

在推理阶段,首先将用户输入的prompt用GPT4按照一定的规范把它详细化,生成高质量且具备很好描述性的高质量prompt,再送到视频生成模型完成生成工作。

【模型架构】

1.Diffusion-Transformer(DiT)架构

传统的扩散模型(Diffusion Model)的训练过程是通过多个步骤逐渐向图片增加噪点,直到图片变成完全无结构的噪点图片,然后在生成图片的时候,基于一张完全噪点的图片,逐步减少噪点,直到还原出一张清晰的图片。

Sora 则是一个融合了Transformer Diffusion 两者的模型。通过 Transformer 的encoder- decoder架构处理含噪点的输入图像,并在每一步预测出更清晰的图像版本。编码器负责对含噪点的输入进行编码,而解码器则负责生成更清晰图像的预测。

随着数据规模或者训练时间的增强,模型表现的效果越好。同时模型越大,patches越小,效果越好

2.整体结构图

【生成效果】

1.三维一致性

Sora可以生成具有动态摄像机移动的视频。随着摄像机的移动和旋转,人物和场景元素在三维空间中一致地移动。

2.长距离连贯性和物体持久性

Sora可以在人物、动物和物体被遮挡或离开画面时仍然保持它们的存在。同样,它可以在单个样本中生成同一角色的多个镜头,贯穿视频始终保持他们的外观。

3.世界交互

Sora可以模拟以简单方式影响世界状态的行为。

4.模拟数字世界

Sora还能够模拟人工造物,如游戏风格。

5.视频时间延伸

Sora 同样能够把视频往前或往后延伸。

【比对联想】

1.功能实质

A:  神经网络版本的三维虚拟引擎

B:  长程一致、空间相关能力极强的二维图像生成器。


那么已经展现的特征里是否能充分说明其具有3D建模和3D生成的能力?

不一定,由于视频所反映的物体是连续变化的,不能排除模型呈现的效果仅基于对上一帧的联想,未展现与现实训练样本不同的材质素材案例,如石头材质的云与环境交互。


一定程度的物理交互效果是基于物体与物体的交互逻辑还是天量数据的规律拟合?

报告中的蝴蝶更像套上滤镜,未涉及现实中不存在的蝴蝶出水的交互。


多镜头多视角的切换是否具有其他解释?

可能是生成一段场景:start,生成视频在时空上同时往前或往后延伸。删去start后拼接剩余视频。


2.涌现规模

视频生成的2维数据所需参数量相较LLM相差多少?若为情况A,此时进行迁移学习将GPT的概念理解能力辅助Sora理解实物和非实物难度多大?

【后期任务】

1.Diffusion视频生成任务

https://huggingface.co/docs/diffusers/index

2.Transformers diffusion模型实战

https://transformers.run/

3.声音生成TTS技术解析与实战

TTS语音合成技术-阿里云开发者社区

GitHub - netease-youdao/EmotiVoice: EmotiVoice 😊: a Multi-Voice and Prompt-Controlled TTS Engine

【引用】


【1】Video generation models as world simulators

【2】 Sora技术详解及影响分析 - 知乎

【3】最强文生视频模型 SORA 超详细解读 - 知乎

【4】Docs

【5】复刻Sora有多难?一张图带你读懂Sora的技术路径


  • 14
    点赞
  • 22
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值