OpenAI Sora原理探究

西湖有大葱

已于 2025-01-03 16:18:11 修改

阅读量1.8k

点赞数 18

文章标签：计算机视觉人工智能深度学习

于 2024-02-28 16:04:29 首次发布

本文链接：https://blog.csdn.net/Evan123mg/article/details/136347779

版权

背景介绍：

春节假日期间，美国人工智能研究公司OpenAI发布了Sora模型。在文生文、文生图之后，Sora突破了文生视频技术，可以根据文本指令生成长达1分钟的逼真和富有想象力的视频，引起网络和公众高度关注。那么Sora模型的基本原理是什么？可能会带来哪些变化和影响？

原理介绍：

我们将sora的整个训练过程可以划分为四个大的步骤

步骤一：使用 DALLE 3( CLIP )把文本和图像对 <text，image> 建立关联性;

在训练阶段，将视频按1帧或者隔n帧用DALLE3(CLIP)按照一定的规范形成对应的描述文本，然后输入模型训练。

在推理阶段，首先将用户输入的prompt用GPT4按照一定的规范把它详细化，然后输入模型得到结果。

DALLE2结构

CLIP 接受~亿对 <图片-文字> 数据训练，学习到给定文本与图像的关系

CLIP 并不是试图预测给定图像对应文字说明，而是学习给定文本与图像之间的关联，

步骤二：视频数据切分为 Patches 通过 VAE 编码器压缩成低维空间表示

首先要了解VAE的网络结构

VAE的基本框架,模型接受x为输入,编码器将其压缩到潜空间,解码器以在潜空间采样的信息为输入,

并产生x'使其与x尽可能相似。

Sora首先通过一个encoder【VAE结构】将视频帧压缩到一个低维度隐式空间（包含时间和空间上的压缩，然后展开成序列的形式送入模型训练，同样的模型预测也是隐式的序列，然后用decoder解码器去解码映射回像素空间形成视频

最终效果可以统一不同大小格式的视频和图片数据，具有可扩展性

在推理阶段可以通过将patches组合成不同形状从而控制视频生成的尺寸大小

步骤三:基于 Difusion Transformer 从图像语义生成，完成从文本语义到图像语义进行映射;

潜空间扩散模型 LDM

Latent Diffusion Models（LDMs）是基于潜空间的扩散模型，LDMs 大量自编码器的运算基于潜空间数据，降低了计算复杂度，从而大幅节省了算力，其应用场景包含有条件（根据文本或图像生成图像）和无条件（去噪/着色/根据涂鸦合成）的图像生成。

主逻辑分成三部分：第一部分是像素空间与潜空间之间的转换，即感知图像压缩（粉色）；

第二部分是在潜空间操作的扩散模型（绿色）；

第三部分是用文本描述或其它图片作为条件，控制图像生成（白色）。

U 型网络结构 U-Net，LDM 的绿色部分包含 U-Net，它最早被应用于医学影像领域，用于识别病灶。

它是一个典型的编码解码器结构，结构完全对称，UNet 架构的归纳偏差对具有空间结构（上下左右的相关性）的数据特别有效，之前的扩展模型内部都是基于 U-Net 网络构建的。

结合 Diffusion 与 Transformer DiT

DIT 的核心是提出用基于潜空间 patch 的 Transformer 模型替换之前的 U-Net 模型，来预测噪声实现去噪，这个替换效果就是随着数据规模或者训练时间的增强，模型表现的效果越好。

把图片切成小块 patch（可将其视为 LLM 中的 token，简单地讲就是语言模型中的词），然后输入 Transformer 结构，使模型学习每帧图像内部小块之间的空间关系。

步骤四:DiT 生成的低维空间表示，通过VAE 解码器恢复成像素级的视频数据

最后我们看下sora整体结构,按照我们上面分开描述的模块,我们将所有的模块组合就是最终的sora网络训练架构,分别包含 VAE DiT(DDPM) CLIP等

参考b站up主ZOMI酱的画的Sora结构

现有缺陷：

Sora目前的技术路线还无法正确模拟世界的物理规律

Sora之所以能对物理世界规律进行模拟，一个可能的原因在于大数据驱动下，人工智能模型体现出一种学习能力，即Sora通过观察和学习海量视频数据后，洞察了视频中时空子块单元之间所应保持的物理规律。其实，人类也是基于对自然界斗转星移、节气变迁和昼夜交替，以及微观物质世界物质合成与生命演化的观测，推导出各种物理规律。虽然Sora很难像人类一样，将物理世界中诸如牛顿定律、湍流方程和量子学定理等，以数学方程罗列于人工模型中，但Sora能记住时空子块单元之间应遵守的模式，进而利用这些模式约束时空子块的组合。

OpenAI 技术报告中透露，Sora能够深刻地“理解”运动中的物理世界，堪称真正的世界模型。OpenAI想强调，Sora不是单纯的视频生成模型，不只是视频行业颠覆者，而是世界的模拟器，它打开了一条通往模拟物理世界的有效路径。OpenAI仅列举了作为物理世界的模拟器应具备的几个特点和例子——3D一致性、远程相关性、物体持久性、与世界互动等，却并未对“什么是世界的模拟器”做任何定义和具体分析。但我们大概可以总结出它的逻辑：Sora生成的视频能够在相当长的时空范围内不违反物理世界的常见规律，比如重力、光电、碰撞等。如果模型规模进一步提升，它有可能模拟生成物理世界的视频。

世界模拟器是指可以逼真反映虚拟世界或现实世界的模型或系统。物理世界的模拟器能够在虚拟环境中重现物理现实，为用户提供一个逼真且不违反物理规律的数字世界。

Sora生成视频中之所以会出现违背物理学规律的例子，也可以从其文生视频的原理来分析：

Sora将视频分解成时空令牌，然后学习上下文中令牌间连接的概率分布，并且依据这一概率分布由白噪声生成令牌、连接令牌，解码成短视频。每个令牌表达图像或者视频中的一个局部区域，不同局部区域间的拼接成为问题的关键。

Sora相对独立地学习每个令牌，将令牌间的空间关系用训练集中体现的概率来表达，但无法精准表达令牌间时空的因果关系。这种“局部合理，整体荒谬”的生成视频，意味着模型学会了碎片化知识的连接概率，但是缺乏时空上下文的大范围整体观念。

另外Sora采用的是目前最为热门的扩散模型，在计算传输映射的时候，必然会光滑化数据流形的边界，从而混淆不同的模式，直接跳过临界态图像的生成。因此视频看上去从一个状态突然跳跃到另外一个状态，中间最为关键的倾倒过程缺少，导致物理上的荒谬。

由此可见，虽然Sora声称是“作为世界模拟器的视频生成模型”，但目前的技术路线无法正确模拟世界的物理规律。

究其原因，首先，用概率统计的相关性（指Transformer用以表达令牌之间的统计相关性）无法精确表达物理定律的因果性，自然语言的上下文相关无法达到偏微分方程的精密程度，而物理定律目前只有偏微分方程才能精密表达；

其次，虽然Transformer可以学习临近时空令牌间的连接概率，但是无法判断全局的合理性，整体的合理性需要更高层次的数学理论观点、或者更为隐蔽而深厚的自然科学和人文科学的背景，目前的Transformer无法真正悟出这些全局观点；

另外，Sora忽略了物理过程中最为关键的临界（灾变）态，一方面因为临界态样本的稀缺，另一方面因为扩散模型将稳恒态数据流形的边界模糊化，消弭了临界态的存在，生成的视频出现了不同稳恒态之间的跳跃。