近万字长文详解Sora技术报告：Sora为什么这么牛？

最新推荐文章于 2024-09-04 22:00:35 发布

DATA无界

最新推荐文章于 2024-09-04 22:00:35 发布

阅读量1.5k

点赞数 30

分类专栏：大语言模型 AI人工智能文章标签： AI Sora 人工智能

本文链接：https://blog.csdn.net/GYN_enyaer/article/details/136173203

版权

AI人工智能同时被 2 个专栏收录

16 篇文章 1 订阅

订阅专栏

大语言模型

13 篇文章 6 订阅

订阅专栏

OpenAI 的视频生成模型 Sora 这几天在全世界引起了轰动，OpenAI 也发布了Sora详细的技术报告，相关的图像和短视频 AI领域的创业者和从业者可能都需要仔细看看。

在这里插入图片描述

这篇技术报告里虽然不包含模型和实施细节，但是提供了 Open AI 的训练思路以及 Sora 详细的技术特性。

心急的小伙伴可以点击链接，立即查看由我手动整理翻译的研究报告。

OpenAI Sora 视频生成模型技术报告（中英双译，手动整理）

一、OpenAI 的研究结论：

先说研究结论：OpenAI 在探索视频数据生成模型的大规模训练的研究结果表明，扩展视频生成模型是构建物理世界通用模拟器的一条有前途的途径。

简单来说，当 Sora 训练的数据量足够大时，它也展现出了一种类似于涌现的能力，从而使得视频生成模型具备了类似于物理世界通用模拟器的潜力。

这意味着这些AI模型通过海量的数据可以学习到物体之间的相互作用、运动规律等，并且可以在生成视频时展现出这种模拟的效果，从而使生成的视频更加真实和逼真。就像Sora这样的模型，通过大量训练产生了类似于涌现的能力，即在没有显式编程的情况下，模型可以表现出复杂的行为和现象。这种能力的发展对于建立更加智能和逼真的虚拟世界以及在许多领域（如虚拟现实、视频游戏、仿真等）中有着广泛的应用前景。

二、Sora 技术特点解读

在这里插入图片描述

Sora 与之前的视频生成模型相比，具备以下5个技术特点：

多样化的视频和图像生成：Sora能够生成高保真度、多样性的逼真视频和图像内容，包括不同分辨率、持续时间和宽高比的视频和图像。
文本和图像/视频编辑能力：Sora能够根据文本提示生成内容，也能通过其他输入如图像或视频进行编辑，实现图像和视频的多种转换和处理。
Transformer架构支持：借助Transformer架构，Sora能够处理视频和图像的时空信息，实现对三维空间的连贯性建模，同时在生成过程中保持物体的持久性和长期连续性。
模拟能力和数字世界模拟：在大规模训练下，Sora展现出模拟物理世界中人、动物和环境的一些有趣能力，包括与世界互动的行为模拟和数字世界（如视频游戏）的模拟能力。
三维空间的连贯性和物体持久性：Sora能够生成具有动态相机运动的视频，在相机移动和旋转时，保持人物和场景元素在三维空间中的连贯运动。此外，Sora还能够有效地模拟短期和长期的依赖关系，确保在整个视频中物体的外观一致。

三、Sora 是怎么做到的

从技术报告中可以看出，Sora的训练受到了使用Transformer架构设计的大语言模型（Large Language Model，LLM）的启发。大语言模型通过在全球互联网级别规模的海量大数据上进行训练，获得了泛化的能力，这种思路也被应用到了Sora 的研发和训练中。

研究报告中指出，Sora实际上是一种扩散型变换器（Diffusion Transformer）模型。

可以从以下几个方面来理解：

基于扩散模型的生成： Sora使用扩散模型作为其基础生成框架。扩散模型通过逐步改进噪声样本来生成高质量的样本。在Sora中，这意味着模型逐渐改进噪声图像，直到生成高保真度的图像或视频。

扩散模型逐渐改进噪声图像

Transformer架构的应用： 尽管Sora是基于扩散模型的，但它还包含了Transformer架构的元素。Transformer架构用于处理视频和图像的时空信息，例如在生成视频时保持物体在三维空间中的连贯运动。

Transformer架构保持物体在三维空间中的连贯运动

综合了生成和变换器的优点： 将扩散模型与Transformer架构结合，使得Sora既能够利用扩散模型的生成能力，又能够利用Transformer架构处理视频和图像数据，从而获得了更强大的生成和编辑能力。

具体来说，Sora的研发思路可以理解为受到大语言模型（LLM）的启发。

3.1、从大语言模型（LLM）获得的启发

大语言模型（LLM）成功地利用标记（tokens）来统一处理不同类型的文本数据，例如代码、数学和自然语言。Sora的开发团队在这项工作中考虑和借鉴了类似的思路，思考如何将这种标记的概念应用到视觉数据的生成模型中，以获得相似的好处。他们将视觉数据转换为补丁（patches），这些补丁类似于LLM中的标记，被用来表示不同类型的视觉信息，包括视频和图像。之前的研究已经证明了补丁作为视觉数据模型的有效表示形式。

在Sora的研发过程中，首先将视频数据压缩到低维潜在空间中，然后将这些压缩表示分解为时空补丁。这种方法使得模型能够更有效地处理和学习不同类型的视频数据。因此，Sora的研发思路可以理解为借鉴了LLM中标记的思想，并将其应用到视觉数据的生成模型中，通过使用视觉补丁作为模型的输入表示形式，实现了对多样化视频和图像内容的有效处理和生成。

Open AI 研发团队训练了一个降低视觉数据维度的网络，这个网络的作用是将原始视频输入，然后输出在时间和空间上压缩的潜在表示。这种压缩的表示可以看作是对视频内容的一种抽象和简化，使得模型能够更有效地处理和学习视频数据。

接着让 Sora 在这个压缩的潜在空间中接受训练，并随后用于生成视频。这表明Sora模型是在压缩的潜在空间中进行训练的，这样可以更高效地处理视频数据，并且能够更好地捕捉视频的特征和内容。

同时，Sora 也训练了相应的解码器模型，用于将生成的潜在表示映射回像素空间。这个解码器模型的作用是将Sora生成的压缩表示还原为像素级的图像或视频，使得最终生成的内容具有高保真度。

3.2、时空补丁的提取

对于给定的压缩输入视频，首先从中提取一系列时空补丁。这些补丁可以被看作是视频数据在时间和空间维度上的局部片段，类似于图像中的小块或图块。通过提取这些补丁，可以将视频数据分解成更小的单元，以便模型更好地处理和学习。

提取的时空补丁被用作模型的输入表示，类似于Transformer模型中的标记（tokens）。在Transformer模型中，tokens 用于表示序列数据的不同部分，而在Sora中，时空补丁被用于表示视频数据的局部片段。这种表示形式使得模型能够更好地理解和学习视频数据的时空结构和特征。

同时这种提取时空补丁的方案也适用于处理图像数据。因为图像可以被视为只有一个时间帧的视频，所以同样可以从图像中提取时空补丁。这意味着Sora模型不仅可以处理视频数据，也可以处理静态图像数据，从而具备更广泛的适用性和灵活性。

最后，在推理时，可以通过在适当大小的网格中排列随机初始化的补丁来控制生成视频的大小。这意味着可以通过调整补丁的数量和排列方式来控制生成视频的大小和分辨率，从而使得Sora具有更大的灵活性和适用性。

3.3、怎么理解“时空补丁”的处理方式？

一开始我对“时空补丁”这个概念也没弄懂，后来查阅资料才理解，"时空补丁"是指在视频生成模型中对视频进行处理和表示的一种方法。

它实际上就是将视频分解为一系列小的片段（小块），每个小块都包含了视频中一段时间和一块空间内的信息。这些时空补丁充当了模型操作的基本单位，类似于自然语言处理中的标记或单词，允许模型在不同的时间和空间范围内进行信息交换和操作。

为什么要使用“时空补丁”这样的处理方式呢？

这是因为当我们处理视频数据时，我们需要考虑时间和空间两个维度。

传统的方法可能会将视频简单地分解为一系列连续的帧，但这种方法忽略了视频中的空间信息，也就是在每一帧中物体的位置和运动。而时空补丁的概念则更全面地考虑了这两个方面。

时空补丁将视频分解为一系列小块，每个补丁都包含了一段时间内的连续帧以及这些帧中物体的空间信息。这样的分解方式使得模型能够同时考虑到视频中的时间和空间关系，从而更好地理解视频内容。

在生成视频的过程中，模型可以对这些时空补丁进行操作，比如在前一帧和后一帧之间生成新的补丁来创建新的帧，或者调整现有的补丁来改变视频中物体的位置或动作。由于在连续帧中存在时空连续性，那么这种精细的时间和空间控制就可以使得模型能够更准确地生成视频，并且能够捕捉到视频中细微的动作和变化。

通过对视频进行这种分解，模型能够更有效地处理和理解视频数据，从而实现更准确和逼真的视频生成。

为了理解方便，我们举个例子：
假设我们有一个视频文件，其中包含一个人在房间里走动的场景。我们希望将这个视频输入到一个生成模型中，以生成一个新的视频，其中包含了不同的背景或动作。

首先， 我们需要将原始视频文件加载到内存中。然后，我们可以使用视频处理库（如OpenCV）将视频分解成一系列连续的帧。

接下来， 我们需要选择一个合适的补丁大小来分割这些帧。补丁的大小应该足够小，以便于模型能够捕捉到视频中的细微变化，但也不至于太小以至于导致计算量过大。通常情况下，补丁的大小可以根据视频的帧率和分辨率来确定。一旦确定了补丁的大小，我们就可以开始将视频分解成时空补丁。

每个时空补丁都由一段时间内的连续帧组成，以及这些帧中物体的空间信息。这可以通过从原始视频中提取连续的帧，并将它们按照补丁的大小进行组合来实现。

比如，如果我们的补丁大小为5帧（即每个补丁包含5个连续的帧），那么我们可以从原始视频中提取出连续的5帧，并将它们作为一个时空补丁。然后，我们可以移动一个补丁的大小，提取另一个连续的5帧，并将它们作为下一个时空补丁，依此类推，直到我们处理完整个视频。

最后， 我们可以将这些时空补丁作为模型的输入，训练模型来生成新的视频。模型可以学习到视频中的时间和空间关系，并根据输入的补丁来生成相应的视频内容。通过这种方式，模型可以更好地理解和生成视频内容，从而实现更高质量的视频生成。

3.4、随着训练计算的增加，Sora 生成样本的质量明显提高。

这表明Sora模型在训练过程中，通过增加计算资源的投入，能够生成更高保真度、更逼真的视频和图像样本。

这种现象是由于模型在更多的训练迭代中能够更好地学习数据的特征和分布，从而生成更符合真实场景的样本。

因此，增加训练计算的投入可以提高模型的性能和生成质量。

3.5、原始训练数据的裁剪

相较于传统方法通常会对视频进行调整大小、裁剪或修剪为标准尺寸，Sora模型在训练时选择不对原始视频素材进行裁切。

这种做法带来了几个好处。

首先，Sora模型可以在原始大小的数据上进行训练，而不需要进行任何形式的裁剪或调整。这使得模型具有了更大的灵活性，能够处理各种不同尺寸和宽高比的视频。

其次，由于训练数据保持了原始长宽比，Sora模型的生成样本在构图和取景方面表现更好。与那些在方形裁剪上训练的模型相比，Sora生成的视频更自然、更完整，能够更好地捕捉视频的整体内容和主题。

3.6、Prompt 文本提示词的引入

OpenAI 为了训练从文本到视频的生成，Sora需要大量带有相应文本字幕的视频训练数据集。

为了解决这个问题，Sora团队采用了重新字幕技术，这是从DALL·E 3中引入的一种技术。

具体来说，Sora团队首先训练了一个高度描述性的字幕生成器模型，然后利用这个模型为训练集中的所有视频生成了文本字幕。通过这种方式，他们发现对高度描述性的视频字幕进行训练可以提高文本的保真度以及视频的整体质量。

与DALL·E 3类似，Sora团队还利用GPT将简短的用户 Prompt 提示扩展转换为更长、更详细的字幕，然后将这些字幕发送到视频模型中。这使得Sora能够生成准确遵循用户提示的高质量视频。

a-woman-wearing-blue-jeans

Prompt：
a-woman-wearing-blue-jeans-and-a-white-t-shirt-taking-a-pleasant-stroll-in-Johannesburg-South-Africa-during-a-beautiful-sunset
(一个穿着蓝色牛仔裤和白色 T 恤的女人在美丽的日落期间在南非约翰内斯堡愉快地散步)

此外，Sora还具有通过其他输入进行提示的功能，例如预先存在的图像或视频。这使得Sora能够执行各种图像和视频编辑任务，例如创建完美的循环视频、将静态图像动画化，以及及时向前或向后扩展视频等。

这些功能增强了Sora的灵活性和多样性，使其能够满足不同类型的用户需求和应用场景。

3.7、新兴的世界模拟功能

OpenAI 在训练大规模视频生成模型时，Sora 还展现出许多有趣的新功能，使其能够模拟现实世界中人、动物和环境的某些方面。这些功能的出现并没有受到任何明确的归纳偏差的影响，而是纯粹是尺度现象，即通过大规模海量数据集训练达到的效果。

3D一致性：Sora能够生成带有动态摄像机运动的视频，在摄像机移动和旋转时，视频中的人物和场景元素会在三维空间中保持一致的运动，这表现出了模型对于三维空间的理解和模拟能力。
远程相干性和物体持久性：在面对长视频采样时，Sora通常能够有效地模拟短期和长期的依赖关系。例如，模型可以在视频中保留人、动物和物体，即使它们被遮挡或离开画面。这表明模型能够理解和保持视频中物体的持久性和一致性。
与世界互动：Sora有时能够模拟简单影响世界状态的行为。例如，画家在画布上留下新的笔触，并随着时间的推移而持续存在，或者一个人吃汉堡并留下咬痕。这表明模型能够模拟物体之间的互动和影响。
模拟数字世界：Sora还能够模拟人工过程，例如视频游戏。模型可以通过基本策略控制《我的世界》中的玩家，并以高保真度渲染世界及其动态。这些能力可以通过提供关于“我的世界”的提示来激发Sora，使其能够在模拟数字世界方面表现出色。

这些功能表明视频生成模型的持续扩展是开发高性能模拟器的非常有前途的道路，这些模拟器可以模拟物理世界和数字世界以及其中的物体、动物和人。

在我看来，这或许是 Sora 最大的前景和潜力的技术特点之所在，这意味着只要算力足够强大，结合类似于 Apple Vision Pro 这样的 AR/VR 交互设备，AI 模拟器可以模拟物理世界和数字世界以及其中的任何物体、动物和人类，具备超强算力的 AI 非常有可能在未来建构一个类似于电影《黑客帝国》或《头号玩家》那样逼真、复杂的虚拟宇宙出来，并且可以让人类玩家在其中像真实世界一样活动、社交和工作。

在这里插入图片描述

当然，要实现类似《黑客帝国》或《头号玩家》中展示的虚拟宇宙，还需要超越视频生成的能力。这包括对环境的实时交互性、更加复杂的人物行为模拟、大规模多人在线互动等方面的技术突破，但是至少目前我们已经看到一丝曙光了。

除此之外，这个技术特点还对人类的科技发展具备相当重大的未来意义，通过视频生成模型的持续扩展，人类可以开发出高性能的模拟器，这些模拟器可以模拟现实物理世界和数字世界中的各种情景和对象。这对于许多科研领域和产业发展都具有巨大的潜力和影响，包括但不限于：

科学研究： 模拟器可以帮助科学家们更好地理解物理规律和现象，加速科学研究的进程。例如，模拟器可以用于研究气候变化、地质变化等。

虚拟现实： 模拟器可以用于创建逼真的虚拟现实环境，使用户可以沉浸在虚拟世界中进行各种体验和互动。

教育和培训： 模拟器可以用于教育和培训领域，帮助学生和专业人士模拟各种场景，提高学习效率和技能水平。

娱乐产业： 模拟器可以用于电影、电视和游戏等娱乐产业，创造更加逼真和引人入胜的视听效果。

医学和医疗： 模拟器可以用于医学领域，帮助医生和研究人员模拟手术和治疗过程，提高医疗水平和安全性。

四、Sora 目前的一些限制

在论文的结尾部分， OpenAI 还探讨了 Sora 作为世界模拟器现有的一些限制。

当提到Sora作为模拟器存在的局限性时，主要是指其在模拟物理过程和对象互动方面的不足。例如，还无法准确模拟玻璃杯被打碎之后玻璃破碎四溅这样的真实物理过程，或者在模拟一些互动时，尚不能正确地改变对象的状态和变化，比如在吃食物这一场景中。

discussion

这些局限性有可能源于模型在训练过程中所接触到的数据尚不足以涵盖所有可能的场景和物理规律，导致模型在某些情况下表现不佳。

此外，在长时间样本中出现不连贯性或对象自发出现等故障模式也表明，模型在某些情况下可能缺乏对场景和物体状态的全面理解。

然而，尽管存在这些局限性，OpenAI 仍然认为 Sora 这个视频生成模型展示出的能力是非常令人鼓舞的。

它为未来发展视频模型提供了重要的启示，即通过持续扩展模型的规模和训练数据，可以更好地模拟真实的物理和数字世界，包括其中的物体、动物和人，这条道路是非常有前景的。

这表明像Sora 这类的视频生成模型在未来有望成为构建更复杂、更逼真虚拟世界的重要技术基础。

在这里插入图片描述
《黑客帝国》或《头号玩家》那样的虚拟世界如果真的有可能在未来成为现实，你会作何感想？

五、报告关键要点

OpenAI 的研究报告《Video generation models as world simulators》探讨了在视频数据上进行大规模视频生成模型训练的方法。

具体而言，OpenAI 的技术团队在大量的不同持续时间、分辨率和长宽比的视频和图像上训练了文本条件扩散模型Sora 。研究重点包括将视频转换为时空补丁表示，利用Transformer架构进行扩展，训练扩散模型以预测原始视频的“干净”补丁，以及利用重新字幕技术训练文本到视频生成系统，生成准确遵循用户提示的高质量视频，以及模型能够模拟人工过程，如视频游戏，为构建高性能的物理和数字世界模拟器提供了有前景的道路。研究指出，这些方法有助于模拟数字世界，但也存在局限性，如无法准确模拟某些物理过程中的基本相互作用。

大规模训练和统一视觉数据表示：研究团队使用大规模视频数据对生成模型进行训练，通过将不同持续时间、分辨率和长宽比的视频和图像分解为统一的时空补丁表示，使得模型能够处理各种类型的视觉数据，旨在构建对物理世界具有普适性的模拟器。
视频压缩网络和数据转换补丁：研究团队训练了一个视频压缩网络，将原始视频压缩到低维潜在空间，并将其表示分解为时空补丁，以便模型处理。Sora在这个压缩的潜在空间中接受训练并生成视频。
扩散变换模型（Diffusion Transformer）：Sora使用扩散模型作为其生成框架，通过逐步改进噪声样本生成高质量的图像或视频。同时，Sora还应用了Transformer架构来处理视频和图像的时空信息，例如保持物体在三维空间中的连贯运动。这种结合生成和变换器的方式使得Sora具有了更强大的生成和编辑能力。
可变的持续时间、分辨率和长宽比：与以前的方法不同，研究团队使用原始大小的数据进行训练，使得模型能够适应不同持续时间、分辨率和长宽比的视频。
文本到视频生成系统：通过重新字幕技术，研究团队成功训练了文本到视频生成系统，使得模型能够根据文本提示生成高质量的视频。
适应性采样：Sora 模型能够灵活采样不同分辨率、持续时间和长宽比的视频，以满足不同设备的需求。
图像编辑能力：Sora不仅可以根据文本提示生成视频，还可以利用现有的图像或视频进行提示。这让Sora能够执行各种图像和视频编辑任务，如生成完美循环的视频、使静态图像动画化以及向前或向后扩展视频等。
模拟数字世界：视频模型在经过大规模训练后展现出了一些引人注目的新功能，使得Sora能够模拟现实世界中的某些方面。这些功能包括生成具有动态相机运动的视频，以及在长时间范围内保持一致性和对象的持久性。
局限性和挑战：尽管Sora在模拟现实世界方面表现出了一定的能力，但仍然存在一些局限性，如无法准确模拟许多基本物理过程的相互作用。
持续发展：模型的性能表明，通过持续扩展视频生成模型的规模，可以为构建高性能的物理和数字世界模拟器奠定基础，从而实现更广泛的应用。

通过这份研究报告，我们可以看到OpenAI在视频生成领域取得了显著进展，展示了Sora这样的模型在模拟物理世界和数字世界方面的潜力。

未来，OpenAI可能会继续深入研究视频生成模型，并希望通过不断扩展和改进这些模型，开发出更加智能和全面的世界模拟器。

这些模拟器可以广泛应用于虚拟现实、视频游戏开发、影视制作等领域，为人类创造出更加逼真和丰富的数字体验。

同时，OpenAI可能也会进一步探索如何将这些模型与其他领域的AI技术结合，创造出更加强大和多样化的人工智能应用。

六、论文信息

OpenAI 原始论文地址链接：

Research: Video generation models as world simulators

中英双译，手动整理版链接：

OpenAI Sora 视频生成模型技术报告

DATA无界

关注

30
点赞
踩
36

收藏

觉得还不错? 一键收藏
0
评论
近万字长文详解Sora技术报告：Sora为什么这么牛？

简单来说，当 Sora 训练的数据量足够大时，它也展现出了一种类似于涌现的能力，从而使得视频生成模型具备了类似于物理世界通用模拟器的潜力。这意味着AI模型通过海量的大数据可以学习到物体之间的相互作用、运动规律。
复制链接

扫一扫