OpenAI 文本创建视频模型 Sora 技术报告

lichunericli

已于 2024-03-09 17:14:25 修改

阅读量1.2k

点赞数 22

分类专栏： Multi-Modal 文章标签：人工智能计算机视觉深度学习

于 2024-02-19 16:44:54 首次发布

本文链接：https://blog.csdn.net/lichunericli/article/details/136171738

版权

Multi-Modal 专栏收录该内容

17 篇文章 0 订阅

订阅专栏

本文探讨了如何使用大规模视频数据训练视频生成模型Sora，特别是通过Transformer架构处理时空图像块。Sora展示了生成不同尺寸、时长视频的能力，被视为有潜力的物理世界模拟器。文章还讨论了模型的优点、局限性和未来的发展方向。

摘要由CSDN通过智能技术生成

原文地址：Video generation models as world simulators

作为世界模拟器的视频生成模型

我们探讨了在大规模视频数据上进行生成模型的训练。具体来说，我们对视频和不同时长、分辨率和宽高比的图像进行文本条件扩散模型的联合训练。我们利用了一种变压器架构，该架构对视频和图像潜在代码的空间时间块进行操作。我们最大的模型Sora能够生成高保真度的视频。我们的结果表明，扩大视频生成模型是一个很有前途的通用物理世界模拟器构建途径。

本技术报告侧重于（1）我们用于将所有类型的视觉数据转换为统一表示的方法，以便对生成模型进行大规模训练，以及（2）对Sora的能力和局限性的定性评估。本报告中不包含模型和实现细节。

许多先前的工作已经使用各种方法研究了视频数据的生成建模，包括递归网络，生成对抗网络，自回归变换器，以及扩散模型。这些工作通常专注于视觉数据的狭窄类别，或者较短的视频，或者固定大小的视频。Sora是一个视觉数据的多面手模型——它可以生成跨越不同时长、宽高比和分辨率的视频和图像，直至一分钟的高清视频。

将视觉数据转换为图像块

我们从大型语言模型中获得灵感，这些模型通过在互联网规模的数据上进行训练获得了多面手的能力。LLM范式成功的一部分原因是使用了令牌（tokens），这些令牌优雅地统一了文本的多样化模态—代码、数学和各种自然语言。在这项工作中，我们考虑了视觉数据的生成模型如何继承这些好处。尽管LLMs有文本令牌，但Sora有视觉图像块（patches）。之前的研究已经表明图像块对于视觉数据模型来说是一种有效的表示。我们发现图像块在训练不同类型视频和图像的生成模型时，是一种高度可扩展且有效的表示。

在较高的层面上，我们首先将视频压缩到一个低维的潜在空间中，然后将这种表示分解为时空图像块。

视频压缩网络

我们训练了一个网络，以降低视觉数据的维度。这个网络接收原始视频作为输入，并输出一个在时间和空间上都进行了压缩的潜在表示。Sora在这个压缩的潜在空间中进行训练，并随后在此空间内生成视频。我们还训练了一个相应的解码器模型，将生成的潜在表示映射回像素空间。

时空潜在图像块

给定一个压缩后的输入视频，我们提取了一系列作为transformer令牌的时空图像块。这个方案也适用于图像，因为图像只是单帧的视频。我们的基于图像块的表示使得Sora能够训练不同分辨率、时长和宽高比的视频和图像。在推理时，我们可以通过在一个适当大小的网格中排列随机初始化的图像块来控制生成视频的大小。

为视频生成扩展变换器模型

Sora是一个扩散模型；给定输入的噪声图像块（以及如文本提示的条件信息），它被训练来预测原始的“干净”图像块。重要的是，Sora是一个扩散变换器。Transformers在各种领域，包括语言建模，计算机视觉，以及图像生成中展示了显著的扩展特性。

在这项工作中，我们发现扩散transformers作为视频模型也有效地扩展了。下面，我们展示了随着训练的进行，具有固定种子和输入的视频样本的比较。随着训练计算的增加，样本质量明显提高。

可变时长、分辨率、宽高比

过去的图像和视频生成方法通常会将视频调整为标准大小——例如，4秒长、256x256分辨率。我们发现，改为在其原始大小下进行训练会带来几个好处。

采样灵活性

Sora可以采样宽屏1920x1080p视频，垂直1080x1920视频以及两者之间的任何格式。这使得Sora能够直接在不同设备的原生宽高比下创建内容。它还允许我们在生成全分辨率内容之前，以较低的大小快速原型制作内容——所有这些都使用同一个模型。

改进的构图和框架

我们从经验上发现，以视频的原生宽高比进行训练可以改善构图和框架。我们将Sora与我们在训练生成模型时通常采用的将所有训练视频裁剪为方形的版本的模型进行比较。在方形裁剪（左）上训练的模型有时会生成主题只部分可见的视频。相比之下，Sora（右）生成的视频具有改进的框架。

语言理解

训练文本到视频生成系统需要大量的带有相应文字标题的视频。我们将DALL·E 330中引入的重标题技术应用于视频。我们首先训练一个高度描述性的标题生成模型，然后使用它为我们训练集中的所有视频生成文字标题。我们发现，在高度描述性的视频标题上进行训练可以提高文本的忠实度以及视频的整体质量。

与DALL·E 3类似，我们还利用GPT将简短的用户提示转换为更长的详细标题，然后发送给视频模型。这使得Sora能够生成高质量的视频，准确地遵循用户提示。

使用图像和视频进行提示

上述所有结果以及我们登陆页面展示的都是文本到视频的样本。但是Sora也可以使用其他输入进行提示，例如预先存在的图像或视频。这种能力使Sora能够执行广泛的图像和视频编辑任务——创建完美循环的视频，动画化静态图像，向前或向后延伸视频的时间等。

动画化DALL·E图像

Sora能够根据输入的图像和提示生成视频。下面我们展示了基于DALL·E 2和DALL·E 3图像生成的示例视频。

延伸生成的视频

Sora还能够延伸视频，无论是在时间上向前还是向后。下面是四个视频，它们都是从生成的视频片段开始向后延伸时间的。因此，这四个视频的开头各不相同，但最终都会导向相同的结尾。

我们可以使用这种方法来前后延伸视频，以产生一个无缝的无限循环。

视频到视频编辑

扩散模型已经启用了一系列方法，可以从文本提示中编辑图像和视频。下面我们将其中一种方法，SDEdit，应用于Sora。这项技术使Sora能够零样本地转换输入视频的风格和环境。

连接视频

我们还可以使用Sora在两个输入视频之间逐渐插值，从而在不同主题和场景构图的视频之间创建无缝过渡。在下面的例子中，中间的视频插值于左右两侧的相应视频。

图像生成能力

Sora也能够生成图像。我们通过在一个时间跨度为一帧的时空网格中排列高斯噪声图像块来实现这一点。该模型可以生成不同大小的图像——最高可达2048x2048分辨率。

充满活力的珊瑚礁，五彩缤纷的鱼和种类繁多的海洋生物。

新兴的模拟能力

我们发现，当在大规模上进行训练时，视频模型展现了许多有趣的涌现能力。这些能力使得Sora能够模拟现实世界中人物、动物和环境的一些方面。这些属性是在没有明确的3D、物体等归纳偏置的情况下出现的——它们纯粹是规模现象。

3D一致性。Sora可以生成具有动态相机移动的视频。随着相机的移动和旋转，人物和场景元素在三维空间中一致地移动。

长距离一致性和物体持久性。对于视频生成系统来说，一个重大的挑战是在采样长视频时保持时间一致性。我们发现Sora通常（尽管不是总是）能够有效地建模短期和长期依赖关系。例如，我们的模型可以在人物、动物或物体被遮挡或离开画面时仍然保持它们的持久性。同样，它可以在单个样本中生成同一角色的多个镜头，并在整个视频中保持其外观的一致性。

与世界互动。Sora有时可以模拟影响世界状态的行为。例如，画家可以在画布上留下随时间持久的新笔画，或者一个人可以吃汉堡并留下咬痕。

模拟数字世界。Sora还能够模拟人工过程——一个例子是视频游戏。Sora可以同时用基本策略控制Minecraft中的玩家，同时以高保真度渲染世界及其动态。通过提示Sora提及“Minecraft”的标题，可以零样本地引出这些功能。

这些能力表明，继续扩展视频模型是开发能够模拟物理和数字世界及其内部对象、动物和人类的强大模拟器的一条有希望的道路。

Discussion

We enumerate other common failure modes of the model—such as incoherencies that develop in long duration samples or spontaneous appearances of objects—in our landing page.

Sora目前作为一个模拟器存在许多局限性。例如，它并不准确地模拟许多基本交互的物理现象，比如玻璃破碎。其他交互，如吃东西，并不总是导致对象状态正确的改变。我们在我们的登录页面上列举了模型的其它常见失败模式——比如在长时间样本中发展的不一致性或物体的自发出现。