openAI Video generation models as world simulators 视频生成模型作为世界模拟器文本生成视频模型Sora 通用的视觉数据模型

本文链接：https://blog.csdn.net/chenhao0568/article/details/136136392

Sora是一种通用的视频和图像生成模型，通过大规模训练在不同持续时间、分辨率和纵横比的视频上表现优秀。它利用Transformer架构处理时空补丁，能生成长达一分钟的高清视频。研究探讨了视频生成模型作为物理世界模拟器的潜力和局限性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

来源：https://openai.com/research/video-generation-models-as-world-simulators

Sora 是一种通用的视觉数据模型，它可以生成跨越不同持续时间、纵横比和分辨率的视频和图像，最多可生成一分钟的高清视频。

我们探索了在视频数据上大规模训练生成模型。具体来说，我们在可变持续时间、分辨率和纵横比的视频和图像上联合训练文本条件扩散模型。我们利用一种 transformer 架构，该架构在视频和图像潜在代码的时空补丁上运行。我们最大的型号 Sora 能够生成一分钟的高保真视频。我们的结果表明，扩展视频生成模型是构建物理世界通用模拟器的一条有前途的途径。

（1）我们将所有类型的视觉数据转换为统一表示的方法，以实现生成模型的大规模训练
（2）对Sora的功能和局限性进行定性评估。本报告未包括模型和实施细节。

使用各种方法对视频数据进行生成建模，包括循环网络、生成对抗网络，自回归变压器和扩散模型。这些作品通常集中在一小部分视觉数据、较短的视频或固定大小的视频上。

将可视化数据转换为补丁

在这里插入图片描述
本工作从大型语言模型中获得灵感，这些模型通过在互联网规模的数据上训练来获得通用能力。成功的LLM范式部分得益于使用能够优雅地统一文本多种模态（代码、数学和各种自然语言）的令牌。我们考虑视觉数据的生成模型如何继承这些好处。与LLM拥有文本令牌不同，Sora使用的是视觉补丁。以前的研究已经显示，补丁是视觉数据模型的有效表示。我们发现，补丁是训练多种视频和图像的生成模型的高度可扩展和有效的表示。

视觉补丁是将视觉数据（如图片或视频帧）划分为小块的方法，每个小块代表了原始数据的一部分。这种方法借鉴了大型语言模型处理文本的方式，通过将复杂的输入简化为更小、更易于管理的单元来提高处理效率和模型性能。在视觉数据的上下文中，补丁作为模型训练的基本单元，允许模型捕捉和学习图像中的细节和结构信息，从而有效地在各种视频和图像上训练生成模型。

在大型语言模型（LLM）中，"token"指的是将文本数据分解成更小单元的过程。这些单元可以是单词、短语或其他符号，用于模型训练和处理。Token化允许模型理解和生成语言，通过分析和组合这些基本单元来捕捉语言的结构和含义。这种方法使得LLM能够处理复杂的文本数据，学习各种语言模式，并在多种语言任务中展示出色的性能。

在高层次上，我们首先将视频压缩到低维的潜在空间中，从而将视频转换为补丁，并随后将表示分解为时空补丁。

在这里插入图片描述

视频压缩网络：降低视觉数据的维度

我们训练了一个网络，可以降低视觉数据的维度。20该网络将原始视频作为输入，并输出在时间和空间上都经过压缩的潜在表示。Sora在这个压缩的潜在空间中接受训练并随后生成视频。我们还训练了一个相应的解码器模型，该模型将生成的潜在对象映射回像素空间。

时空潜伏补丁：补丁的表示，用补丁来控制生成的视频的大小

给定一个压缩的输入视频，我们提取一系列时空补丁，这些补丁充当转换器令牌。此方案也适用于图像，因为图像只是单帧视频。我们基于补丁的表示使 Sora 能够对可变分辨率、持续时间和纵横比的视频和图像进行训练。在推理时，我们可以通过在适当大小的网格中排列随机初始化的补丁来控制生成的视频的大小。

用于视频生成的缩放转换器：计算的增加，样本质量显著提高

Sora是一个扩散模型21,22,23,24,25;给定输入的嘈杂补丁（以及文本提示等条件信息），它被训练来预测原始的“干净”补丁。重要的是，Sora是一个扩散变压器。26Transformer 在各个领域都表现出了非凡的扩展特性，包括语言建模、13,14计算机视觉，15,16,17,18和图像生成。27,28,29
在这里插入图片描述
在这项工作中，我们发现扩散变压器也可以有效地扩展为视频模型。下面，我们展示了随着训练的进行，具有固定种子和输入的视频样本的比较。随着训练计算的增加，样本质量显著提高。

在这里插入图片描述

可变持续时间、分辨率、纵横比：以原生大小对数据进行训练更好

过去的图像和视频生成方法通常将视频调整大小、裁剪或修剪为标准大小，例如，分辨率为 256x256 的 4 秒视频。我们发现，相反，以原生大小对数据进行训练有几个好处。

采样灵活性：以原始纵横比为不同设备创建内容

Sora 可以对宽屏 1920x1080p 视频、垂直 1080x1920 视频以及介于两者之间的所有视频进行采样。这使 Sora 可以直接以原始纵横比为不同设备创建内容。它还使我们能够在以全分辨率生成之前以较小的尺寸快速制作内容原型 - 所有这些都使用相同的模型。

可变持续时间、分辨率、纵横比

改进的取景和构图：构图和取景，360度无死角

我们根据经验发现，以原始纵横比对视频进行训练可以改善构图和取景。我们将 Sora 与模型的一个版本进行了比较，该模型将所有训练视频裁剪为正方形，这是训练生成模型时的常见做法。在方形裁剪上训练的模型（左）有时会生成视频，其中主体仅部分可见。相比之下，Sora（右）的视频改善了取景。
改进的取景和构图

语言理解：对高度描述性视频字幕的培训可以提高文本保真度以及视频的整体质量。

训练文本到视频生成系统需要大量带有相应文本标题的视频。我们应用了DALL·E 330到视频。我们首先训练一个高度描述性的字幕器模型，然后使用它为训练集中的所有视频生成文本字幕。我们发现，对高度描述性视频字幕的培训可以提高文本保真度以及视频的整体质量。

与DALL·相似E 3，我们还利用 GPT 将简短的用户提示转换为更长的详细字幕，然后发送到视频模型。这使 Sora 能够准确遵循用户提示生成高质量的视频。

使用图像和视频进行提示：为静态图像制作动画

以上所有结果和我们的登陆页面显示文本到视频示例。但也可以用其他输入提示 Sora，例如预先存在的图像或视频。此功能使 Sora 能够执行各种图像和视频编辑任务——创建完美循环的视频、为静态图像制作动画、在时间上向前或向后扩展视频等。

动画 DALL·E 图像：提供图像和提示作为输入

Sora 能够生成视频，提供图像和提示作为输入。下面我们展示基于DALL·E 231和 DALL·E 330图像。

扩展生成的视频：向前后扩展，产生无缝的无限循环

Sora 还能够向前或向后扩展视频。以下是四个视频，它们都是从生成的视频片段开始向后扩展的。因此，四个视频的开头都与其他视频不同，但所有四个视频都指向相同的结局。

我们可以使用这种方法向前和向后扩展视频，以产生无缝的无限循环。

视频到视频编辑：换风格和环境

扩散模型已经实现了多种从文本提示中编辑图像和视频的方法。下面我们应用其中一种方法，SDEdit，32到索拉。这种技术使 Sora 能够零镜头转换输入视频的风格和环境。

连接视频：两段视频之间无缝过渡

我们还可以使用 Sora 在两个输入视频之间逐渐插值，在具有完全不同主题和场景构图的视频之间创建无缝过渡。在下面的示例中，中间的视频在左侧和右侧的相应视频之间进行插值。

图像生成功能

Sora 还能够生成图像。为此，我们将高斯噪声的斑块排列在时间范围为一帧的空间网格中。该模型可以生成可变大小的图像，分辨率高达 2048x2048。

新兴的仿真功能：模拟物理世界

我们发现，视频模型在大规模训练时表现出许多有趣的涌现能力。这些功能使 Sora 能够模拟物理世界中人、动物和环境的某些方面。这些属性的出现对3D、物体等没有任何明确的归纳偏差——它们纯粹是尺度现象。

3D 一致性。Sora 可以生成具有动态相机运动的视频。随着摄像机的移动和旋转，人物和场景元素在三维空间中始终如一地移动。

远距离相干性和物体持久性。视频生成系统面临的一个重大挑战是在对长视频进行采样时保持时间一致性。我们发现，Sora通常（尽管并非总是）能够有效地对短期和长期依赖关系进行建模。例如，我们的模型可以保留人、动物和物体，即使它们被遮挡或离开框架。同样，它可以在单个样本中生成同一角色的多个镜头，从而在整个视频中保持它们的外观。

与世界互动。Sora 有时可以以简单的方式模拟影响世界状态的动作。例如，画家可以在画布上留下新的笔触，这些笔触会随着时间的推移而持续存在，或者一个人可以吃汉堡并留下咬痕。

模拟数字世界。Sora还能够模拟人工过程，例如视频游戏。Sora 可以同时通过基本策略控制 Minecraft 中的玩家，同时还可以高保真地渲染世界及其动态。这些功能可以通过提示 Sora 提及“Minecraft”来零触发。
在这里插入图片描述