Sora 中的技术_sora是一种收敛模型,从噪声开始-CSDN博客

本文链接：https://blog.csdn.net/qq_46264636/article/details/136182969

Sora是一种基于Transformer架构的视频生成模型，通过统一表示方式处理不同尺寸和格式的视觉数据。它能根据文本指令生成视频，扩展现有内容，并展示了在生成视频保真度和遵循用户指示方面的优势。Sora预示着视频模型在模拟现实世界方面的重要进展。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

研究技术

Sora 是一种扩散模型，它从看起来像静态噪声的视频开始生成视频，然后通过多个步骤消除噪声来逐渐对其进行转换。
Sora 能够一次生成整个视频或扩展生成的视频以使其更长。通过一次为模型提供多帧的预测，我们解决了一个具有挑战性的问题，即确保主题即使暂时离开视野也保持不变。
与 GPT 模型类似，Sora 使用变压器架构，释放出卓越的扩展性能。
我们将视频和图像表示为称为补丁的较小数据单元的集合，每个补丁类似于 GPT 中的令牌。通过统一我们表示数据的方式，我们可以在比以前更广泛的视觉数据上训练扩散变换器，涵盖不同的持续时间、分辨率和纵横比。
Sora 建立在过去对 DALL·E 和 GPT 模型的研究之上。它使用 DALL·E 3 的重述技术，该技术涉及为视觉训练数据生成高度描述性的标题。因此，该模型能够更忠实地遵循生成视频中用户的文本指令。
除了能够仅根据文本指令生成视频之外，该模型还能够获取现有的静态图像并从中生成视频，准确地动画图像的内容并关注小细节。该模型还可以获取现有视频并对其进行扩展或填充缺失的帧。请参阅我们的技术报告了解更多信息。
Sora 是能够理解和模拟现实世界的模型的基础，我们相信这一功能将成为实现 AGI 的重要里程碑。

探索视频数据生成模型的大规模训练。具体来说，我们在可变持续时间、分辨率和宽高比的视频和图像上联合训练文本条件扩散模型。我们利用对视频和图像潜在代码的时空补丁进行操作的变压器架构。我们最大的模型 Sora 能够生成一分钟的高保真视频。我们的结果表明，扩展视频生成模型是构建物理世界通用模拟器的一条有前途的途径。

More-技术报告（翻译自官网）

在这里插入图片描述

本技术报告重点关注（1）我们将所有类型的视觉数据转换为统一表示的方法，从而能够大规模训练生成模型，以及（2）对 Sora 的能力和局限性进行定性评估。本报告不包含模型和实施细节。
许多先前的工作使用各种方法研究了视频数据的生成建模，包括循环网络、1,2,3 生成对抗网络、4,5,6,7 自回归变压器、8,9 和扩散模型。 10,11, 12 这些作品通常关注一小类视觉数据、较短的视频或固定大小的视频。 Sora 是视觉数据的通用模型，它可以生成不同时长、长宽比和分辨率的视频和图像，最多可达一分钟的高清视频。

将视觉数据转化为补丁

我们从大型语言模型中汲取灵感，这些模型通过互联网规模的数据训练来获得通才能力。13,14 LLM 范式的成功部分是通过使用标记来实现的，这些标记优雅地统一了文本代码、数学和各种形式的不同模式。自然语言。在这项工作中，我们考虑视觉数据的生成模型如何继承这些好处。 LLM 有文本标记，而 Sora 有视觉补丁。补丁之前已被证明是视觉数据模型的有效表示。15,16,17,18 我们发现补丁是一种高度可扩展且有效的表示，用于在不同类型的视频和图像上训练生成模型。
人物补丁

在较高的层面上，我们首先将视频压缩到较低维的潜在空间，19 然后将表示分解为时空补丁，从而将视频转换为补丁。

视频压缩网络

我们训练了一个降低视觉数据维度的网络。20 该网络将原始视频作为输入，并输出在时间和空间上压缩的潜在表示。 Sora 在这个压缩的潜在空间中接受训练并随后生成视频。我们还训练了相应的解码器模型，将生成的潜伏映射回像素空间。

时空潜伏斑块

给定一个压缩的输入视频，我们提取一系列时空补丁，充当变压器令牌。该方案也适用于图像，因为图像只是具有单帧的视频。我们基于补丁的表示使 Sora 能够对不同分辨率、持续时间和长宽比的视频和图像进行训练。在推理时，我们可以通过在适当大小的网格中排列随机初始化的补丁来控制生成视频的大小。

用于视频生成的缩放变压器

Sora 是扩散模型21,22,23,24,25；给定输入噪声补丁（以及文本提示等调节信息），它被训练来预测原始的“干净”补丁。重要的是，Sora 是一个扩散变压器。26 Transformer 在各个领域都表现出了卓越的缩放特性，包括语言建模、13,14 计算机视觉、15、16、17、18 和图像生成。27,28,29
图扩散

在这项工作中，我们发现扩散变压器也可以有效地缩放为视频模型。下面，我们展示了训练过程中具有固定种子和输入的视频样本的比较。随着训练计算的增加，样本质量显着提高。
在这里插入图片描述

可变的持续时间、分辨率、宽高比

过去的图像和视频生成方法通常会将视频调整大小、裁剪或修剪为标准尺寸，例如 256x256 分辨率的 4 秒视频。我们发现，对原始大小的数据进行训练有几个好处。

采样灵活性

Sora 可以采样宽屏 1920x1080p 视频、垂直 1080x1920 视频以及介于两者之间的所有视频。这使得 Sora 可以直接以其原生宽高比为不同设备创建内容。它还使我们能够在以全分辨率生成之前快速以较低尺寸制作原型内容 - 所有这些都使用相同的模型。
在这里插入图片描述

改进的框架和构图

我们根据经验发现，以原始长宽比对视频进行训练可以改善构图和取景。我们将 Sora 与将所有训练视频裁剪为正方形的模型版本进行比较，这是训练生成模型时的常见做法。在方形作物（左）上训练的模型有时会生成仅部分可见主体的视频。相比之下，Sora（右）的视频的取景效果有所改善。

在这里插入图片描述

语言理解

训练文本到视频生成系统需要大量带有相应文本字幕的视频。我们将 DALL·E 330 中引入的重新字幕技术应用于视频。我们首先训练一个高度描述性的字幕生成器模型，然后使用它为训练集中的所有视频生成文本字幕。我们发现，对高度描述性视频字幕进行训练可以提高文本保真度以及视频的整体质量。
与 DALL·E 3 类似，我们还利用 GPT 将简短的用户提示转换为较长的详细字幕，然后发送到视频模型。这使得 Sora 能够生成准确遵循用户提示的高质量视频。