（一文读懂）【OPEN AI SORA技术报告】视频生成模型SORA作为世界模拟器-Video generation models as world simulators

瑶光守护者

已于 2024-03-03 13:15:36 修改

阅读量2.1k

点赞数 56

文章标签：人工智能 gpt 机器学习

于 2024-02-26 19:13:51 首次发布

本文链接：https://blog.csdn.net/u011376987/article/details/136289283

版权

本文介绍了OPENAI的技术报告，探讨了如何通过训练统一表示的视频生成模型Sora，扩展视频数据的处理能力，使其成为通用物理世界模拟器。报告着重于模型的架构、训练方法以及Sora在生成多样性和灵活性方面的优势，同时提到了模型的局限性和未来应用的可能性。

摘要由CSDN通过智能技术生成

引言

本文内容来自OPEN AI技术报告<<Video generation models as world simulators>>。

概述

我们探索了在视频数据上进行大规模生成模型的训练。具体来说，我们联合训练了文本条件扩散模型，这些模型适用于不同时长、分辨率和纵横比的视频和图像。我们利用了一种基于Transformer的架构，该架构可以对视频和图像的潜在编码进行时空块操作。我们最大的模型Sora能够生成一分钟的高保真视频。我们的结果表明，扩展视频生成模型是构建通用物理世界模拟器的一条有前景的途径。

技术报告摘要：

本技术报告主要关注两个核心方面：(1) 我们提出的方法，该方法能够将各种类型的视觉数据转化为统一表示，从而支持生成模型的大规模训练；(2) 对Sora模型的能力和局限性的定性评估。本报告中不包含模型和实现细节。

在先前的研究中，已经有许多工作使用各种方法对视频数据进行了生成建模，这些方法包括循环网络、生成对抗网络、自回归Transformers和扩散模型。然而，这些工作通常只关注某一狭窄类别的视觉数据、较短的视频或固定大小的视频。相比之下，Sora是一个通用的视觉数据模型，它能够生成涵盖不同时长、纵横比和分辨率的视频和图像，最长可达一分钟的高清视频。

Sora-TR-0

关键点分析：

统一表示方法：本报告提出的创新方法能够将各种类型的视觉数据（如不同格式、分辨率和时长的视频）转化为一个统一的表示形式。这种统一表示为大规模生成模型的训练提供了便利，因为它消除了数据多样性和复杂性带来的障碍。
Sora模型的能力与局限性：报告对Sora模型进行了定性评估，探讨了其在生成视频方面的优势和限制。了解这些能力和局限性对于进一步改进模型、拓展其应用领域以及设计更有效的训练策略至关重要。
模型与实现细节的缺失：虽然报告中未包含具体的模型和实现细节，但这可能是出于保护知识产权或商业机密的考虑。然而，对于希望深入了解或复现该工作的研究人员来说，这可能是一个挑战。
与先前研究的对比：通过将Sora与先前的工作进行对比，可以清楚地看到Sora在生成视频的多样性和灵活性方面的优势。这表明Sora在推动视觉生成模型的发展方面具有重要潜力。

综上所述，本技术报告介绍了一种将各种视觉数据统一表示的方法，并评估了Sora模型在视频生成方面的能力和局限性。这些工作为生成模型的大规模训练和视觉数据的通用建模提供了新的视角和思路。

将视觉数据转化为块（Patches）

我们从大型语言模型（LLM）中汲取灵感，这些模型通过训练互联网规模的数据来获得通用能力。LLM范式的成功部分归功于使用了能够优雅地统一文本多样模态（如代码、数学和各种自然语言）的标记（tokens）。在这项工作中，我们考虑了视觉数据的生成模型如何能够继承这些优点。LLM有文本标记，而Sora有视觉块。以前的研究已经表明，块是视觉数据模型的有效表示。我们发现，块是一种高度可扩展且有效的表示，用于在多种类型的视频和图像上训练生成模型。

分析：

灵感来源：大型语言模型通过在互联网规模的数据上进行训练，获得了处理多种文本模态的能力。Sora的设计者受到了这一点的启发，想要找到一种方法，让视觉数据的生成模型也能具备处理多种视觉模态的能力。
标记与块：在大型语言模型中，文本被分解为标记（tokens），这些标记是模型处理的基本单位。类似地，Sora将视觉数据分解为块（patches），这些块成为模型处理视觉数据的基本单位。这种处理方式使得模型能够更灵活地处理不同大小、分辨率和纵横比的视觉数据。
块的有效性：以前的研究已经证明了块在视觉数据模型中的有效性。在这项工作中，研究者发现块不仅是一种有效的表示方式，而且还是一种高度可扩展的表示方式。这意味着随着数据量的增加，使用块作为基本单位的模型能够保持或提高其性能，而不会遇到性能瓶颈或崩溃等问题。
应用前景：通过将视觉数据转化为块并在大规模数据集上进行训练，Sora等模型有望获得更强大的生成能力。这不仅有助于改进现有的视频生成技术，还可能为其他领域（如虚拟现实、增强现实和游戏开发等）提供新的工具和方法。

在高级别上，我们通过首先将视频压缩到较低维度的潜在空间，随后将表示分解为时空块，从而将视频转化为块。

视频压缩网络

我们训练了一个能够降低视觉数据维度的网络。该网络以原始视频作为输入，并输出一个在时间和空间上都经过压缩的潜在表示。Sora在这个压缩的潜在空间内进行训练，并随后生成视频。我们还训练了一个对应的解码器模型，将生成的潜在表示映射回像素空间。

时空潜在块

给定一个压缩的输入视频，我们提取一系列时空块，这些块充当Transformer的标记。由于图像只是单帧的视频，因此这种方案也适用于图像。我们基于块的表示使Sora能够在具有可变分辨率、时长和纵横比的视频和图像上进行训练。在推理时，我们可以通过在适当大小的网格中排列随机初始化的块来控制生成视频的大小。

用于视频生成的Transformer缩放

Sora是一个扩散模型；给定输入的噪声块（以及像文本提示这样的条件信息），它被训练来预测原始的“干净”块。重要的是，Sora是一个扩散Transformer。Transformer已经在多个领域展示出了显著的缩放特性，包括语言建模、计算机视觉和图像生成。

在这项工作中，我们发现扩散Transformer作为视频模型也能有效地进行缩放。下面，我们展示了随着训练的进行，具有固定种子和输入的视频样本的比较。随着训练计算量的增加，样本质量显著提高。

scaling_0

scaling_1

scaling_2

可变时长、分辨率、纵横比

过去图像和视频生成的方法通常会将视频调整、裁剪或修剪为标准大小，例如4秒长、256x256分辨率的视频。我们发现，直接以原始大小的数据进行训练会带来多种好处。

采样灵活性

Sora可以采样宽屏1920x1080p视频、竖屏1080x1920视频以及介于这两者之间的任何分辨率视频。这让Sora能够直接以设备的原始纵横比创建内容。它还让我们在生成全分辨率内容之前快速制作较小尺寸的内容原型——所有这些都使用同一个模型。

sampling_0

sampling_1

sampling_2

改善的构图和取景

我们通过实验发现，以视频的原始纵横比进行训练可以改善构图和取景。我们将Sora与我们的一个模型版本进行了比较，该版本将所有训练视频裁剪为正方形，这是训练生成模型时的常见做法。在正方形裁剪上训练的模型（左）有时会生成只有部分主体在视野中的视频。相比之下，Sora生成的视频（右）在取景上有所改善。

sampling_3

sampling_4

语言理解

训练文本到视频的生成系统需要大量的带有相应文本字幕的视频。我们将DALL·E 330中引入的重新配字幕技术应用到视频中。我们首先训练一个高度描述性的字幕模型，然后使用它为训练集中的所有视频生成文本字幕。我们发现，在高度描述性的视频字幕上进行训练可以提高文本的保真度以及视频的整体质量。

与DALL·E 3类似，我们还利用GPT将用户的简短提示转化为更长的详细字幕，这些字幕会被发送到视频模型中。这使得Sora能够生成高质量的视频，准确地遵循用户的提示。

使用图像和视频进行提示

以上以及我们着陆页上的所有结果都展示了文本到视频的样本。但Sora也可以使用其他输入进行提示，例如预先存在的图像或视频。这种能力使Sora能够执行广泛的图像和视频编辑任务——创建完美循环的视频、将静态图像动画化、将视频向前或向后延长时间等。

DALL·E图像的动画化

Sora能够生成视频，只要提供图像和提示作为输入。下面我们展示了基于DALL·E 231和DALL·E 330图像生成的视频示例。

提示词：一只柴犬戴着贝雷帽和黑色高领毛衣。

prompting_1

提示词：一组多样化的怪物家族扁平化设计风格的怪物插图。这组怪物包括一只毛茸茸的棕色怪物、一只带有触须的光滑黑色怪物、一只带斑点的绿色怪物和一只小小的波点怪物，它们都在一个有趣的环境中互动。

prompting_3

提示词：一幅逼真的云朵图像，拼成了“SORA”的字样。

prompting_5

提示词：在一座装饰华丽的历史大厅里，巨大的海啸达到顶峰，并开始崩塌。两名冲浪者抓住时机，熟练地驾驭着海浪。

prompting_7

扩展生成的视频

Sora还能够扩展视频，无论是向前还是向后。以下是四个从生成的视频片段开始向后扩展的视频。因此，这四个视频的开头各不相同，但最终都会导向相同的结局。

extend_1

extend_2

extend_4

我们可以使用这种方法将视频向前和向后扩展，以产生无缝的无限循环。

bike_1

视频到视频的编辑

扩散模型为从文本提示编辑图像和视频提供了大量方法。下面我们将其中一种方法SDEdit32应用于Sora。这项技术使Sora能够零样本转换输入视频的风格和环境。

图像生成能力

Sora还能够生成图像。我们通过在一个时间跨度为一帧的空间网格中排列高斯噪声块来实现这一点。该模型可以生成可变大小的图像，最高可达2048x2048分辨率。

提示词：秋季女性的特写肖像照，细节极致，景深较浅

提示词：生机勃勃的珊瑚礁里挤满了五颜六色的鱼类和海洋生物

提示词：以无光泽绘画风格绘制的细节华丽的数字艺术画，画中有一只小老虎站在苹果树下

提示词：一个被雪覆盖的山村，有舒适的小屋和北极光表演，高细节和逼真的数码单反相机，50mm f/1.2

新兴的模拟能力

我们发现，当以大规模训练视频模型时，视频模型会展现出许多有趣的新兴能力。这些能力使Sora能够模拟物理世界中的人、动物和环境的一些方面。这些特性是在没有任何明确的3D、对象等的归纳偏置的情况下出现的，它们完全是规模现象。

3D一致性。Sora可以生成具有动态相机运动的视频。随着相机的移动和旋转，人和场景元素在三维空间中一致地移动。

simulation_0

simulation_1

远程连贯性和物体永久性。对于视频生成系统来说，在采样长视频时保持时间一致性是一个重大挑战。我们发现，尽管并非总是如此，但Sora通常能够有效地模拟短期和长期依赖关系。例如，即使人物、动物和物体被遮挡或离开画面，我们的模型也能使它们持续存在。同样，它可以在单个样本中生成同一角色的多个镜头，在整个视频中保持其外观。

simulation_3

与世界互动。Sora有时可以模拟以简单方式影响世界状态的动作。例如，画家可以在画布上留下新的笔触，这些笔触会随着时间的推移而持续存在，或者一个人可以吃汉堡并留下咬痕。

模拟数字世界。Sora还能够模拟人工过程——一个例子就是视频游戏。Sora可以在使用基本策略控制《我的世界》中的玩家的同时，以高保真度渲染游戏世界及其动态。这些能力可以通过提示Sora使用提到“Minecraft”的标题来零样本激发。

simulation_6

simulation_7

这些能力表明，视频模型的持续扩展是开发高性能的物理和数字世界模拟器以及其中存在的物体、动物和人物模拟器的一个有前景的途径。

讨论

discussion_0

作为模拟器，Sora目前存在许多局限性。例如，它不能准确地模拟许多基本相互作用的物理过程，如玻璃破碎。其他相互作用，如吃食物，并不总是导致物体状态的正确变化。我们在登陆页面上列举了模型的其他常见故障模式，如长时间样本中出现的不连贯性或物体的自发出现。

discussion_1

我们相信，Sora目前所具备的能力表明，视频模型的持续扩展是开发高性能的物理和数字世界模拟器，以及模拟其中存在的物体、动物和人物的一条有前景的道路。

References

Srivastava, Nitish, Elman Mansimov, and Ruslan Salakhudinov. "Unsupervised learning of video representations using lstms." International conference on machine learning. PMLR, 2015.↩︎
Chiappa, Silvia, et al. "Recurrent environment simulators." arXiv preprint arXiv:1704.02254 (2017).↩︎
Ha, David, and Jürgen Schmidhuber. "World models." arXiv preprint arXiv:1803.10122 (2018).↩︎
Vondrick, Carl, Hamed Pirsiavash, and Antonio Torralba. "Generating videos with scene dynamics." Advances in neural information processing systems 29 (2016).↩︎
Tulyakov, Sergey, et al. "Mocogan: Decomposing motion and content for video generation." Proceedings of the IEEE conference on computer vision and pattern recognition. 2018.↩︎
Clark, Aidan, Jeff Donahue, and Karen Simonyan. "Adversarial video generation on complex datasets." arXiv preprint arXiv:1907.06571 (2019).↩︎
Brooks, Tim, et al. "Generating long videos of dynamic scenes." Advances in Neural Information Processing Systems 35 (2022): 31769-31781.↩︎
Yan, Wilson, et al. "Videogpt: Video generation using vq-vae and transformers." arXiv preprint arXiv:2104.10157 (2021).↩︎
Wu, Chenfei, et al. "Nüwa: Visual synthesis pre-training for neural visual world creation." European conference on computer vision. Cham: Springer Nature Switzerland, 2022.↩︎
Ho, Jonathan, et al. "Imagen video: High definition video generation with diffusion models." arXiv preprint arXiv:2210.02303 (2022).↩︎
Blattmann, Andreas, et al. "Align your latents: High-resolution video synthesis with latent diffusion models." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2023.↩︎
Gupta, Agrim, et al. "Photorealistic video generation with diffusion models." arXiv preprint arXiv:2312.06662 (2023).↩︎
Vaswani, Ashish, et al. "Attention is all you need." Advances in neural information processing systems 30 (2017).↩︎↩︎
Brown, Tom, et al. "Language models are few-shot learners." Advances in neural information processing systems 33 (2020): 1877-1901.↩︎↩︎
Dosovitskiy, Alexey, et al. "An image is worth 16x16 words: Transformers for image recognition at scale." arXiv preprint arXiv:2010.11929 (2020).↩︎↩︎
Arnab, Anurag, et al. "Vivit: A video vision transformer." Proceedings of the IEEE/CVF international conference on computer vision. 2021.↩︎↩︎
He, Kaiming, et al. "Masked autoencoders are scalable vision learners." Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2022.↩︎↩︎
Dehghani, Mostafa, et al. "Patch n'Pack: NaViT, a Vision Transformer for any Aspect Ratio and Resolution." arXiv preprint arXiv:2307.06304 (2023).↩︎↩︎
Rombach, Robin, et al. "High-resolution image synthesis with latent diffusion models." Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2022.↩︎
Kingma, Diederik P., and Max Welling. "Auto-encoding variational bayes." arXiv preprint arXiv:1312.6114 (2013).↩︎
Sohl-Dickstein, Jascha, et al. "Deep unsupervised learning using nonequilibrium thermodynamics." International conference on machine learning. PMLR, 2015.↩︎
Ho, Jonathan, Ajay Jain, and Pieter Abbeel. "Denoising diffusion probabilistic models." Advances in neural information processing systems 33 (2020): 6840-6851.↩︎
Nichol, Alexander Quinn, and Prafulla Dhariwal. "Improved denoising diffusion probabilistic models." International Conference on Machine Learning. PMLR, 2021.↩︎
Dhariwal, Prafulla, and Alexander Quinn Nichol. "Diffusion Models Beat GANs on Image Synthesis." Advances in Neural Information Processing Systems. 2021.↩︎
Karras, Tero, et al. "Elucidating the design space of diffusion-based generative models." Advances in Neural Information Processing Systems 35 (2022): 26565-26577.↩︎
Peebles, William, and Saining Xie. "Scalable diffusion models with transformers." Proceedings of the IEEE/CVF International Conference on Computer Vision. 2023.↩︎
Chen, Mark, et al. "Generative pretraining from pixels." International conference on machine learning. PMLR, 2020.↩︎
Ramesh, Aditya, et al. "Zero-shot text-to-image generation." International Conference on Machine Learning. PMLR, 2021.↩︎
Yu, Jiahui, et al. "Scaling autoregressive models for content-rich text-to-image generation." arXiv preprint arXiv:2206.10789 2.3 (2022): 5.↩︎
Betker, James, et al. "Improving image generation with better captions." Computer Science. https://cdn.openai.com/papers/dall-e-3. pdf 2.3 (2023): 8↩︎↩︎
Ramesh, Aditya, et al. "Hierarchical text-conditional image generation with clip latents." arXiv preprint arXiv:2204.06125 1.2 (2022): 3.↩︎
Meng, Chenlin, et al. "Sdedit: Guided image synthesis and editing with stochastic differential equations." arXiv preprint arXiv:2108.01073 (2021).↩︎