Open GPT:Sora(物理世界的模拟器)基本介绍

我们探索基于视频数据的大规模训练模型。具体来说,我们使用视频和图像的播放时长,分辨率,宽高比等来训练文本条件扩散模型(text-conditional diffusion model)。

本报告重点关注:

  1. 我们将所有类型的视觉数归一化描述的方法,从而能够大规模训练生成模型;
  2. 对 Sora 的能力和局限性进行定性评估。

许多先前的工作已经使用各种方法,包括循环神经网络,可生成对抗网络,自回归转换器(autoregressive transformers)和扩散模型,研究了视频数据的生成模型。这些工作通常关注一小类视觉数据、较短的视频或固定大小的视频。Sora是一个视觉数据的通用模型,它可以生成不同时长、长宽比和分辨率的视频和图像,甚至是可达一分钟的高清视频。

将视觉数据转换为图像块(patches)

我们从大型语言模型中汲取灵感,这些模型通过训练互联网规模的数据,来获得通用的能力。大型语言模型(LLM paradigm )的成功,部分是通过使用标记来实现的,这些标记优雅地统一了文本代码,数字和不同自然语言的不同形态。在这项工作中,我们考虑视觉数据的生成模型如何继承这些好处。大型语言模型有文本标记,而 Sora 有视觉图像块(patches)。图像块之前已被证明是视觉数据模型的有效表示。我们发现图像块(patches)是一种高度可扩展且有效的表示方式,以用于在不同类型的视频和图像上训练可生成模型。

 在较高层面上,我们首先将视频压缩到一个低纬度的隐空间(隐空间是 压缩数据的一个表示。隐空间的作用是为了找到 模式(pattern) 而学习数据特征并且简化数据表示。)然后,分解为包含时间空间的图像块。

视频压缩网络

我们训练了一个降低视觉数据维度的网络。该网络将原始视频作为输入,并输出在时间和空间上压缩的潜在表示。Sora是在隐空间中接受训练并随后生成视频的。我们还训练了相应的解码器模型,将生成的这些映射回像素空间。

隐时间空间patches

(Spacetime latent patches)

给定一个压缩的输入视频,我们提取一系列时空patches,充当转换器的信令。该方案也适用于图像,因为图像只是具有单帧的视频。我们基于patches的描述方式使 Sora 能够对不同分辨率、时长和长宽比的视频和图像进行训练。在推理时,我们可以通过在适当大小的网格中排列随机初始化的patches来控制生成视频的大小。

用于视频生成的缩放转换

Sora 是一个扩散模型,给定输入噪声patches        (以及文本提示等调节信息),它被训练来预测原始的“干净”patches。 重要的是,Sora 是一个扩散的 Transformer 模型。Transformer模型 在各个领域都表现出了卓越的缩放属性,包括语言建模、计算机视觉和图像生成。

在这项工作中,我们发现扩散的 Transformer 模型对视频模型也可以有效的缩放处理。随着训练计算量的增加,视频样本的质量提升明显。

时长,分辨率,宽高比

过去的图像和视频生成方法通常会将视频调整大小、裁剪或修剪为标准尺寸,例如 256x256 分辨率的 4 秒视频。 我们发现,对原始大小的数据进行训练有几个好处。

采样的灵活性

Sora 可以采样宽屏 1920x1080p 视频、竖屏 1080x1920 视频以及介于两者之间的所有视频。这使得Sora 可以基于原始的宽高比,直接为不同的设备创建内容。它还使我们能够在以全分辨率生成之前,以较低尺寸快速得制作原型内容 ——所有这些都使用相同的模型。

改进的取景和构图

我们根据经验发现,以原始长宽比对视频进行训练可以改善构图和取景。训练生成模型时的常见做法,是将所有的训练视频裁剪为正方形,我们基于这样的视频得到一个模型版本,然后与Sora做对比。如下左图是方形视频训练的模型,有时会生成仅部分可见主体的视频。相比之下,Sora(右)的视频有更好的取景效果。

语言理解

训练通过文本生成视频的系统,需要大量的带有文字注解的视频。我们将 DALL·E 330 中引入的视频生成文字注解技术应用于视频。我们首先训练一个高度视屏文字描述生成模型。然后使用它为我们训练集中的所有视频生成文本描述。我们发现,这种训练提升了文本的保真度以及整体的视频质量。

与 DALL·E 3 类似,我们还利用 GPT 将简短的用户提示转换为较长的详细视频文本描述,然后发送到视频模型。这使得 Sora 能够生成准确遵循用户提示的高质量视频。

图像和视频作为输入

Sora 还可以用其他作为输入,例如预先存在的图像或视频。 此功能使 Sora 能够执行各种图像和视频编辑任务——创建完美的循环视频、用图像制作动画、将视频向前或者向后扩展等。

扩展生成的视频

Sora 是可以在时间轴上向前或者向后扩展视频的。我们可以利用这个方法,把一个视频扩展为无缝衔接,无限循环的视频。

视频到视频编辑

扩散模型启用了很多种根据文本提示编辑图像和视频的方法。 我们将其中一种方法 SDEdit,32 应用于 Sora。 这项技术使 Sora 能够零镜头地改变输入视频的风格和环境。

连接视频

我们还可以使用 Sora 在两个输入视频之间逐渐进行插值修改,从而在具有完全不同主题和场景构成的视频之间创建无缝过渡。

图像生成能力

Sora 还能够生成图像。我们通过在时间范围为一帧的空间网格中排列高斯噪声块来实现这一点。该模型可以生成各种尺寸的图像,分辨率高达 2048x2048。

一张充满细节的秋季女性特写肖像照

充满活力的珊瑚礁,充满色彩缤纷的鱼类和海洋生物

苹果树下一只小老虎的数字艺术,采用哑光绘画风格,细节华丽

新的模拟功能

我们发现,视频模型在大规模训练时表现出许多有趣的之前从没发现的新功能。这些功能使 Sora 能够模拟现实世界中人、动物和环境的某些方面。这些属性的出现对 3D、物体等没有任何明确的归纳偏差——它们纯粹是尺度的现象。

Sora 可以生成伴随摄像机运动的视频。 随着摄像机的移动和旋转,人和场景元素在空间中一致性移动。

视频生成系统面临的一个重大挑战是在采样长视频时保持时间一致性。 我们发现 Sora 通常(尽管并非总是)能够有效地对短期和长期依赖关系进行建模。 例如,我们的模型可以保留人、动物和物体,即使它们被遮挡或离开镜头。 同样,它可以在单个样本中生成同一角色的多个镜头,并在整个视频中保持其显示的样子。

Sora 有时可以用简单的方式模拟影响现实世界状态的动作。 例如,画家可以在画布上留下新的笔触,并随着时间的推移而持续存在,或者一个人可以吃汉堡并留下咬痕。

Sora 还能够模拟数字世界——一个例子是视频游戏。Sora 可以通过基本策略模拟控制《我的世界》中的玩家,同时以高保真度渲染世界及其动态。

这些功能表明,持续扩展的视频模型是开发现实和数字世界以及生活在里面的物体、动物和人的高性能模拟器的一条有前途的道路。

讨论

Sora 目前作为模拟器表现出许多局限性。例如,它不能准确地模拟许多基本相互作用的物理特性,像玻璃破碎;其他的,像吃食物,在物体的状态上并不能一直延伸正确的变化;长时间样本中出现的不连贯性;事物毫无征兆的自发出现等。

我们相信,Sora 今天所拥有的能力表明,持续扩展的视频模型是开发现实和数字世界以及生活在里面的物体、动物和人的高性能模拟器的一条有前途的道路。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值