我们探索基于视频数据的大规模训练模型。具体来说,我们使用视频和图像的播放时长,分辨率,宽高比等来训练文本条件扩散模型(text-conditional diffusion model)。
本报告重点关注:
- 我们将所有类型的视觉数归一化描述的方法,从而能够大规模训练生成模型;
- 对 Sora 的能力和局限性进行定性评估。
许多先前的工作已经使用各种方法,包括循环神经网络,可生成对抗网络,自回归转换器(autoregressive transformers)和扩散模型,研究了视频数据的生成模型。这些工作通常关注一小类视觉数据、较短的视频或固定大小的视频。Sora是一个视觉数据的通用模型,它可以生成不同时长、长宽比和分辨率的视频和图像,甚至是可达一分钟的高清视频。
将视觉数据转换为图像块(patches)
我们从大型语言模型中汲取灵感,这些模型通过训练互联网规模的数据,来获得通用的能力。大型语言模型(LLM paradigm )的成功,部分是通过使用标记来实现的,这些标记优雅地统一了文本代码,数字和不同自然语言的不同形态。在这项工作中,我们考虑视觉数据的生成模型如何继承这些好处。大型语言模型有文本标记,而 Sora 有视觉图像块(patches)。图像块之前已被证明是视觉数据模型的有效表示。我们发现图像块(patches)是一种高度可扩展且有效的表示方式,以用于在不同类型的视频和图像上训练可生成模型。
在较高层面上,我们首先将视频压缩到一个低纬度的隐空间(隐空间是 压缩数据的一个表示。隐空间的作用是为了找到 模式