Open GPT:Sora(物理世界的模拟器)基本介绍

我们探索基于视频数据的大规模训练模型。具体来说,我们使用视频和图像的播放时长,分辨率,宽高比等来训练文本条件扩散模型(text-conditional diffusion model)。

本报告重点关注:

  1. 我们将所有类型的视觉数归一化描述的方法,从而能够大规模训练生成模型;
  2. 对 Sora 的能力和局限性进行定性评估。

许多先前的工作已经使用各种方法,包括循环神经网络,可生成对抗网络,自回归转换器(autoregressive transformers)和扩散模型,研究了视频数据的生成模型。这些工作通常关注一小类视觉数据、较短的视频或固定大小的视频。Sora是一个视觉数据的通用模型,它可以生成不同时长、长宽比和分辨率的视频和图像,甚至是可达一分钟的高清视频。

将视觉数据转换为图像块(patches)

我们从大型语言模型中汲取灵感,这些模型通过训练互联网规模的数据,来获得通用的能力。大型语言模型(LLM paradigm )的成功,部分是通过使用标记来实现的,这些标记优雅地统一了文本代码,数字和不同自然语言的不同形态。在这项工作中,我们考虑视觉数据的生成模型如何继承这些好处。大型语言模型有文本标记,而 Sora 有视觉图像块(patches)。图像块之前已被证明是视觉数据模型的有效表示。我们发现图像块(patches)是一种高度可扩展且有效的表示方式,以用于在不同类型的视频和图像上训练可生成模型。

 在较高层面上,我们首先将视频压缩到一个低纬度的隐空间(隐空间是 压缩数据的一个表示。隐空间的作用是为了找到 模式

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值