Open GPT：Sora（物理世界的模拟器）基本介绍

1号工人

已于 2024-11-01 19:34:43 修改

阅读量857

点赞数 9

文章标签：机器学习人工智能 ai gpt chatgpt

于 2024-04-26 19:35:35 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/eng20220426_dant/article/details/138228197

版权

我们探索基于视频数据的大规模训练模型。具体来说，我们使用视频和图像的播放时长，分辨率，宽高比等来训练文本条件扩散模型（text-conditional diffusion model）。

本报告重点关注：

我们将所有类型的视觉数归一化描述的方法，从而能够大规模训练生成模型；
对 Sora 的能力和局限性进行定性评估。

许多先前的工作已经使用各种方法，包括循环神经网络，可生成对抗网络，自回归转换器（autoregressive transformers）和扩散模型，研究了视频数据的生成模型。这些工作通常关注一小类视觉数据、较短的视频或固定大小的视频。Sora是一个视觉数据的通用模型，它可以生成不同时长、长宽比和分辨率的视频和图像，甚至是可达一分钟的高清视频。

将视觉数据转换为图像块（patches）

我们从大型语言模型中汲取灵感，这些模型通过训练互联网规模的数据，来获得通用的能力。大型语言模型（LLM paradigm ）的成功，部分是通过使用标记来实现的，这些标记优雅地统一了文本代码，数字和不同自然语言的不同形态。在这项工作中，我们考虑视觉数据的生成模型如何继承这些好处。大型语言模型有文本标记，而 Sora 有视觉图像块（patches）。图像块之前已被证明是视觉数据模型的有效表示。我们发现图像块（patches）是一种高度可扩展且有效的表示方式，以用于在不同类型的视频和图像上训练可生成模型。

在较高层面上，我们首先将视频压缩到一个低纬度的隐空间（隐空间是 压缩数据的一个表示。隐空间的作用是为了找到模式

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。