OpenAI Sora:距离黑客帝国仅一步之遥

在2024年2月15日,OpenAI 介绍了其今年最为突破性的人工智能创新——Sora。Sora 不仅是一款前沿的文本到视频转换模型,更是在技术发展史上的一座里程碑。它拥有生成多种宽高比和分辨率下、长达一分钟的高质量视频的独特能力,将现有技术水平提升到了新的高度。与市面上其他同类产品相比,Sora的先进性不容小觑,功能之全面、扩展性之强大,使其获得了“世界模拟器”的美誉。

本文目的是向那些对Sora尚未有深入了解的读者提供一个清晰、易懂的介绍。不论您是在社交媒体上偶然瞥见一些由Sora生成的视频,还是对人工智能技术抱有浓厚兴趣,这里都将是您获得宝贵信息的宝库。我们将不仅仅是浅尝辄止地介绍Sora模型,而是深入其技术细节,引用技术报告中的“非同寻常”内容,并借助一些精心挑选的示例,以及对Sora训练方法及未来可能升级的深刻见解和假设,全面、生动地展示这一创新技术的精髓。

尽管OpenAI对外公布了Sora,但目前该模型还未正式发布,仍处于内部的红队测试和安全审核阶段。OpenAI正通过这一过程,期待能从全球的政策制定者、教育工作者以及艺术家那里收集宝贵的反馈。此外,为了确保技术的负责任使用,OpenAI也在积极研究开发旨在识别由Sora生成的视频的检测分类器,并探索防止误信息传播的有效策略。

Sora 是一个文本转视频模型

Sora代表了在文本到视频转换领域的一个巨大飞跃,其高质量输出令人印象深刻。以下是三个我个人极其喜爱的示例,展示了Sora技术的多样性和创新能力。第一个示例以其惊艳的色彩搭配抓住了我的视线;第二个示例则以其逼真度震撼了我,让人难以相信这是由AI生成的视频;而第三个示例则凭借其超凡的风格,展现了Sora在艺术创作上的潜力。这些示例不仅展示了Sora技术的先进性,也预示了未来在创意和艺术表达方面的无限可能。

img

img

img

Sora 不仅仅是一个文本到视频的模型,它的功能远超过简单的缩放或其他基本技术。通过文本提示,Sora 能够将静态图像动画化成视频,具备以下创新功能:

img

img

从现有视频创建全新视频,通过增加场景、创建循环、延长视频时长,甚至进行帧间插值,如融合无人机与蝴蝶的场景(以及其他示例);

1_JCwPzWm2Q7ylbHobfaxRdw.gif

尽管主要是视频生成模型,Sora 也能够从文本生成高质量图片(类似于 DALL-E 和 Midjourney,而且在某些方面可能更胜一筹),这得益于其内部的重新标题过程(这一过程在 DALL-E 3 中已有体现,但在Sora中扩展到视频生成);

img

Sora 在视频相关的生成方面,尤其是视频内容的创造,执行得比任何竞争对手都要好(例如与 Google Lumiere 对比)。

1_kgazTzEl6xN7tueN9O-mFA (1).gif

Sora 是一种扩散 transformer

Sora 是一种融合了扩散模型(DALL-E 3)和变换器架构(ChatGPT)的先进技术。这种结合使得模型能够像 ChatGPT 处理文本一样处理视频(视为一系列时间序列的图像帧)。

具体来说,OpenAI 受到 DeepMind 在视觉变换器方面工作的启发,采用了一种将视频和图像表示为称为“时空补丁”的较小数据单元集合的方法,这与 GPT 中的“令牌”概念类似。以下是来自技术报告的一个高层次可视化展示:

img

正如我之前提到的,这份技术报告因其细节内容稀缺,难以复制研究工作或深入理解技术细节,因此“值得引号”。关于其确切的架构,我们所知甚少,仅知道它是一个扩散变换器;关于训练数据,我们也所知不多,只知道是有标题的视频。

一种我见过的假设认为,至少部分训练数据来自 Unreal Engine 5(如元人类、矩阵演示)或其他3D引擎(这是根据产生的特定人工瑕疵推测的)。使用神经辐射场(NerF)数据也是另一种假设。可能还有我们永远不会知道的各种数据混合使用。

Sora 是一个通用的、可扩展的视觉数据模型

Sora 不仅能够从文本生成图片和视频,或是将图片和视频转换成其他视频,它还以一种通用且可扩展的方式完成这些任务,这是其竞争对手所不具备的。

例如,Sora 能够在单个生成的视频中创建多个镜头,并准确地保持人物角色和视觉风格的连续性。它可以制作长达一分钟的视频,同时也可以根据需要制作更短的视频。用户可以制作不同分辨率的纵向、方形和横向视频。根据报告:“Sora 能够生成宽屏的1920x1080p视频、纵向的1080x1920视频以及介于两者之间的所有类型。”这里有一个示例。

视频地址:twitter.com/_tim_brooks…

img

Sora 的多功能性以及可扩展性似乎遵循了与语言模型相似的规模化法则。仅仅通过增加计算能力,就能显著提高质量,这得益于变换器架构的特性。这里有一个示例。

视频地址:twitter.com/tsarnick/st…

img

正是这种通用和可扩展的特性,激发了人们对于AI将颠覆好莱坞和影视制作行业的预测。考虑到进步的速度,想象在几个月内,AI模型能够创造多场景、多角色的复杂视频,长达5到10分钟,并不是不可能的事。

还记得一年前的威尔·史密斯吃意大利面吗?

视频地址:www.youtube.com/watch?v=XQr…

img

Sora 是一个(原始的)世界模拟器

Sora 被誉为一款(原始的)世界模拟器,这一消息让我感到既兴奋又有些担忧。

首先,来简要回顾一下。Sora 是一个文本到视频的模型。虽然它比其他模型更加出色,但这种技术已经存在。Sora 是一个扩散变换器。同样,OpenAI 并非发明了这种组合,尽管他们加入了一些有趣的自定义成分。Sora 是一个通用且可扩展的视觉模型。从这里开始,事情变得越来越有趣。它为未来的研究打开了可能性,值得我们感到惊讶。

但最重要的是,Sora 是一个能够创建物理上合理、具有可信实世界互动场景的AI模型。Sora 是一个世界模拟器。确实,它还很原始(有时候失败得如此之惨,不得不称之为“梦幻物理学”),但它是第一个这样的尝试。

OpenAI 表示,Sora 不仅理解风格、风景、人物、物体和提示中存在的概念等,而且还理解“这些事物在物理世界中的存在方式”。我想对这一说法进行一定的限定,Sora 的奇异失败表明,虽然它可能学习了一套隐含的物理规则来指导视频生成过程,但这并不是一个稳固的能力(OpenAI 也承认了这一点)。但无疑,这是朝那个方向迈出的第一步。

OpenAI 对于 Sora 作为世界模拟器的更多描述(为了清晰已编辑):

【Sora 能够】模拟物理世界中人类、动物和环境的某些方面。这些属性是在没有任何明确的3D、物体等归纳偏见下自然产生的——它们完全是规模现象。

模拟能力包括:3D一致性;长距离连贯性和物体持久性(例如,我们的模型可以持续保持人物、动物和物体,即使它们被遮挡或离开画面);与世界互动(例如,画家可以在画布上留下随时间持续的新笔触);模拟数字世界(例如, Minecraft

img

吉姆·范的看法(以及他对海盗船战视频的分析):

Sora 是一个端到端的扩散变换器模型。它直接将文本/图像输入并输出视频像素。通过大量视频的梯度下降,Sora 在神经参数中隐式学习了一个物理引擎。Sora 是一个可学习的模拟器,或称为“世界模型”。

视频地址:twitter.com/DrJimFan/st…

当然,它并没有显式调用 UE5 [Unreal Engine 5],但有可能将 UE5 生成的(文本,视频)对作为合成数据添加到训练集中。

OpenAI 以以下句子结束了博客文章:

Sora 为那些能理解和模拟真实世界的模型奠定了基础,我们认为这将是实现通用人工智能(AGI)的重要里程碑。

读者福利:如果大家对大模型感兴趣,这套大模型学习资料一定对你有用

对于0基础小白入门:

如果你是零基础小白,想快速入门大模型是可以考虑的。

一方面是学习时间相对较短,学习内容更全面更集中。
二方面是可以根据这些资料规划好学习计划和方向。

资源分享

图片

大模型AGI学习包

图片

图片

资料目录

  1. 成长路线图&学习规划
  2. 配套视频教程
  3. 实战LLM
  4. 人工智能比赛资料
  5. AI人工智能必读书单
  6. 面试题合集

人工智能\大模型入门学习大礼包》,可以扫描下方二维码免费领取

1.成长路线图&学习规划

要学习一门新的技术,作为新手一定要先学习成长路线图方向不对,努力白费

对于从来没有接触过网络安全的同学,我们帮你准备了详细的学习成长路线图&学习规划。可以说是最科学最系统的学习路线,大家跟着这个大的方向学习准没问题。

图片

2.视频教程

很多朋友都不喜欢晦涩的文字,我也为大家准备了视频教程,其中一共有21个章节,每个章节都是当前板块的精华浓缩

图片

3.LLM

大家最喜欢也是最关心的LLM(大语言模型)

图片

人工智能\大模型入门学习大礼包》,可以扫描下方二维码免费领取

  • 26
    点赞
  • 23
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值