OpenAI Sora：“原始版”世界模拟器，我们离黑客帝国还有多远？

本文链接：https://blog.csdn.net/Gabriel100yi/article/details/136149874

春节假期临近尾声。面对持续进攻的谷歌等对手，OpenAI堪称放出了自ChatGPT有史以来最强的大招——Sora。

Sora是OpenAI自研的文生视频扩散模型，可以生成不同长宽比和分辨率的高质量、高保真视频，长度可达1分钟。在一些行业观察人士眼里，Sora不仅性能遥遥领先于竞争对手，甚至可以被视为一款“世界模拟器”。

Sora：大力出奇迹的产物

刚刚发布Gemini 1.5 Pro的谷歌，没有尝到半点甜头。刚刚官宣更新几个小时，OpenAI就拿着Sora来炸场，和Gemini有关的消息，基本都被埋在了铺天盖地的Sora新闻流里。

据一些观察人士推测，OpenAI可能早在去年3月就已经完成了Sora的开发，所以才能在公关战中稳稳占据主动权。

Sora到底优秀在哪里？简单来说，它是一个“大力出奇迹”的产物。

Sora结合了扩散模型（DALL-E3）和转换器架构（ChatGPT）。通过这种组合，该模型可以像ChatGPT处理文本一样处理视频（即图像帧的时间序列）。

最令人印象深刻的特点是它能够逼真地模拟物理世界（OpenAI 将其描述为 "新兴的模拟能力"）。在此之前，还没有任何文字视频模型能与之相媲美。

例如，Sora"可以在单个生成的视频中创建多个镜头，准确地体现人物和视觉风格”。它可以制作长达1分钟的视频，但你也可以随心所欲地制作短视频。可以制作不同分辨率的竖版、方形和水平视频。而且计算量越高，视频质量也会越高。

AI科学家、创业者贾佳亚在社交媒体上表示：

Sora基于视频的三维结构分解压缩，用不同分辨率，不同时长，不同场景的各类视频大量训练diffusion model。在学术界连VIT的256*256的分辨率都没法改的情况下，Sora直接用上了高清以及更大的分辨率，这没几千上万张H100都不敢想象如何开始这个项目。

Sora能够学习真实世界的物理规则

OpenAI表示，Sora不仅能理解提示中出现的风格、场景、角色、物体和概念等，还能理解"这些事物在物理世界中是如何存在的"。

Sora通过海量视频，以梯度下降的方式在神经参数中隐含地学习物理引擎。Sora是一个可学习的模拟器，或称“世界模型”。亦即，Sora可能已经学会了一套隐含的物理规则，为视频生成过程提供信息。

毫无疑问，这是AI理解世界的关键一步。OpenAI在博文的最后写道：

Sora是能够理解和模拟现实世界的模型的基础，我们相信这种能力将成为实现AGI的重要里程碑。

在OpenAI的Dalle-3图像生成器所使用的扩散模型版本和GPT-4基于变换器的引擎的支持下，Sora不仅能按照提示要求制作视频，而且还能显示出对电影技术的熟练掌握。

这就是讲故事的天赋。在另一部根据“渲染华丽的珊瑚礁纸艺世界，到处都是五颜六色的鱼和海洋生物”的提示制作的视频中。该项目的另一位研究员Bill Peebles指出，Sora通过拍摄角度和时机的选择，创造了一种叙事的推动力：

实际上有多个镜头的变化——这些变化不是拼接在一起的，而是由模型一次性生成的。我们没有告诉它要这么做，它只是自动这么做了。

Sora不仅能根据文本制作图像和视频，或将图像和视频转换为其他视频，而且还能以通用、可扩展的方式完成这些工作，这一点与竞争对手不同。

这种通用性和可扩展性促使人们预测人工智能将颠覆好莱坞和整个电影制作。考虑到进步的速度，想象一下几个月后人工智能模型能够制作出长达5或10分钟的多场景、多角色复杂视频并不是什么疯狂的事情。

目前Sora还在接受安全检查和对抗性测试，没有正式发布。OpenAI希望从"世界各地的政策制定者、教育工作者和艺术家"那里收集反馈意见。他们还在开发一种检测分类器来识别Sora制作的视频，并研究如何防止错误信息。

要想让文字视频威胁到真正的电影制作，恐怕还需要很长一段时间。你不可能把120个一分钟长的Sora片段拼接成一部连贯的电影，因为模型不会以完全相同的方式对提示做出反应，因此无法确保输出视频的连续性。

但时间限制并不妨碍Sora和类似的软件颠覆TikTok、Reel和其他短视频平台的生产方法。

一位研究者表示：

要制作一部专业电影，你需要大量昂贵的设备，这种模式将使在社交媒体上制作视频的普通人有能力制作出非常高质量的内容。

我们简单总结了这个模型的强大之处

1、文本到视频生成能力：Sora能够根据用户提供的文本描述生成长达60S的视频，这些视频不仅保持了视觉品质，而且完整准确还原了用户的提示语。

2、复杂场景和角色生成能力：Sora能够生成包含多个角色、特定运动类型以及主题精确、背景细节复杂的场景。它能够创造出生动的角色表情和复杂的运镜，使得生成的视频具有高度的逼真性和叙事效果。

3、语言理解能力：Sora拥有深入的语言理解能力，能够准确解释提示并生成能表达丰富情感的角色。这使得模型能够更好地理解用户的文本指令，并在生成的视频内容中忠实地反映这些指令。

4、多镜头生成能力：Sora可以在单个生成的视频中创建多个镜头，同时保持角色和视觉风格的一致性。这种能力对于制作电影预告片、动画或其他需要多视角展示的内容非常有用。

5、从静态图像生成视频能力：Sora不仅能够从文本生成视频，还能够从现有的静态图像开始，准确地动画化图像内容，或者扩展现有视频，填补视频中的缺失帧。

6、物理世界模拟能力：Sora展示了人工智能在理解真实世界场景并与之互动的能力，这是朝着实现通用人工智能（AGI）的重要一步。它能够模拟真实物理世界的运动，如物体的移动和相互作用。

可以说，Sora的出现，预示着一个全新的视觉叙事时代的到来，它能够将人们的想象力转化为生动的动态画面，将文字的魔力转化为视觉的盛宴。在这个由数据和算法编织的未来，Sora正以其独特的方式，重新定义着我们与数字世界的互动。一反常态，OpenAI在模型公布后的不久，就公布了相关的技术Paper，我们第一时间“啃”了这篇技术报告，希望能够帮助大家理解到底有哪些神奇的技术，让Sora能够有如此强大的魔力。

AI界一夜变天

2月16日凌晨，Open AI发布了首个“文生视频”模型Sora。官方介绍，Sora能根据文字指令创造出包含丰富细节的逼真场景、角色，且能用多角度镜头，生成一镜到底的60秒长视频。

目前官网上已经更新了48个样片，视频中人物、背景都具有惊人的一致性。并且借助于对语言的深刻理解，Sora创造出的角色能表达丰富的情感。

更令业内惊叹的是，Sora身上似乎开始出现“世界模型”的雏形。通过大量观察训练，它学会了许多关于真实世界的物理规律。

要知道，原先动画影视公司为让动物的数百万根毛发、皮肤纹理、衣物等细节在3D建模中表现得如现实场景般真实，为此专门成立研究部门，且投入了不菲的成本和时间才得以实现。而如今，Sora只需要一行描述、几次提示便能自动完成。

虽然Open AI坦言Sora仍有一些效果上的瑕疵，也因潜在的风险暂未对公众开放。但凭借着极度真实的视觉效果，这一足以“模糊虚实”的王炸级技术，正粗暴地冲击着大众心智。

事实上，文生视频并非Open AI的独门，赛道早已涌入大量玩家。去年下半年开始，谷歌、Meta及部分AI创业公司相继下场试水，国内的字节跳动也于11月推出了文生视频模型Pixel Dance，阿里云的Animate Anyone以及百度文心大模型的类似功能同样在内测。

入局者众多，但各家效果却未达预期，当Runway Gen2、Pika、PixVerse等AI视频工具还在突破数秒内的连贯性时，Sora已经将时长拉至1分钟，大幅度拉高生成视频的可用性。影眸科技CTO张启煊评价道，Sora跟Pika、Runway及同类玩家已拉开代差。

颠覆性的效果，伴随的是颠覆性的思路。360董事长周鸿祎指出，现在所有文生图、视频的模型都是在2D平面上对图形元素进行操作，并未适用物理定律。

而Open AI利用了其大语言模型优势，将LLM和Diffusion结合训练，通过学习视频，理解现实世界的动态变化规律，并模拟、创造出新的视觉内容，由此产生的视频真实感十足。

回溯来看，文生视频能蔚然成风，成为全球新一轮AIGC竞赛的焦点，因为大家都嗅到了短视频在全球直播电商、内容创作等新兴行业的巨大机遇。周鸿祎就认为，Sora可能给广告业、电影预告片、短视频行业带来巨大颠覆，成为激发创作力的工具。

AI从业者更一叶知秋地感受到，Sora在展示视频制作能力外，更多暗含的是大模型逐渐掌握对真实世界的理解及模拟能力后，可能会带来更惊叹的突破和成果。

有强劲大模型的底座、基于对人类语言的解析、对人类知识和世界模型的了解，再叠加其他技术，周鸿祎认为这便可以创造各个领域的超级工具。因为这种“先记忆，再预测”，正是人类理解并与世界交互的方式。

他举例称，Sora对物理世界的模拟，就会对智能驾驶领域产生巨大影响。原先智驾“重感知”却“轻认知”，他认为人在驾驶时的很多判断，是基于对这个世界的理解，缺乏这一点很难做出真正的无人驾驶。

行业专家普遍认为，应用层面衍化的终局，便是真正通用人工智能（AGI）时代的到来。

Sora的技术文档就写道，“我们的结果表明，视频生成模型是有希望向构建通用物理世界模拟器迈进的路径”。

“一旦人工智能接上摄像头，把所有电影、视频都看一遍，其对世界的理解将远超文字学习。AGI真的就不远了，不是10-20年的问题，可能一两年就能实现。”周鸿祎如是说道。

“我相信Open AI手里或许还藏着一些秘密武器，无论是GPT-5，还是机器学习自动产生内容。”周鸿祎称，“奥特曼是个营销大师，知道怎样掌握节奏”。

这与Sam Altman要筹集7万亿美元，塑全球AI芯片基础设施的野心形成闭环，因为通往通用人工智能的道路上，需要极为庞大的算力。

近期有投资界人士透露，Open AI正讨论新一轮融资，估值高达千亿美元。作为头羊，有着独霸AI行业、重塑全球AI芯片行业的庞大野心的Open AI，势必要借助资本的助推不断滚雪球。

回溯来看，在这场AI公司、资本交织的游戏中，技术迭代一直是跳跃式的，并不会给大家慢慢来的时间。

未来的世界和AI行业究竟会驶向何方？还难以断言，但眼下的2024，必将又是刺激的一年。