Sora如何运作（以及其意味着什么）-CSDN博客

本文链接：https://blog.csdn.net/2301_79342058/article/details/136179804

每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅：https://rengongzhineng.io/

看，咱们今天不搞大新闻，不讨论乌托邦，也不预言世界末日。咱们要保持冷静，但是...

你们看到Sora了吗？！！

OpenAI新出的文字转视频模型竟能生成一段60秒的逼真视频，里面是一对可爱的金毛犬在山顶上做播客。还能生成“闪闪动物园”的视频，一只老虎懒洋洋地躺在镶嵌着翡翠的围栏里，一只卷尾猴戴着国王的王冠坐在镀金的笼子后面。还能生成一个AI意大利奶奶，穿着粉红色的花围裙，在乡村厨房里做意大利面团。（她的手指有点像《一切都是最好的安排》里的热狗手指，但那也算电影里的东西了！）

太疯狂了，太不可思议了。它让Mr. Beast在推特上对Sam Altman说：“请不要让我变成无家可归的人。”

有句切赫夫的话说得好：“我对此的理解就如同对闪电一样。”他可能也是在说Sora。那些演示让我身体感受到了电击。

呼。我得把这说出来。因为谈论OpenAI最新的热门产品有点像是在精神的斯库拉和卡律布狄斯之间航行：

在我大脑的一个角落，末日的多头龙在嚷嚷着，让我去攻击数据中心，否则电影产业就会像梅尔·吉布森的事业一样燃烧殆尽。另一边，技术乐观主义的量子漩涡已经开始规划我一拿到这个模型就制作的皮克斯风格电影了。世界终将看到，我秘密地一直自认为是乔治·卢卡斯未被发现的继承者——尽管我从未拍过电影。

问题是，我知道我大脑的这两部分都是错的。哈哈。

我的大脑错误地将新奇感与它实际不是的东西混为一谈。我从看这些演示中得到的感觉，并不是我从看一部伟大的电影、YouTube视频或TikTok时得到的。为什么？我知道，随着时间的推移，这些演示的新鲜感会消失，它们会变得普通——甚至是平凡的。我不会再为它们感到兴奋。但一部精心制作的电影将继续具有吸引力。

关于这类进展，保持清醒头脑的最佳方式是将它们视为长期趋势的延伸。Sora特别是，以及AI电影制作总体上，是两个重要趋势的延伸：

大量的数据和计算资源被用于生成令人惊叹的AI突破
技术降低了电影制作的成本

让我们来谈谈这两点。

Sora如何利用大量数据制作令人惊叹的视频片段
AI运行于规模之上：更多的数据和更强的计算能力意味着更好的结果。Sora之所以令人印象深刻，是因为OpenAI找到了一种方法，比以往任何时候都要在文字转视频上投入更多的数据和计算资源。以下是我根据其白皮书简化的版本，介绍公司是如何做到的。

想象一下《黑暗骑士》的电影胶片。你知道我说的是什么：那种绕在金属盘上的醋酸纤维胶卷，一个穿着红色夹克的年轻人在老式电影院里将其挂到放映机上。

你将胶片从卷轴上解开，切下前100帧的醋酸纤维胶片。你拿出每一帧——这里是小丑疯狂地大笑，那里是蝙蝠侠紧皱眉头——然后执行以下奇怪的仪式：

你用X-acto刀在第一帧上切出一个变形虫的形状。你像钟表匠一样小心翼翼地用镊子取出这块醋酸纤维变形虫，并将其安全地放置。然后你继续下一帧：你从下一个醋酸纤维帧的同一部分切出相同形状的变形虫。你用镊子小心地取出这个新的变形虫——形状与上一个完全相同——并将其仔细地堆放在第一个变形虫上。你这样做，直到处理完所有100帧。

你现在有了一个沿着Y轴拉伸的多彩变形虫。一座醋酸纤维塔，如果通过投影机播放，就能显示《黑暗骑士》中的一个小区域，就好像有人在投影机前挥动一个松散的拳头，只让一小部分电影通过。这座塔随后被压缩，变成所谓的“补丁”——随时间变化的颜色斑点。补丁是Sora的基本单元，就像“令牌”是GPT-4的基本单元一样。令牌是文字的一部分，而补丁是电影的一部分。GPT-4被训练以接收一系列令牌并输出序列中的下一个令牌。Sora也是这样做的：它接收一系列补丁并输出序列中的下一个“补丁”。补丁之所以创新——Sora看起来如此强大——是因为它们让OpenAI能够在巨量的图像和视频数据上训练Sora。想象一下，从每个存在的视频中切出的补丁——无限的醋酸纤维塔——堆积并喂入模型。

之前的文字转视频方法要求训练中使用的图像和视频都必须是相同的大小，这需要大量的预处理工作，以将视频剪辑到合适的大小。但因为Sora在训练时使用的是“补丁”而不是视频的完整帧，所以它可以消化任何视频或图像，而不需要将其剪裁。

结果是，可以用于训练的数据更多，输出质量更高。例如，将视频预处理成新的宽高比通常意味着它们被剪裁得如此之多，以至于视频的原始构图丢失了。一个在宽屏中位于画面中心的人物，在裁剪后可能只会部分显示在视图中。因为Sora可以将任何视频作为训练输入，所以其输出不会受到训练输入构图不佳的影响。

Sora使用的另一个重大进步是其架构。传统上，像Runway这样的文字转视频模型是扩散模型，而像GPT-4这样的文字模型是变换器。Sora是一个扩散变换器：两者的混合。它不是预测序列中的下一段文字，而是预测补丁序列中的下一个“补丁”。通过使用这种架构，OpenAI能够在训练Sora时投入更多的数据和计算资源，结果令人震撼。

当Sora视频首次发布时，人们对它能模拟诸如咖啡在咖啡杯中溅起的流体动力学等事物感到惊讶。他们认为OpenAI已经将Sora连接到了游戏引擎（驱动视频游戏并能模拟物理的算法）以生成这样的结果。但实际上并非如此。Sora可以独立创建这样的图形。

GPT-4似乎是通过学习语法规则来预测序列中的下一个词。

像Sora这样的扩散变换器模型似乎是通过学习物理——宇宙的语法——来预测视频的下一个片段。OpenAI将Sora视为一个“世界模拟器”的第一步，它可以通过文本提示模拟现实的任何切片。

这是令人震惊的。并且它将对电影制作产生重要的影响。

技术如何塑造了电影制作
在这样的视频成为常态的世界中，制作视频的方式将会有所不同。可能一切都会改变。

历史上，电影制作的成本极高。摄像机、灯光、情绪不稳定的演员——这些都需要花费大量的金钱。这就是为什么电影产业是一个产业，而不是一个艺术家的聚居地。在电影的大部分历史中，只有少数人能够制作电影。它们是冒险的！你需要资金来制作它们。而且，只有某些人能够获得足够的资金来冒险制作一部昂贵的失败作。制作电影就像是创办一家公司。

过去二十年来，这种情况开始改变。例如，互联网和iPhone是使电影制作和分发设备比以前可能的情况下落入更多人手中的阶段性变革。它孕育了一种全新的电影制作形式：YouTube视频、TikToks、Reels和Quibbis。（好吧，也许不是Quibbis。）

这一代的电影制作风格有其独特之处，与好莱坞截然不同，这种风格受到了制作它的技术和资源的限制和塑造。例如，YouTubers以直接对镜头的独白、快速剪辑和展示日常琐事的视频日志而闻名——这些是你可以独自在房间里用iPhone制作的视频类型。

AI视频使得一个人在房间里制作更多类型的视频变得更加容易。Runway，已经公开可用，允许你将图像——无论是真实的还是AI生成的——转换成四秒钟的视频剪辑。你可以使图像的不

同元素以不同的方式移动，并控制摄像机的运动。这就好像你有能力让你的图像像《哈利波特》中的巫师照片那样移动。

这些工具也孕育了一种新的电影制作风格，受到它们独特的能力和限制的约束和塑造。例如，它们使得创建使用熟悉角色的AI视频在新的设置和风格中变得容易。一个常见的套路是将两个共享的流行文化元素混合起来，就像在一个将《星球大战》角色渲染成韦斯·安德森风格的剪辑中。

另一个例子：今天的视频模型如Runway的架构使得在不同剪辑中一致生成同一个角色变得棘手。你可以让它们看起来相似——有家族相似性——但控制不够精细，无法让角色看起来完全相同。因此，AI电影往往更像是视觉蒙太奇：几秒钟的剪辑，快速剪辑和旁白讲述一个故事，而不是一组一致的演员在摄像机前进行对话。

Sora是这些工具能力的一个飞跃，使得AI电影制作者能够用更少的资源做更多的事情。剪辑可以长达60秒，这将使得更多种类的编辑风格成为可能。Sora能够执行的运动和物理模拟远远超过任何公开可用的模型。这将允许比目前可能的更复杂的场景、角色动作和角色与周围世界的互动。

这将对电影制作产生什么影响？

AI电影制作今天

有时候，感觉宇宙在支持你，就像当你手里拿着两张三张牌时在河牌上抓到一个顺子。恰巧的是，我对AI电影制作有一点了解，因为我在Sora发布前两天为我的播客采访了该领域的前沿人物。那次采访将在两周内上线，但我想告诉你们我学到了什么。

Dave Clark是一位传统电影制作者，他开始制作AI生成的视频。他最近制作了一部名为《借来的时间》的科幻短片，灵感来自他父亲在1960年代作为一个黑人的经历。他完全使用Midjourney和Runway生成图像和视频。他亲自讲述了这部电影，并使用Eleven Labs将他的配音转换成不同角色的声音。

《借来的时间》走红了，Dave告诉我，如果没有AI，他是不可能制作它的。要在传统好莱坞工作室获得资金支持制作像他这样的科幻短片是不可能的。但现在它发布并受到欢迎后，他说他正在接触顶级好莱坞工作室，他们想将其制作成一部完整的电影。

这个轶事充分说明了像Sora这样的AI模型将如何在未来改变电影制作。

电影概念将便宜地进行测试
如果你想在有Sora的世界里制作一部科幻电影，你所需要的只是一台笔记本电脑和一些OpenAI积分。更多的人将能够制作反映他们想象力的视频，而不需要通过传统的守门人获得批准或获得资金。并且，不仅仅是做播客或直播的YouTubers会获得这个机会；任何人都会。

视频制作者的想法获得关注的可能性更大，更有可能获得资金将它们制作成电影——就像今天的作家使用推文和新闻通讯来获得书籍合同一样。

大成本电影的制作成本将降低
在真空中，AI工具将使传统好莱坞电影的制作成本降低。《一切都是最好的安排》使用Runway进行特效处理，只需八个人就能展示令人眼花缭乱的壮举（比如热狗手！）。作为对比，大约有300人参与了《怪物史莱克》的制作。

从理论上讲，Sora应该使像EEAAO这样的制作更加普遍。但现有的商业结构和工会协议可能使好莱坞难以最大限度地利用这些工具。相反，一种新的电影制作形式将在其他地方开花。

AI电影制作将成为自己的形式，好莱坞将变得不那么重要
就像iPhone和互联网导致视频日志和化妆教程的兴盛一样，AI电影制作将创造出自己的电影类型，具有自己的风格和形式。我预计我们已经看到的视频类型将会增多：使用现有IP制作混搭和剪辑，以及快速剪辑和旁白独白将成为该类型的主要内容，直到技术再次变革。（据我们所知，Sora生成的视频中的演员无法呈现与特定台词相匹配的面部动作。）

这些AI视频不会取代传统的好莱坞电影制作——就像YouTube视频没有取代——但它们很可能侵蚀年轻人的注意力和市场份额。

创意的未来
在本文的前面，我们讨论了Sora正在延伸的长期趋势：

更多的数据和更强的计算能力产生了更令人印象深刻的AI结果
技术降低了电影制作的成本，从而改变了哪些类型的电影被制作以及由谁来制作
希望这能将Sora的能力放在更广阔的视角中。但还有一个更重要的趋势我想以此结束。

过去几个月来，我一直在写我们从知识经济过渡到分配经济的过程：我们正从一个基于你所知道的东西获得报酬的世界转变为一个基于你如何分配智能获得报酬的世界。在这个世界里，即使是个体贡献者或独立创业者也成为了管理者——但他们管理的不是人，而是模型。

很明显，Sora适应了这一范式：你越是知道如何作为一个工具来管理它以创造不可思议的东西，你在新经济中的地位就越好。但最令人兴奋的部分是，它扩大了被允许在世界上制作东西的人的范围。就像GPT-4使得任何人只要有足够的坚持就能发布一个Web应用一样，Sora使得任何人都可以制作视频。当我说任何人时，我指的是你。Sora并不意味着任何人都能一按按钮就制作出一部伟大的视频。讲故事将需要更多的技巧、品味和奉献精神。但任何人都可以开始，学习这些技能，并有机会成为伟大的——他们所需要的只是一台笔记本电脑。

如果你是一个有创造力的人，这无疑是活着的最好时代。