Sora震撼发布：让你成为导演的时代终于到来！

最新推荐文章于 2025-05-12 17:30:24 发布

萤火AI百宝箱

最新推荐文章于 2025-05-12 17:30:24 发布

阅读量967

点赞数 23

分类专栏：公众号#云原生AI百宝箱文章标签：人工智能

本文链接：https://blog.csdn.net/fly910905/article/details/136197242

版权

公众号#云原生AI百宝箱专栏收录该内容

19 篇文章

订阅专栏

关注【云原生百宝箱】公众号，获取更多云原生消息

OpenAI重磅发布了他们的视频生成大模型Sora，该模型可支持长达一分钟的高质量视频内容的生成，又着实又令人震惊了一把。

OpenAI朝着突破人类想象力的界限又迈出了一步，我相信你至少曾经想过，“如果我能成为一名导演，我会拍一部关于XX的电影”。虽然没有人能让时间倒流，但 OpenAI 几年来已经让我们快进未来。从DALL-E 2开始，继而成功的ChatGPT，再到多种GPT模型，以及现在新推出的文本转视频模型Sora，OpenAI不断创新并拓展AI技术的可能性。

你可能会说：这算啥，AI视频又不是新东西，之前不是有runway和pika吗？

但这次真的不太一样，sora的能力超过我们的想象，sora产出的视频效果大家可以去官网看看：https://openai.com/sora。

看完你会知道sora究竟有多强，之于我，是达到了震撼的效果

只需要三个词来总结Sora，那就是“60s超长长度”、“单视频多角度镜头”和“世界模型”。

---节选自《Sora王炸出现，一夜之间很多创业公司凉凉…AGI从10年缩短到1年》

Sora是什么？

Sora，是一个文本转视频模型。Sora 可以生成长达一分钟的视频，同时保持视觉质量并遵守用户的提示。

Sora理解和模拟运动中的物理世界，目标是训练模型帮助人们解决需要现实世界交互的问题。

Sora[1]是 OpenAI 的突破性技术，可将文本转换为视频，本质上就像一根魔杖，将你的故事或描述以动态图像的形式呈现出来。

它可以为各种场景创建视觉效果，从日常场景到富有想象力的奇幻场景。尽管 Sora 是一个开创性的工具，但它仍在不断完善，以更准确地理解和可视化复杂的概念。OpenAI 致力于增强 Sora 的能力并确保其负责任的使用。

Sora的效果

AI想象中的龙年春节，红旗招展人山人海。

有紧跟舞龙队伍抬头好奇观望的儿童，还有不少人掏出手机边跟边拍，海量人物角色各有各的行为。

雨后东京街头，潮湿地面反射霓虹灯光影效果堪比RTX ON。

行驶中的列车窗外偶遇遮挡，车内人物倒影短暂出现非常惊艳。

也可以来一段好莱坞大片质感的电影预告片：

竖屏超近景视角下，这只蜥蜴细节拉满：

Sora除了能够根据直接根据提示词成一分钟的视频，还支持：

1）通过提示词让图片动起来

2）在时间维度上向前和向后扩展生成的视频

3）视频到视频的编辑，通过给定一个视频，然后通过给定一定的提示词就可以实现视频内容的编辑

4）视频连接融合，这个有点类似视频差值融合，输入两个完全不同主题的视频，视频可以生成无缝的过渡

---节选自《OpenAI 的Sora其实是个物理世界模拟器》

云原生百宝箱

行万里路，此处相逢，共话云原生之道。偶逗趣事，明月清风，与君同坐。

Sora给谁用的？

Sora 专为想要从文本创建逼真且富有想象力的视频的用户而设计。它针对的是需要能够为各种目的（例如讲故事、娱乐、教育或内容创建）生成复杂场景、角色和动作的个人或组织。

👉从文本脚本创建电影预告片、短片、动画和纪录片。Sora 可以帮助电影制作人和故事讲述者将他们的想法和概念形象化，并创建引人注目的原创视频。Sora 还可以根据观众的喜好和兴趣帮助他们发现新的有趣的内容。

👉使用新元素增强现有视频，例如添加特效、更改背景或插入新角色。Sora 可以帮助视频编辑和制作人改进和修改他们的视频，并增加更多的多样性和创造力。Sora 还可以根据观众的反馈和输入，帮助他们欣赏更加个性化和互动的视频。

👉根据文本摘要生成教育视频，例如解释科学概念、历史事件或文化现象。Sora 可以帮助教育工作者和学习者创建和访问信息丰富且引人入胜的视频，从而增强他们的理解和记忆。

Sora 还可以根据观众的好奇心和问题，帮助他们探索和了解更多不同的主题和主题。

👉为社交媒体创建个性化视频，例如生日祝福、旅行日记或模因。Sora 可以帮助社交媒体用户和影响者创建和分享独特且有趣的视频，以表达他们的个性和情感。Sora 还可以根据观众的喜好和评论，帮助他们与朋友和关注者建立联系并互动。

👉从文字描述中形象化想法、场景和梦想，例如设计产品、想象未来或探索幻想世界。Sora 可以帮助设计师和创新者创建和测试他们的原型和愿景，并获得反馈和建议。Sora还可以帮助观众根据他们的想象力和创造力来体验和享受不同的现实和可能性。

Sora使用了什么研究？

Sora 建立在过去对 DALL·E 和 GPT 模型的研究之上。具体来说，它使用 DALL·E 3 中的重述技术，该技术涉及为视觉训练数据生成高度描述性的标题。Sora 是一种扩散模型，它使用类似于 GPT 模型的Transformer架构，并将视频和图像表示为称为补丁的较小单元的集合。这种方法允许一次性生成整个视频或扩展生成的视频以使其更长。

Sora 能够生成具有多个角色、特定类型的运动以及主体和背景的准确细节的复杂场景。该模型不仅了解用户在提示中提出的要求，还了解这些东西在物理世界中的存在方式。

Sora是如何工作的，简单地说……

👉Sora 基于深度神经网络，这是一种机器学习模型，可以从数据中学习并执行复杂的任务。Sora 使用从中学习到的大型视频数据集，涵盖各种主题、风格和流派。

Sora分析文本提示并提取相关关键词，例如主题、动作、地点、时间和心情。然后，它从数据集中搜索与关键字匹配的最合适的视频，并将它们混合在一起以创建新视频。

扩散模型： Sora 从看起来像静态噪声的视频开始，逐渐消除噪声以创建清晰的视频。可以将其想象为从一张模糊的图片开始，然后慢慢使其变得更加清晰。

生成视频： Sora 可以一次创建整个视频或使现有视频更长。它可以跟踪视频中多个帧中发生的情况，因此即使某些内容暂时看不见，它仍然知道它在那里。

该模型面临的最大挑战可能是保持拍摄对象的一致性，即使它离开了画面。任何使用过 DALL-E 模型并尝试创建保持不变的角色的人都知道，当角色不断变化且看起来永远不一样时，这是多么困难。因此，制作一个不仅能将文本转换为视频，还能保持角色一致的模型，是一个全新的成就水平。

Transformer架构： Sora 使用一种称为Transformer的特殊结构，类似于 GPT 模型（AI 语言）中使用的结构。这使得它能够处理大量数据并制作高质量的视频。

补丁和令牌：视频和图像被分解为称为补丁的小块，类似于语言人工智能中单词被分解为令牌的方式。这有助于 Sora 从各种视频和图像中学习。

基于过去的研究： Sora 使用 DALL·E 和 GPT 等早期模型的技术。例如，它使用DALL·E 3中的方法来创建详细的训练描述，以便在制作视频时可以更好地理解和遵循文本说明。

从文本或图像创建视频： Sora 可以根据书面说明制作视频，使静态图像栩栩如生，或添加到现有视频中。它注重小细节，使动画准确。

OpenAI 让我们初步了解了它的功能，它们看起来非常有前途。

除了能够仅根据文本指令生成视频之外，该模型还能够获取现有的静态图像并从中生成视频，准确地动画图像的内容并关注小细节。该模型还可以获取现有视频并对其进行扩展或填充缺失的帧。请参阅Sora技术报告[2]了解更多信息。

Sora 是能够理解和模拟现实世界的模型的基础，我们相信这一功能将成为实现 AGI 的重要里程碑。

关注【云原生百宝箱】公众号，获取更多云原生消息

行万里路，此处相逢，共话云原生之道。偶逗趣事，明月清风，与君同坐。

当前模型还有不足

当前的模型存在弱点。它可能难以准确模拟复杂场景的物理原理，并且可能无法理解因果关系的具体实例。例如，一个人可能咬了一口饼干，但之后饼干可能没有咬痕。

该模型还可能会混淆提示的空间细节，例如混淆左右，并且可能难以精确描述随着时间推移发生的事件，例如遵循特定的相机轨迹。

Sora安全吗

Sora 正在与red 成员（错误信息、仇恨内容和偏见等领域的领域专家）合作，他们将以对抗性方式测试该模型。

例如，在 OpenAI 产品中，我们的文本分类器将检查并拒绝违反我们的使用政策的文本输入提示，例如请求极端暴力、性内容、仇恨图像、名人肖像或他人 IP 的文本输入提示。我们还开发了强大的图像分类器，用于检查生成的每个视频的帧，以帮助确保它在向用户显示之前符合我们的使用政策。

Sora 的挑战和局限性

Sora并不完美，它仍然面临一些挑战和限制。他们之中有一些是：

• Sora 不是公开可用的，只有一小部分研究人员和创意专业人士可以访问它以进行反馈和测试。
• OpenAI 尚未宣布何时或如何向公众发布 Sora，也没有宣布定价和许可模式。
• Sora 受 OpenAI 服务条款的约束，该条款禁止使用该模型创建涉及“极端暴力、性内容、仇恨图像、名人肖像或他人知识产权”的内容。OpenAI 还监控 Sora 的使用情况，并保留在检测到任何违规或滥用行为时撤销访问或修改输出的权利。
• Sora 可能会生成不准确、不适当或有害的内容，例如歪曲事实、侵犯隐私或宣扬偏见。
• Sora 还可能生成与现实无法区分的内容，这可能会带来道德和社会风险，例如传播错误信息、操纵情绪或削弱信任。
• Sora 可能无法处理复杂或模糊的提示，例如涉及多个句子、逻辑推理或抽象概念的提示。Sora 也可能无法生成连贯或一致的视频，例如那些需要时间连续性、因果关系或叙事结构的视频。