OpenAI Sora横空出世，引领新时代-CSDN博客

本文链接：https://blog.csdn.net/tangPHP/article/details/136193674

OpenAI发布了新的视频生成模型Sora，能创作60秒长的复杂视频，结合物理世界理解和Transformer技术，可生成连贯、逼真的场景。Sora不仅根据文本指令，还能处理现有图像，潜在影响影视、摄影等行业，但安全措施也在同步加强。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

继ChatGPT之后，OpenAI又推出一款震惊科技圈的产品。

2月15号，OpenAI宣布推出文生视频大模型——Sora。

据介绍，Sora可以创建长达60秒的视频，具有非常详细的场景，复杂的摄像机运动，和充满活力的情感的多个角色。

OpenAI：Sora了解用户在提示中要求的内容

还了解这些东西在物理世界中的存在方式

据其官网介绍，OpenAI正在教人工智能理解和模拟运动中的物理世界，目标是训练模型，帮助人们解决需要现实世界交互的问题。

其文生视频模型Sora，可以生成长达一分钟的视频，同时保持视觉质量并遵守用户的提示。

Sora能够生成具有多个角色、特定类型的运动以及主题和背景的准确细节的复杂场景。该模型不仅了解用户在提示中要求的内容，还了解这些东西在物理世界中的存在方式。

该模型对语言有深刻的理解，使其能够准确地解释提示并生成表达生动情感的引人注目的角色。Sora还可以在单个生成的视频中创建多个镜头，以准确保留角色和视觉风格。

从其官网介绍来看，Sora是一种扩散模型，它通过从一个看起来像静态噪声的视频开始生成视频，然后通过多步去除噪声来逐渐转换视频。

Sora能够一次性生成整个视频或扩展生成的视频，使其更长。通过一次为模型提供多帧的前瞻性，我们解决了一个具有挑战性的问题，即确保主体即使暂时离开视野也保持不变。

类似于GPT模型，Sora使用变压器架构，解锁卓越的缩放性能。

Sora将视频和图像表示为称为补丁 (patch)的更小数据单元的集合，每个补丁都类似于GPT中的令牌。通过统一Sora如何表示数据，Sora可以在比以前更广泛的可视数据上训练扩散变换器，跨越不同的持续时间、分辨率和宽高比。

Sora建立在过去的研究在DALL·E和GPT模型。它使用DALL·E 3中的重新捕获技术，该技术涉及为视觉训练数据生成高度描述性的字幕。结果，该模型能够更忠实地遵循生成的视频中的用户的文本指示。

除了能够完全从文本指令生成视频外，该模型还能够利用现有的静态图像并从中生成视频，对图像的内容进行精确动画处理，并关注小细节。该模型还可以获取现有视频并对其进行扩展或填充丢失的帧。

安全方面，OpenAI表示，在其产品中提供Sora之前，OpenAI将采取几个重要的安全措施。

OpenAI正在与红队成员合作，他们是错误信息、仇恨内容和偏见等领域的领域专家，他们将对模型进行对抗性测试。

OpenAI还开发了一些工具来帮助检测误导性内容，比如一个检测分类器，它可以告诉OpenAI一个视频是什么时候由Sora生成的。

除了开发新技术为部署做准备外，OpenAI还利用了为使用DALLE 3的产品构建的现有安全方法，这些方法也适用于Sora。

OpenAI还开发了强大的图像分类器，用于检查生成的每个视频的帧，以确保视频在向用户显示之前符合我们的使用策略。

OpenAI将与世界各地的政策制定者、教育工作者和艺术家合作，了解他们的担忧，并为这项新技术确定积极的使用案例。

OpenAI表示，尽管其进行了广泛的研究和测试，但无法预测人们使用其技术的所有有益方式，也无法预测人们滥用技术的所有方式。

这就是为什么OpenAI相信从实际使用中学习是随着时间的推移创建和发布越来越安全的人工智能系统的关键组成部分。

视频效果：时间长、多角色、多镜头，但也有缺点。

AI想象中的龙年春节，红旗招展人山人海。有紧跟舞龙队伍抬头好奇观望的儿童，还有不少人掏出手机边跟边拍，海量人物角色各有各的行为。

雨后东京街头，潮湿地面反射霓虹灯光影效果堪比RTX ON。

行驶中的列车窗外偶遇遮挡，车内人物倒影短暂出现非常惊艳。

也可以来一段好莱坞大片质感的电影预告片：

竖屏超近景视角下，这只蜥蜴细节拉满：

技术原理：

基于Transformer架构

Sora模型在其核心构造上与GPT模型颇为相似，均是基于先进的Transformer架构，从而赋予了Sora卓越的扩展能力。Transformer架构采用的是一种革命性的自注意力机制的神经网络，它能够高效地处理输入文本中各个位置的信息。这种机制使得模型能夾捉到更广泛的全局上下文信息，极大地增强了对文本的理解深度。正是得益于这样的架构，Sora在将文本转化为视频的过程中，能够更加精准地把握并表现出文本中的细节和含义。

扩散模型和训练稳定性

Sora模型引入了创新的扩散模型方法，这与传统的生成对抗网络（GAN）模型相比，展现出了更加卓越的生成多样性和训练稳定性。扩散模型的核心在于逐步消除噪声的过程，以此逐渐构建和完善视频内容。这种方法不仅有效提升了生成视频的质量，而且还确保了视频场景的真实感和细节丰富度。通过采用这种先进的扩散模型，Sora能够创造出更加逼真、细腻的视频环境，为用户带来更为生动和丰富的视觉体验。

生成视频的数据处理和压缩

为了应对生成视频时涉及的大量数据处理需求，Sora模型巧妙地采用了高效的数据处理和压缩技术。通过对视频数据进行精细的处理和智能压缩，Sora不仅能够显著减少对存储空间的需求，同时也确保了视频质量的保持。这意味着在优化存储效率的同时，Sora依然能够提供清晰、高质量的视频输出，从而在保障视频质量的前提下实现了数据处理的高效率。

视频质量和逼真度

Sora模型在生成视频的过程中，注重保持视频质量和逼真度。通过采用Transformer架构和扩散模型的方法，Sora能够生成更加连贯、且具有很高逼真度的视频场景。这使得Sora在应用领域具有广泛的潜力，比如可以用于影视制作、游戏开发等方面。

在数据方面，OpenAI将视频和图像表示为patch，类似于GPT中的token。

通过这种统一的数据表示方式，可以在比以前更广泛的视觉数据上训练模型，涵盖不同的持续时间、分辨率和纵横比。

Sora建立在过去对DALL·E和GPT模型的研究之上。它使用DALL·E 3的重述提示词技术，为视觉训练数据生成高度描述性的标注，因此能够更忠实地遵循用户的文本指令。

除了能够仅根据文本指令生成视频之外，该模型还能够获取现有的静态图像并从中生成视频，准确地让图像内容动起来并关注小细节。

Sora可能带来的影响如果Sora能够真正意义上实现文生视频，可能会带来哪些影响呢？

1、没有演员的影视作品出现，对演员来说是个小挑战，将出现真正的“虚拟偶像”，此前的二次元人物并没有真正达到“偶像”的级别。

2、利好编剧行业，剧本、文本创作力成为核心竞争力。

3、Sora可能才是真正的文生视频，此前的文生视频大多只有2秒，仅仅是对象的小幅度移动。

4、OpenAI继续拉大领先程度，对众多还在进行大模型测试打分pk的厂商，构成压力。

5、直接的影响是影视行业，特别是特效行业。使用AI来制作一些特效和高风险的镜头，可以大幅降低拍摄成本，也可以避免很多危险。

6、摄影师行业也会受到影响，用文本来生成一些视频，可以省去很多拍摄工作。

7、短视频流行开以后，视频剪辑师也随之成为一个热门职业。如果视频剪辑的工作可以用AI来代替，可能会有很多视频剪辑师失业。

8、对于很多短视频创作者来说，用AI来替代繁琐的剪辑工作，可以大幅提高工作效率。

9、很多歌手拍摄MV都是大成本制作，如果可以用AI来生成所需要的MV画面，也可以省去很大一部分制作成本。

10、另外，如果真正意义上的文生视频得以实现，可能会有不法份子利用这项技术实施新手段的违法犯罪。不过，从Sora官网目前展示的视频画面效果来看，效果还没那么逼近真实，短期内不会产生让行业失业，但会有辅助作用，做个动画片应该问题不大。在Sora官网，OpenAI表示，Sora是能够理解和模拟现实世界的模型的基础，OpenAI相信这一能力将是实现AGI的重要里程碑。

如果想跟上AI技术的脚步，快人一步，了解掌握最新Sora详细知识资料，推荐大家扫码了解下。