OpenAI 的 Sora 生成视频简直太疯狂了！

最新推荐文章于 2024-07-19 17:10:01 发布

机器学习社区

最新推荐文章于 2024-07-19 17:10:01 发布

阅读量1k

点赞数 25

分类专栏：大模型 SD 文章标签：大模型多模态多模态大模型文生图文生视频

本文链接：https://blog.csdn.net/m0_59596990/article/details/136280423

版权

大模型同时被 2 个专栏收录

194 篇文章 106 订阅

订阅专栏

7 篇文章 0 订阅

订阅专栏

近日，OpenAI 发布首个视频生成模型 Sora。只需要输入一段文字，就可以生成效果炸裂的60秒视频。

当我第一次看到 Sora 生成的前几个视频时，我的下巴简直要掉到地上了。

什么是 Sora

Sora 是一种扩散模型，具有独特的“学习”方式，可以根据简单的文本提示生成视频。它能够生成一分钟的高保真视频。

官方介绍：https://openai.com/research/video-generation-models-as-world-simulators

根据官方报告的内容，Sora 的技术架构图如下：

Sora 模型的核心技术点：

视频压缩网络

OpenAI训练了一个降低视觉数据维度的网络。这个网络接受原始视频作为输入，并输出在时间和空间上都被压缩的潜在表示。Sora 在这个压缩的潜在空间上进行训练，并随后生成视频。同时还训练了一个相应的解码器模型，将生成的潜在表示映射回像素空间。

视频压缩网络的工作就是将高维度的视频数据转换为patches，首先将视频压缩到一个低纬的latent space，然后分解为spacetime patches。

用于视频生成的Scaling Transformers

Sora 是一个 diffusion 模型；给定输入的噪声块+文本prompt，它被训练来预测原始的“干净”分块。重要的是，Sora是一个Scaling Transformers。Transformers在大语言模型上展示了显著的扩展性，我们相信OpenAI将很多在大语言模型的技术积累用在了 Sora 上。

语言理解

OpenAI 训练文本到视频生成系统需要大量带有相应文本标题的视频。

这里，OpenAI 将 DALL·E 3 中介绍的标题生成技术用到了视频领域，训练了一个具备高度描述性的视频标题生成（video captioning）模型，使用这个模型为所有的视频训练数据生成了高质量文本标题，再将视频和高质量标题作为视频文本对进行训练。

通过这样的高质量的训练数据，保障了文本（prompt）和视频数据之间高度的align。而在生成阶段，Sora会基于OpenAI的GPT模型对于用户的prompt进行改写，生成高质量且具备很好描述性的高质量prompt，再送到视频生成模型完成生成工作。

技术交流

前沿技术资讯、算法交流、求职内推、算法竞赛、面试交流(校招、社招、实习)等、与 10000+来自港科大、北大、清华、中科院、CMU、腾讯、百度等名校名企开发者互动交流~

我们建了大模型sora技术交流群，想要进交流群、获取完整源码&资料、提升技术的同学，可以直接加微信号：mlc2060。加的时候备注一下：研究方向 +学校/公司+CSDN，即可。然后就可以拉你进群了。

方式①、微信搜索公众号：机器学习社区，后台回复：技术交流
方式②、添加微信号：mlc2060，备注：技术交流

用通俗易懂的方式讲解系列

示例：

不废话了，以下是一些提示和示例视频，展示了Sora的非凡能力。

提示：一个电影预告片，以30岁的太空人为主角，戴着红色羊毛编织的摩托车头盔，在蓝天、盐沙漠中展开冒险，具有电影感、35mm胶片拍摄，色彩鲜艳。

提示：镜头跟随着一辆白色的复古SUV，车顶有黑色行李架，它在陡峭的山坡上高速行驶，四周是松树，车轮掀起尘土，阳光照在SUV上，给它穿越尘土路的场景披上温暖的光辉。

尘土路轻轻弯曲，一直延伸到远处，看不到其他车辆。路边的树木是红杉，散布着一些绿色的草木。从后方观察汽车，它轻松地跟随着弯曲，仿佛在崎岖的地形中驰骋。尘土路被陡峭的山丘和山脉环绕，头顶是明朗的蓝天，飘着淡淡的云。

提示：一个极端特写镜头，展现了一位脑袋上长着灰发的六十多岁男子，他留着胡须，深深地沉思着宇宙的历史，坐在巴黎的一家咖啡馆里。他的目光聚焦在屏幕外的行人身上，而他自己却几乎一动不动。他穿着一件羊毛外套和一件有纽扣的衬衫，戴着棕色贝雷帽和眼镜，看起来非常像一位教授。

最后，他微微闭着嘴微笑，仿佛找到了生命之谜的答案。灯光非常电影化，有着金色的光线，巴黎的街道和城市在背景中若隐若现，景深效果，电影感的35mm胶片。

这些例子已经比竞争对手所能做到的要好得多了。

这些并不是精挑细选的例子。OpenAI的CEO，Sam Altman，正在X平台上积极接受并分享提示请求。

Sora 为 DALL-E 图像创建动画

除了能够根据文本描述生成视频外，Sora还可以使用图像作为输入生成视频。

提示：一只穿着贝雷帽和黑色高领衫的柴犬。

有了这种能力，我们可以期待未来将Sora整合到ChatGPT中。

Sora 生成图像

我注意到很少有人在谈论这个功能。Sora 还可以生成图像。

它通过在时空网格中排列高斯噪声块来实现。该模型可以生成各种尺寸的图像，分辨率高达2048 x 2048。

以下是一些示例：

提示：一个下雪的山村，有舒适的小屋和北极光，使用高细节和逼真的单反相机，50mm f/1.2。

思考

这是人工智能世界中最疯狂的一周，谷歌的 Gemini 1.5 和 OpenAI 的 Sora 的宣布。

就在一年前，威尔·史密斯的意大利面视频走红，现在我们看到的是接近真实的视频。

如果以这种惊人的速度继续下去，我们很快就可能拥有仅受想象力限制的逼真视频模拟器。

这种技术的应用可能在许多行业中具有突破性和颠覆性，如电影、游戏、内容创作等等。

机器学习社区

关注

25
点赞
踩
19

收藏

觉得还不错? 一键收藏
0
评论
OpenAI 的 Sora 生成视频简直太疯狂了！

Sora 是一种扩散模型，具有独特的“学习”方式，可以根据简单的文本提示生成视频。它能够生成一分钟的高保真视频。根据官方报告的内容，Sora 的技术架构图如下：视频压缩网络OpenAI训练了一个降低视觉数据维度的网络。这个网络接受原始视频作为输入，并输出在时间和空间上都被压缩的潜在表示。Sora 在这个压缩的潜在空间上进行训练，并随后生成视频。同时还训练了一个相应的解码器模型，将生成的潜在表示映射回像素空间。
复制链接

扫一扫