OpenAI 的 Sora 生成视频简直太疯狂了!

7 篇文章 0 订阅

近日,OpenAI 发布首个视频生成模型 Sora。只需要输入一段文字,就可以生成效果炸裂的60秒视频。

当我第一次看到 Sora 生成的前几个视频时,我的下巴简直要掉到地上了。

图片

什么是 Sora

Sora 是一种扩散模型,具有独特的“学习”方式,可以根据简单的文本提示生成视频。它能够生成一分钟的高保真视频。

官方介绍:https://openai.com/research/video-generation-models-as-world-simulators

根据官方报告的内容,Sora 的技术架构图如下:图片

Sora 模型的核心技术点:

  1. 视频压缩网络

OpenAI训练了一个降低视觉数据维度的网络。这个网络接受原始视频作为输入,并输出在时间和空间上都被压缩的潜在表示。Sora 在这个压缩的潜在空间上进行训练,并随后生成视频。同时还训练了一个相应的解码器模型,将生成的潜在表示映射回像素空间。

视频压缩网络的工作就是将高维度的视频数据转换为patches,首先将视频压缩到一个低纬的latent space,然后分解为spacetime patches。

图片

  1. 用于视频生成的Scaling Transformers

Sora 是一个 diffusion 模型;给定输入的噪声块+文本prompt,它被训练来预测原始的“干净”分块。重要的是,Sora是一个Scaling Transformers。Transformers在大语言模型上展示了显著的扩展性,我们相信OpenAI将很多在大语言模型的技术积累用在了 Sora 上。

图片

  1. 语言理解

OpenAI 训练文本到视频生成系统需要大量带有相应文本标题的视频。

这里,OpenAI 将 DALL·E 3 中介绍的标题生成技术用到了视频领域,训练了一个具备高度描述性的视频标题生成(video captioning)模型,使用这个模型为所有的视频训练数据生成了高质量文本标题,再将视频和高质量标题作为视频文本对进行训练。

通过这样的高质量的训练数据,保障了文本(prompt)和视频数据之间高度的align。而在生成阶段,Sora会基于OpenAI的GPT模型对于用户的prompt进行改写,生成高质量且具备很好描述性的高质量prompt,再送到视频生成模型完成生成工作。

技术交流

前沿技术资讯、算法交流、求职内推、算法竞赛、面试交流(校招、社招、实习)等、与 10000+来自港科大、北大、清华、中科院、CMU、腾讯、百度等名校名企开发者互动交流~

我们建了大模型sora技术交流群, 想要进交流群、获取完整源码&资料、提升技术的同学,可以直接加微信号:mlc2060。加的时候备注一下:研究方向 +学校/公司+CSDN,即可。然后就可以拉你进群了。

方式①、微信搜索公众号:机器学习社区,后台回复:技术交流
方式②、添加微信号:mlc2060,备注:技术交流

用通俗易懂的方式讲解系列

示例:

不废话了,以下是一些提示和示例视频,展示了Sora的非凡能力。

提示:一个电影预告片,以30岁的太空人为主角,戴着红色羊毛编织的摩托车头盔,在蓝天、盐沙漠中展开冒险,具有电影感、35mm胶片拍摄,色彩鲜艳。

图片

提示:镜头跟随着一辆白色的复古SUV,车顶有黑色行李架,它在陡峭的山坡上高速行驶,四周是松树,车轮掀起尘土,阳光照在SUV上,给它穿越尘土路的场景披上温暖的光辉。

尘土路轻轻弯曲,一直延伸到远处,看不到其他车辆。路边的树木是红杉,散布着一些绿色的草木。从后方观察汽车,它轻松地跟随着弯曲,仿佛在崎岖的地形中驰骋。尘土路被陡峭的山丘和山脉环绕,头顶是明朗的蓝天,飘着淡淡的云。

图片

提示:一个极端特写镜头,展现了一位脑袋上长着灰发的六十多岁男子,他留着胡须,深深地沉思着宇宙的历史,坐在巴黎的一家咖啡馆里。他的目光聚焦在屏幕外的行人身上,而他自己却几乎一动不动。他穿着一件羊毛外套和一件有纽扣的衬衫,戴着棕色贝雷帽和眼镜,看起来非常像一位教授。

最后,他微微闭着嘴微笑,仿佛找到了生命之谜的答案。灯光非常电影化,有着金色的光线,巴黎的街道和城市在背景中若隐若现,景深效果,电影感的35mm胶片。

图片

这些例子已经比竞争对手所能做到的要好得多了。

这些并不是精挑细选的例子。OpenAI的CEO,Sam Altman,正在X平台上积极接受并分享提示请求。

Sora 为 DALL-E 图像创建动画

除了能够根据文本描述生成视频外,Sora还可以使用图像作为输入生成视频。

提示:一只穿着贝雷帽和黑色高领衫的柴犬。

图片

有了这种能力,我们可以期待未来将Sora整合到ChatGPT中。

Sora 生成图像

我注意到很少有人在谈论这个功能。Sora 还可以生成图像。

它通过在时空网格中排列高斯噪声块来实现。该模型可以生成各种尺寸的图像,分辨率高达2048 x 2048。

以下是一些示例:

提示:一个下雪的山村,有舒适的小屋和北极光,使用高细节和逼真的单反相机,50mm f/1.2。

图片

更多 Sora 功能

当进行规模训练时,视频模型可以生成一些有趣的新能力,例如:

  • 3D一致性:Sora可以生成具有动态摄像机运动的视频。

  • 长程连贯性和对象永久性:Sora可以在单个样本中生成同一角色的多个镜头,保持他们在整个视频中的外观。

  • 与世界互动:Sora有时可以模拟以简单方式影响世界状态的动作。

  • 模拟数字世界:Sora还能够模拟人工过程;其中一个例子就是视频游戏。

你可以用 Sora 进行另一个有趣的实验,将视频转换成3D模型。X用户 metamike 用 Poly.cam 工具将圣托里尼的视频转换成了一个 3D 场景,展示了这一点。

思考

这是人工智能世界中最疯狂的一周,谷歌的 Gemini 1.5 和 OpenAI 的 Sora 的宣布。

就在一年前,威尔·史密斯的意大利面视频走红,现在我们看到的是接近真实的视频。

图片

如果以这种惊人的速度继续下去,我们很快就可能拥有仅受想象力限制的逼真视频模拟器。

这种技术的应用可能在许多行业中具有突破性和颠覆性,如电影、游戏、内容创作等等。

  • 25
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值