革命性的OpenAI Sora：探索未来的AI交互新范式

最新推荐文章于 2024-10-04 22:36:54 发布

程序员小胖胖

最新推荐文章于 2024-10-04 22:36:54 发布

阅读量847

点赞数 13

分类专栏： AI 文章标签：人工智能交互

本文链接：https://blog.csdn.net/weixin_42326548/article/details/137352865

版权

AI 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

关注微信公众号 “程序员小胖” 每日技术干货，第一时间送达！

导语

今天在刷社交媒体的时候看到奥特曼(Sam Altman)发布的一条动态说是新发布的一个视频生成模型接下来我们来了解下Sora是个什么好玩意儿

Sora是什么

Sora 是一个AI模型,可以根据文本指令创建现实且富有想象力的场景听起来很复杂,理解起来也不简单。

Sora有哪些能力

将视觉数据转化为补丁、

从大型语言模型中获得灵感，这些模型通过互联网规模数据的训练来获得通用能力。13、14LLM 范式的成功部分归功于令牌的使用，这些令牌优雅地统一了文本代码、数学和各种自然语言的不同模式。在这项工作中，我们考虑视觉数据的生成模型如何继承这些好处。LLM 有文本标记，而 Sora 有视觉补丁。此前，补丁已被证明是视觉数据模型的有效表示。15 ,16 ,17、18我们发现补丁是一种高度可扩展且有效的表示形式，可用于在不同类型的视频和图像上训练生成模型。

用于视频生成的缩放变压器

Sora是一个扩散模型21、22、23、24、25; 给定输入噪声补丁（以及文本提示等调节信息），它被训练来预测原始的“干净”补丁。重要的是，Sora 是一个扩散变压器。26Transformer 在各个领域都表现出了卓越的扩展特性，包括语言建模、13、14计算机视觉，15 ,16 ,17、18和图像生成。27、28 ,29

插入三只小狗视频

采样灵活性

Sora 可以采样宽屏 1920x1080p 视频、垂直 1080x1920 视频以及介于两者之间的所有视频。这使得 Sora 可以直接以其原生宽高比为不同设备创建内容。它还使我们能够在以全分辨率生成之前快速以较低尺寸制作原型内容 - 所有这些都使用相同的模型。

改进的框架和构图

根据经验发现, 以原始长宽比对视频进行训练可以改善构图和取景. 我们将 Sora 与将所有训练视频裁剪为正方形的模型版本进行比较，这是训练生成模型时的常见做法。在方形作物（左）上训练的模型有时会生成仅部分可见主体的视频。相比之下，Sora（右）的视频取景有所改善。

语言理解

训练文本到视频生成系统需要大量带有相应文本字幕的视频。我们应用了 DALL·E 3 中引入的重新字幕技术30到视频。我们首先训练一个高度描述性的字幕生成器模型，然后使用它为训练集中的所有视频生成文本字幕。我们发现，对高度描述性视频字幕进行训练可以提高文本保真度以及视频的整体质量。
与 DALL·E 3 类似，我们还利用 GPT 将简短的用户提示转换为较长的详细字幕，然后发送到视频模型。这使得 Sora 能够生成准确遵循用户提示的高质量视频。

关键字

一位时尚女性走在充满温暖霓虹灯和动画城市标牌的东京街道上。她穿着黑色皮夹克、红色长裙和黑色靴子，拎着黑色钱包。她戴着太阳镜，涂着红色口红。她走路自信又随意。街道潮湿且反光，在彩色灯光的照射下形成镜面效果。许多行人走来走去。

关键字

几只巨大的毛茸茸的猛犸象踏着白雪皑皑的草地走近，它们长长的毛茸茸的皮毛在风中轻轻飘动，远处覆盖着积雪的树木和雄伟的雪山，午后的阳光下有缕缕云彩，太阳高高地挂在空中距离产生温暖的光芒，低相机视角令人惊叹地捕捉到大型毛茸茸的哺乳动物，具有美丽的摄影和景深。

关键字

电影预告片讲述了30岁太空人戴着红色羊毛针织摩托车头盔的冒险经历，蓝天、盐漠，电影风格，35毫米胶片拍摄，色彩鲜艳。

关键字

无人机拍摄的海浪拍打大苏尔加雷角海滩崎岖悬崖的景象。蔚蓝的海水激起白色的波浪，夕阳的金色光芒照亮了岩石海岸。远处有一座小岛，岛上有一座灯塔，悬崖边长满了绿色的灌木丛。从公路到海滩的陡峭落差是一项戏剧性的壮举，悬崖边缘伸出海面。这一景观捕捉到了海岸的原始之美和太平洋海岸公路的崎岖景观。

关键字

动画场景的特写是一个毛茸茸的小怪物跪在融化的红蜡烛旁边。艺术风格是 3D 和现实的，重点是灯光和纹理。这幅画的气氛是一种惊奇和好奇，怪物睁大眼睛、张开嘴巴凝视着火焰。它的姿势和表情传达出一种天真和俏皮的感觉，就好像它第一次探索周围的世界一样。暖色调和戏剧性灯光的使用进一步增强了图像的舒适氛围。

关键字

一个渲染华丽的珊瑚礁纸艺世界，充满了色彩缤纷的鱼类和海洋生物。

关键字

这张维多利亚冠鸽的特写镜头展示了其引人注目的蓝色羽毛和红色胸部。它的冠由精致的花边羽毛制成，而它的眼睛是醒目的红色。鸟的头部微微向一侧倾斜，给人一种富丽堂皇、威严的印象。背景变得模糊，将人们的注意力吸引到这只鸟引人注目的外表上。

关键字

逼真的特写视频，展示两艘海盗船在一杯咖啡内航行时互相争斗的情况。

关键字

一个20多岁的年轻人坐在天上的一片云上看书。

根据图像肯提示生成视频

Sora 能够生成提供图像和提示作为输入的视频。下面我们展示基于DALL·E 2生成的示例视频31和达尔·E 330图片。

关键字

一只戴着贝雷帽和黑色高领毛衣的柴犬。

生成对应在视频

关键字

不同家族怪物的平面设计风格的怪物插图。该群体包括一个毛茸茸的棕色怪物、一个带有天线的光滑黑色怪物、一个有斑点的绿色怪物和一个小圆点怪物，所有怪物都在一个有趣的环境中互动。

生成对应的视频

关键字

写有"SORA"的现实云的图像。

生成对应的视频

关键字

在一座华丽的历史大厅里，巨大的浪潮达到顶峰并开始崩塌。两名冲浪者抓住时机，熟练地驾驭海浪。

生成对应的视频

扩展生成的视频

Sora 还能够在时间上向前或向后扩展视频。下面是四个视频，它们都是从生成的视频片段开始向后延伸的。因此，这四个视频的开头都不同，但所有四个视频的结局都是相同的。

还可以使用此方法向前和向后扩展视频以产生无缝的无限循环。

视频到视频编辑

扩散模型启用了多种根据文本提示编辑图像和视频的方法。下面我们应用其中一种方法，SDEdit，32到索拉。这项技术使 Sora 能够零镜头地改变输入视频的风格和环境。

输入普通视频

茂密的森林场景

有恐龙场景

改为赛博朋克风格

时间设置为冬天

生成连续的视频

我们还可以使用 Sora 在两个输入视频之间逐渐进行插值，从而在具有完全不同主题和场景构成的视频之间创建无缝过渡。在下面的示例中，中心的视频插值在左侧和右侧的相应视频之间。

图像生成能力
Sora 还能够生成图像。我们通过在时间范围为一帧的空间网格中排列高斯噪声块来实现这一点。该模型可以生成各种高分辨率的图像。

关键字

秋季女性特写肖像照，极其细节，浅景深

关键字

充满活力的珊瑚礁，充满色彩缤纷的鱼类和海洋生物

关键字

苹果树下一只小老虎的数字艺术，采用哑光绘画风格，细节华丽

关键字

雪山村庄，拥有舒适的小屋和北极光显示屏，高细节和逼真的数码单反相机

新兴的模拟功能：我们发现，视频模型在大规模训练时表现出许多有趣的新兴功能。这些功能使 Sora 能够模拟现实世界中人、动物和环境的某些方面。这些属性的出现对 3D、物体等没有任何明确的归纳偏差——它们纯粹是尺度现象。
- 3D 一致性：Sora 可以生成带有动态摄像机运动的视频。随着摄像机的移动和旋转，人和场景元素在三维空间中一致移动。
- 远程相干性和物体持久性：视频生成系统面临的一个重大挑战是在采样长视频时保持时间一致性。我们发现 Sora 通常（尽管并非总是）能够有效地对短期和长期依赖关系进行建模。例如，我们的模型可以保留人、动物和物体，即使它们被遮挡或离开框架。同样，它可以在单个样本中生成同一角色的多个镜头，并在整个视频中保持其外观。
- 与世界互动。索拉有时可以用简单的方式模拟影响世界状况的动作。例如，画家可以在画布上留下新的笔触，并随着时间的推移而持续存在，或者一个人可以吃汉堡并留下咬痕。
- 模拟数字世界。Sora 还能够模拟人工过程——一个例子是视频游戏。Sora 可以同时通过基本策略控制《我的世界》中的玩家，同时以高保真度渲染世界及其动态。这些能力可以通过用提及“我的世界”的标题提示 Sora 来零射击。

这些功能表明，视频模型的持续扩展是开发物理和数字世界以及生活在其中的物体、动物和人的高性能模拟器的一条有前途的道路。

参考链接：https://openai.com/sora