解释 OpenAI Sora 的时空补丁:关键因素

OpenAI的Sora通过创新的时空补丁技术,将静态图像转化为动态且逼真的视频,展示了生成模型的新里程碑。文章深入解析了Sora的工作原理,其灵活性和对3D空间的处理能力预示了视频生成领域的重大进步。
摘要由CSDN通过智能技术生成

人工智能如何将静态图像转换为动态、逼真的视频?OpenAI 的 Sora 通过创新地使用时空补丁来引入答案。

在快速发展的生成模型领域,OpenAI 的 Sora 脱颖而出,成为一个重要的里程碑,有望重塑我们对视频生成的理解和能力。我们解读了 Sora 背后的技术及其在图像、视频和 3D 内容创作方面激发新一代模型的潜力。

cat-on-bed

上面的演示是由 OpenAI 使用提示生成的:一只猫叫醒了熟睡的主人,要求吃早餐。主人试图无视猫,但猫尝试了新的策略,最后主人从枕头下掏出一个秘密的零食,让猫多呆一会儿。— 借助 Sora,我们在视频内容生成方面接近于几乎无法区分的真实感。完整的模型尚未完全向公众发布,因为它正在测试中。

Sora的独特方法如何改变视频生成

在生成模型的世界里,我们已经看到了许多方法,从GAN到自回归和扩散模型,都有自己的优势和局限性。Sora 现在引入了一种范式转变,具有新的建模技术和灵活性,可以处理各种持续时间、纵横比和分辨率。

Sora 将扩散和转换器架构结合在一起,以创建扩散转换器模型,并能够提供以下功能:

  • 文字转视频正如我们所看到的
  • 图片转视频: 让静止图像栩栩如生
  • 视频到视频: 将视频样式更改为其他样式
  • 及时延长视频:向前和向后
  • 创建无缝循环: 看似永无止境的平铺视频
  • 图像生成: 静止图像是一帧的电影(最大 2048 x 2048)
  • 生成任何格式的视频: 从 1920 x 1080 到 1080 x 1920 以及介于两者之间的一切
  • 模拟虚拟世界:像 Minecraft 和其他视频游戏一样
  • 创建视频: 最长 1 分钟,包含多条短片

想象一下,你有一会儿在厨房里。传统的视频生成模型,如 Pika 和 RunwayML 就像厨师一样,严格遵循食谱。他们可以制作出出色的菜肴(视频),但受到他们所知道的食谱(算法)的限制。厨师可能专注于烘焙蛋糕(短片)或烹饪意大利面(特定类型的视频),使用特定的成分(数据格式)和技术(模型架构)。

另一方面,Sora 是一种了解风味基础知识的新型厨师。这位厨师不仅遵循食谱;他们发明了新的。Sora的食材(数据)和技术(模型架构)的灵活性使Sora能够制作各种高质量的视频,类似于主厨的多才多艺的烹饪创作。

索拉的秘密成分的核心:探索时空补丁

时空补丁是 Sora 创新的核心,它建立在 Google DeepMind 早期对 NaViT 和 ViT视觉变形金刚)的研究之上,该研究基于 2021 年的论文 An Image is Worth 16x16 Words

“香草”Vision Transformer 架构 — 图片来源: Dosovitskiy et al., 2021

传统上,对于视觉转换器,我们使用一系列图像“补丁”来训练用于图像识别的转换器模型,而不是用于语言转换器的单词。这些补丁使我们能够摆脱卷积神经网络进行图像处理。

框架/图像如何“修补”——图片来源: Dehghani 等人,2023 年

然而,对于视觉转换器,图像训练数据的大小和纵横比是固定的,这限制了质量,并且需要大量的图像预处理。

切片视频时态数据的可视化 — 来源: kitasenjudesign

通过将视频视为补丁序列,Sora 保持了原始的纵横比和分辨率,类似于 NaViT 对图像的处理。这种保存对于捕捉视觉数据的真正本质至关重要,使模型能够从更准确的世界表示中学习,从而赋予 Sora 近乎神奇的准确性。

时空修补(处理)的可视化 — 图片来源:OpenAI (Sora)

该方法使 Sora 能够有效地处理各种视觉数据,而无需调整大小或填充等预处理步骤。这种灵活性确保了每条数据都有助于模型的理解,就像厨师如何使用各种食材来增强菜肴的风味特征一样。

通过时空补丁对视频数据进行详细而灵活的处理,为精确的物理模拟和 3D 一致性等复杂功能奠定了基础。这些功能对于创建不仅看起来逼真而且符合世界物理规则的视频至关重要,让我们得以一窥 AI 创建复杂、动态视觉内容的潜力。

喂养 Sora:多样化数据在训练中的作用

训练数据的质量和多样性对于生成模型的性能至关重要。传统的视频模型是在限制性更强的数据集、更短的长度和更窄的目标上进行训练的。

Sora 利用了庞大而多样的数据集,包括不同持续时间、分辨率和纵横比的视频和图像。它能够重新创建像《我的世界》这样的数字世界,它可能还包括来自虚幻或Unity等系统的游戏玩法和模拟世界镜头,以捕捉视频内容的所有角度和各种风格。这使 Sora 进入了一个“通才”模型,就像文本的 GPT-4 一样。

这种广泛的培训使Sora能够理解复杂的动态,并生成既多样化又高质量的内容。该方法模仿了在各种文本数据上训练大型语言模型的方式,将类似的理念应用于视觉内容以实现通才功能。

可变“补丁”NaVit 与传统视觉变形金刚 — 图片来源: Dehghani 等人,2023 年

正如 NaViT 模型通过将来自不同图像的多个补丁打包到单个序列中来展示显着的训练效率和性能提升一样,Sora 利用时空补丁在视频生成中实现类似的效率。这种方法允许从庞大的数据集中更有效地学习,提高模型生成高保真视频的能力,同时降低与现有建模架构相比所需的计算量。

让物理世界栩栩如生:Sora对3D和连续性的掌握

3D空间和物体持久性是Sora演示中的关键亮点之一。通过对各种视频数据进行训练,无需对视频进行调整或预处理,Sora 学会了以令人印象深刻的精度对物理世界进行建模,因为它能够以原始形式使用训练数据。

它可以生成数字世界和视频,其中物体和角色在三维空间中令人信服地移动和交互,即使它们被遮挡或离开框架也能保持连贯性。

展望未来:Sora的未来影响

Sora 为生成模型的可能性设定了新标准。这种方法很可能会激发开源社区对视觉模式的实验和改进,从而推动新一代生成模型的出现,从而突破创造力和现实主义的界限。

Sora 的旅程才刚刚开始,正如 OpenAI 所说,“扩展视频生成模型是构建物理世界通用模拟器的一条有前途的道路”

Sora的方法将最新的人工智能研究与实际应用相结合,预示着生成模型的光明未来。随着这些技术的不断发展,它们有望重新定义我们与数字内容的互动,使高保真、动态视频的创作更易于访问和通用。

节选自:《Explaining OpenAI Sora’s Spacetime Patches: The Key Ingredient》--作者:Vincent Koc

  • 26
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
代码下载:完整代码,可直接运行 ;运行版本:2022a或2019b或2014a;若运行有问题,可私信博主; **仿真咨询 1 各类智能优化算法改进及应用** 生产调度、经济调度、装配线调度、充电优化、车间调度、发车优化、水库调度、三维装箱、物流选址、货位优化、公交排班优化、充电桩布局优化、车间布局优化、集装箱船配载优化、水泵组合优化、解医疗资源分配优化、设施布局优化、可视域基站和无人机选址优化 **2 机器学习和深度学习方面** 卷积神经网络(CNN)、LSTM、支持向量机(SVM)、最小二乘支持向量机(LSSVM)、极限学习机(ELM)、核极限学习机(KELM)、BP、RBF、宽度学习、DBN、RF、RBF、DELM、XGBOOST、TCN实现风电预测、光伏预测、电池寿命预测、辐射源识别、交通流预测、负荷预测、股价预测、PM2.5浓度预测、电池健康状态预测、水体光学参数反演、NLOS信号识别、地铁停车精准预测、变压器故障诊断 **3 图像处理方面** 图像识别、图像分割、图像检测、图像隐藏、图像配准、图像拼接、图像融合、图像增强、图像压缩感知 **4 路径规划方面** 旅行商问题(TSP)、车辆路径问题(VRP、MVRP、CVRP、VRPTW等)、无人机三维路径规划、无人机协同、无人机编队、机器人路径规划、栅格地图路径规划、多式联运运输问题、车辆协同无人机路径规划、天线线性阵列分布优化、车间布局优化 **5 无人机应用方面** 无人机路径规划、无人机控制、无人机编队、无人机协同、无人机任务分配 **6 无线传感器定位及布局方面** 传感器部署优化、通信协议优化、路由优化、目标定位优化、Dv-Hop定位优化、Leach协议优化、WSN覆盖优化、组播优化、RSSI定位优化 **7 信号处理方面** 信号识别、信号加密、信号去噪、信号增强、雷达信号处理、信号水印嵌入提取、肌电信号、脑电信号、信号配时优化 **8 电力系统方面** 微电网优化、无功优化、配电网重构、储能配置 **9 元胞自动机方面** 交通流 人群疏散 病毒扩散 晶体生长 **10 雷达方面** 卡尔曼滤波跟踪、航迹关联、航迹融合

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值