人工智能专题:Sora划时代:算力应用再加速

今天分享的是人工智能系列深度研究报告:《人工智能专题:Sora划时代:算力应用再加速》。

(报告出品方:华西证券股份有限公司

报告共计:35

来源:人工智能学派

Sora——划时代文生视频大模型

 Sora是由OpenAI发布的文生视频大模型,此模型发布预示着大模型时代进阶。Sora能够仅仅根据提示词,生成60s的连贯视频,远超行业 目前大概只有平均“4s”的视频生成长度。Sora的出现,预示着一个全新的视觉叙事时代的到来,它能够依据客户的文本提示,将人们的想 象力转化为生动的动态画面。Sora作为一款通用的视觉数据模型,其卓越之处在于能够生成跨越不同持续时间、纵横比和分辨率的视频和图像,甚至包括生成长达一分钟的高清视频。

打造虚拟世界模拟器。Sora采用了Transformer架构,该架构对视频的时空序列包和图像潜在编码进行操作。随之诞生的最强大模型Sora, 也就具备了生成一分钟高质量视频的能力。扩展视频生成模型的规模,是构建模拟物理世界通用模拟器的非常有希望的方向。

 Sora将不同类型的视觉数据转化为统一的格式,以便于对生成模型进行大规模训练。

将可视数据转换成数据包(patchs),大语言模型通过token将各种形式的文本代码、数学和自然语言统一起来,而Sora则通过视觉包 (patchs)实现了类似的效果。对于不同类型的视频和图像,包是一种高度可扩展且有效的表示方式,对于训练生成模型具有重要意义。

从宏观角度来看,首先将视频压缩到一个低维度的潜在空间:这是通过对视频进行时间和空间上的压缩实现的。这个潜在空间可以看作是一 个“时空包”的集合,从而将原始视频转化为这些包。

视频压缩网络:Sora研究员专门训练了一个网络,专门负责降低视觉数据的维度。这个网络接收原始视频作为输入,并输出经过压缩的潜在 表示。Sora模型就是在这个压缩后的潜在空间中接受训练,并最终生成视频。此外,研究员还设计了一个解码器模型,它可以将生成的潜在 表示重新映射回像素空间,从而生成可视的视频或图像。

时空包:当给定一个压缩后的输入视频时,从中提取出一系列的时空包,这些包被用作转换token。这一方案不仅适用于视频,因为视频本 质上就是由连续帧构成的,所以图像也可以看作是单帧的视频。通过这种基于包的表示方式,Sora能够跨越不同分辨率、持续时间和纵横比 的视频和图像进行训练。在推理阶段,研究员只需在适当大小的网格中安排随机初始化的包,就可以控制生成视频的大小和分辨率。

用于视频生成的缩放Transformers:Sora是一个扩散模型,它接受输入的噪声包(以及如文本提示等条件性输入信息),然后被训练去预测原始 的“干净”包。重要的是,Sora是一个基于扩散的转换器模型,这种模型已经在多个领域展现了显著的扩展性,包括语言建模、计算机视觉以及 图像生成等领域。扩散转换器在视频生成领域同样具有巨大的潜力,不同训练阶段下,使用相同种子和输入的视频样本对比,结果证明了随着训 练量的增加,样本质量有着明显的提高。

 Sora依托Transformers架构等技术手段,产品力全面碾压Runway等文生视频模型。

Sora是将Latent Diffusion Model架构与Diffusion Transformer架构结合,但是Runway只用了Latent Diffusion Model架构。由于 Transformer架构强大的参数可拓展性,即随着参数量的增加,Transformer 架构的性能提升会更加明显,DiT在LDM的基础上,把模型从U-Net 换成了Transformer,因而Sora比Runway具有更强大的性能。

凭借Transformer架构可以随意设置位置编码,Sora可以接受任意分辨率和尺寸的素材,而Runway需要将素材裁剪至相同的大小。Sora引入 GTP-4将简短的用户提示转换为更长的详细字幕,然后发送到视频模型,有助于Sora更好理解客户需求;而Runway很难理解细微差别,坚持提 示中的特定描述而忽略其他描述。Sora依靠从头训练了一套能直接压缩视频的自编码器,Sora 的自编码器不仅能在空间上压缩图像,还能在时间 上压缩视频长度,使时长达到了一分钟,而Runway时长小于20秒。

报告共计:35页

来源:人工智能学派

  • 6
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值