【无标题】关于Sora的一些杂记

视频生成为核心的多能力模型

  • 文/图生成
  • 1分钟超长高质量视频生成
  • 视频裂变
  • 物理引擎能力

三个关键点(latent、transformer、diffusion扩散模型)

视频压缩网络(压缩到低维latent空间–>分解为spacetime patches)

Q1:为什么要先压缩到latent空间?

在这个低维空间中,视频数据可以更紧凑地表示,从而实现对视频数据的压缩。

Q2:分解为spacetime patches的意义何在?

“spacetime patches”,即在空间和时间维度上都连续的块。这种分解方式有助于保留视频数据中的空间和时间信息,并且可以更好地利用视频数据中的相关性和重复性,以实现更高效的压缩。

Sora是一个Scaling Transformer

关于Scaling Transformer的一些介绍与文献链接

输入是:噪声块+文本Prompt,输出是对原始“干净”分块的预测。

Q1: Scaling Transformer如何捕获多模态语义信息?

  • 跨模态输入的支持:可以同时或顺序输入到模型。
  • 跨模态注意力机制:允许模型在处理一个模态的信息时,同时考虑其他模态的信息,从而实现不同模态之间的信息交互和语义关联。
  • 多模态特征提取:可以使用多模态特征提取器,特征可以是文本的词嵌入、图像的特征向量。

Video Recaption

关于Video Caption的一些介绍与文献链接

视频描述阶段:

Sora使用了DALL·E 3 的 recaption技巧,即为视觉训练数据生成高度描述性的 caption。

Prompt生成阶段(基于GPT进行用户Prompt改写):

对于视频生成而言,一个高质量的Prompt非常关键,有利于Sora理解用户提供的文字所表达的语音信息。

将高质量Prompt送入视频生成模型完成生成。

注意⚠️:对于caption训练的数据匮乏,并且数据质量不一定高。原因是训练数据的来源:

引用自:Sora文生视频模型深度剖析:全网独家指南,洞悉98%信息

  1. 一方面,图像常规的文本描述往往过于简单(比如 COCO 数据集),它们大部分只描述图像中的主体而忽略图像中其它的很多信息,比如背景,物体的位置和数量,图像中的文字等。
  2. 另外一方面,目前训练文生图的图像文本对数据集(比如 LAION 数据集)都是从网页上爬取的,图像的文本描述其实就是 alt-text,但是这种文本描述很多是一些不太相关的东西,比如广告。

Sora的局限性

  1. Sora并非一个世界模型,因为通过大量数据学习生成的规律会限制在新环境中的泛化能力。
  2. 物理交互逻辑错误:由于训练的数据存在一定的不精确性,因此训练的过程中获得的知识无法完全准确反映物理世界的逻辑。
  • 21
    点赞
  • 22
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值