视频生成为核心的多能力模型
- 文/图生成
- 1分钟超长高质量视频生成
- 视频裂变
- 物理引擎能力
三个关键点(latent、transformer、diffusion扩散模型)
视频压缩网络(压缩到低维latent空间–>分解为spacetime patches)
Q1:为什么要先压缩到latent空间?
在这个低维空间中,视频数据可以更紧凑地表示,从而实现对视频数据的压缩。
Q2:分解为spacetime patches的意义何在?
“spacetime patches”,即在空间和时间维度上都连续的块。这种分解方式有助于保留视频数据中的空间和时间信息,并且可以更好地利用视频数据中的相关性和重复性,以实现更高效的压缩。
Sora是一个Scaling Transformer
关于Scaling Transformer的一些介绍与文献链接
输入是:噪声块+文本Prompt,输出是对原始“干净”分块的预测。
Q1: Scaling Transformer如何捕获多模态语义信息?
- 跨模态输入的支持:可以同时或顺序输入到模型。
- 跨模态注意力机制:允许模型在处理一个模态的信息时,同时考虑其他模态的信息,从而实现不同模态之间的信息交互和语义关联。
- 多模态特征提取:可以使用多模态特征提取器,特征可以是文本的词嵌入、图像的特征向量。
Video Recaption
视频描述阶段:
Sora使用了DALL·E 3 的 recaption技巧,即为视觉训练数据生成高度描述性的 caption。
Prompt生成阶段(基于GPT进行用户Prompt改写):
对于视频生成而言,一个高质量的Prompt非常关键,有利于Sora理解用户提供的文字所表达的语音信息。
将高质量Prompt送入视频生成模型完成生成。
注意⚠️:对于caption训练的数据匮乏,并且数据质量不一定高。原因是训练数据的来源:
引用自:Sora文生视频模型深度剖析:全网独家指南,洞悉98%信息
- 一方面,图像常规的文本描述往往过于简单(比如 COCO 数据集),它们大部分只描述图像中的主体而忽略图像中其它的很多信息,比如背景,物体的位置和数量,图像中的文字等。
- 另外一方面,目前训练文生图的图像文本对数据集(比如 LAION 数据集)都是从网页上爬取的,图像的文本描述其实就是 alt-text,但是这种文本描述很多是一些不太相关的东西,比如广告。
Sora的局限性
- Sora并非一个世界模型,因为通过大量数据学习生成的规律会限制在新环境中的泛化能力。
- 物理交互逻辑错误:由于训练的数据存在一定的不精确性,因此训练的过程中获得的知识无法完全准确反映物理世界的逻辑。