文生视频系列溯源-Latte: Transformer Diffusion

最新推荐文章于 2024-07-18 17:31:30 发布

AI-Seeker

最新推荐文章于 2024-07-18 17:31:30 发布

阅读量895

点赞数 10

文章标签：音视频 transformer 深度学习 AIGC

本文链接：https://blog.csdn.net/l1498487239/article/details/139028912

版权

0. 资源链接

论文题目翻译为：“Latte: 用于视频生成的潜在扩散Transformer”。题目最重要的信息指的是作者提出的一个名为Latte的新型视频生成模型，该模型是基于潜在扩散Transformer（latent diffusion transformer）。

基于U-Net结构的Diffusion模型获得了长足的发展。如图像生成模型Stable Diffusion 1.5/2.1/XL，视频生成模型Stable Video Diffusion，这些模型有十分优秀的语义理解能力和生成能力。但是，在我看来他们有两个缺点：
- 数据的长度变化时，难以维持生成质量
- 视频生成的长度受到严格限制。生成帧数的多少直接影响生成的质量。
在这篇论文后的一个月，OpenAI的Sora视频横空出世。这证明Transformer结构在生成领域具有无限的潜能

【目前存在的问题】视频生成任务中，生成高质量、高分辨率且具有连贯时空信息的视频仍然面临挑战，这主要是由于视频数据的复杂性和高维度。
【本文如何解决这些问题】作者通过提出Latte模型，采用Transformer作为骨干网络，有效地模拟了视频在潜在空间中的分布，并引入了多种模型变体和策略来提高生成视频的质量。
【为了解决这些问题，提出的算法】提出Latte模型，包括四种不同的模型变体，以及一系列最佳实践，如视频片段补丁嵌入、时间步类信息注入、时间位置嵌入等。
【提出算法的具体实现】Latte使用预训练的变分自编码器（VAE）将输入视频编码为潜在空间中的特征，然后通过一系列Transformer对这些特征进行编码。同时，作者还探索了不同的视频片段嵌入方法、时间步类信息注入方式、时间位置嵌入策略，并通过实验分析确定了最佳的模型配置和训练策略。

作者提出了四种不同的Latte模型变体，以高效地捕获视频中的时空信息。以下是对这些模型变体的描述和分析：

Variant 1:
1. 这个变体的Transformer主干包含两种不同类型的Transformer块：空间Transformer块和时间Transformer块。
2. 空间Transformer块专注于捕获具有相同时间索引的令牌之间的空间信息。
3. 时间Transformer块以“交错融合”的方式捕获跨时间维度的时序信息。
Variant 2:
1. 与Variant 1相比，这个变体采用了“晚期融合”方法来结合时空信息。
2. 它包含与Variant 1相同数量的Transformer块，但是空间和时间信息的融合方式不同。
Variant 3:
1. Variant 3主要关注Transformer块中多头注意力（Multi-Head Attention, MHA）的分解。
2. 该变体最初只计算空间维度上的自注意力，然后计算时间维度上的自注意力。
3. 每个Transformer块都捕获了空间和时间信息。
Variant 4:
1. 在这个变体中，多头注意力被分解为两个组件，每个组件使用一半的注意力头。
2. 不同的组件分别处理空间和时间维度上的令牌。
3. 两种不同的注意力操作计算完成后，将时间维度的令牌重新整形并相加以供Transformer块中的下一个模块使用。

潜在视频片段补丁嵌入（Latent video clip patch embedding）:
1. 均匀帧补丁嵌入（Uniform frame patch embedding）: 该方法将每个视频帧单独应用ViT中的补丁嵌入技术。这意味着从每个视频帧中提取不重叠的图像补丁。
2. 压缩帧补丁嵌入（Compression frame patch embedding）: 这种方法通过将ViT的补丁嵌入方法从2D扩展到3D，来模拟潜在视频片段中的时间信息。通过以步长s沿时间维度提取管状区域，并将它们映射到令牌。

时间步类信息注入（Timestep-class information injection）:
1. 所有令牌（All tokens）: 这种方法将时间步或类别信息c作为令牌直接注入到模型的输入层。
2. 可扩展的自适应层归一化（S-AdaLN）: 类似于自适应层归一化（AdaLN），使用线性回归计算基于输入c的γc和βc，并将这些参数应用于Transformer块内的隐藏嵌入。

时间位置嵌入（Temporal positional embedding）:
1. 绝对位置编码（Absolute positional encoding）: 使用不同频率的正弦和余弦函数，使模型能够识别视频中每一帧的确切位置。
2. 相对位置编码（Relative positional encoding）: 使用旋转位置嵌入（RoPE）来使模型理解连续帧之间的时间关系。
通过学习策略增强视频生成（Enhancing video generation with learning strategies）:
1. 使用预训练模型学习（Learning with pre-trained models）: 利用在ImageNet上预训练的图像生成模型来加速视频数据集上的模型训练。
2. 使用图像-视频联合训练学习（Learning with image-video joint training）: 探索同时进行视频和图像生成训练的策略，以提高生成视频的质量。

随着Sora类，Stable Diffusion 3等模型的发展，Transformer在生成领域取代U-Net已经是板上钉钉的事了。问题是什么时候呢？我认为可能是Stable Diffusion 3开源的时候~

关注