【论文阅读】（WALT）Photorealistic Video Generation with Diffusion Models-CSDN博客

本文链接：https://blog.csdn.net/qq_42266272/article/details/136463481

论文介绍了一种名为WALT的方法，利用Transformer和扩散模型在统一的潜在空间中生成逼真视频。通过因果编码器、窗口注意力架构和自回归预测，WALT在UCF-101、Kinetics-600和ImageNet数据集上表现出色。文章还探讨了视频编码、潜在空间表示和条件生成技术的应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

（WALT）Photorealistic Video Generation with Diffusion Models

文章目录

（WALT）Photorealistic Video Generation with Diffusion Models

引用： Gupta A, Yu L, Sohn K, et al. Photorealistic video generation with diffusion models[J]. arXiv preprint arXiv:2312.06662, 2023.

论文链接： https://arxiv.org/abs/2312.06662

论文概述

论文提出了WALT，这是一种基于transformer的方法，用于通过扩散建模生成逼真的视频。首先，使用因果编码器在统一的潜在空间内联合压缩图像和视频，从而实现跨模态的训练和生成。其次，为了记忆和训练效率，使用了为联合空间和时空生成建模量身定制的窗口注意力架构。综上所述，这些设计决策使模型在已建立的视频（UCF-101 和 Kinetics-600）和图像（ImageNet）生成基准测试中实现最先进的性能，而无需使用无分类器引导。最后，我们还训练了三个模型的级联，用于文本到视频的生成任务，包括一个基本的潜在视频扩散模型和两个视频超分辨率扩散模型来生成512×896分辨率且每秒8帧。

WALT

如图所示，WALT将图像和视频编码到一个共享的潜在空间中。Transformer 主干网使用具有两层窗口限制注意力的块来处理这些潜伏：空间层捕获图像和视频中的空间关系，而时空层通过身份注意力掩码对视频中的时间动态和传递图像进行建模。文本调节是通过空间交叉注意力完成的。

Learning Visual Tokens

视频生成建模的一个关键设计决策是潜在空间表示的选择。理想情况下，我们想要一个共享和统一的压缩视觉表示，可用于图像和视频的生成建模。具体来说，给定一个视频序列x，目标是学习一个低维表示z，它在空间上执行时空压缩，在空间上按 fs = H/h = W/w 的系数和在时间上的 ft = T /t 的系数执行时空压缩。为了实现视频和静态图像的统一表示，第一帧始终独立于视频的其余部分进行编码。WALT使用 MAGVIT-v2 分词器的因果 3D CNN 编码器-解码器架构[1]来实例化此设计。通常，编码器-解码器由规则的3D卷积层组成，这些卷积层不能独立处理第一帧。因果 3D 卷积层解决了这个问题，因为卷积核仅对过去的 kt − 1 帧进行操作。这可确保每个帧的输出仅受前面的帧的影响，从而使模型能够独立地标记第一个帧。在此阶段之后，模型的输入是一批潜在张量z，代表单个视频或 1 + t 独立图像的堆栈。与[1]不同，WALT的潜在表示是实值的，并且没有量化。

Learning to Generate Images and Videos

Patchify：按照最初的ViT，通过将每个潜在帧转换为一系列不重叠的hp×wp补丁来独立地“Patchify”每个潜在帧，其中hp = h/p，wp = w/p，p是补丁大小。使用可学习的位置嵌入[2]，它是空间和时间位置嵌入的总和。位置嵌入被添加到补丁的线性投影[3]中。注意，对于图像，只需添加与第一个潜在帧相对应的时间位置嵌入即可。
Window attention: 完全由全局自注意力模块组成的 Transformer 模型会产生巨大的计算和内存成本，尤其是对于视频任务。为了提高效率并共同处理图像和视频，WALT基于两种类型的非重叠配置来计算窗口中的自注意力：空间（S）和时空（ST），cf。图中空间窗口（SW）的注意力仅限于大小为 1×hp×wp（第一个维度是时间）的潜在帧内的所有标记。SW 对图像和视频中的空间关系进行建模。时空窗口（STW）注意力被限制在大小为（1 + t） × h ′ p × h ′ w 的 3D 窗口内，对视频潜在帧之间的时间关系进行建模。对于图像，只需使用标识注意掩码，确保对应于图像帧潜在值的值嵌入按原样通过层。最后，除了绝对位置嵌入之外，还使用相对位置嵌入。

Conditional Generation

为了实现可控的视频生成，除了以时间步长 t 为条件外，扩散模型通常还以其他条件信息 c 为条件，例如类标签、自然语言、过去的帧或低分辨率视频。在WALT的 Transformer 主干网中，采用了三种类型的conditioning机制：

Cross-attention：除了 Windows Transformer 模块中的自注意力层外，还添加了一个用于文本条件生成的交叉注意力层。当仅在视频上训练模型时，交叉注意力层采用与自注意力层相同的窗口限制注意力，这意味着 S/ST 模块将具有 SW/STW 交叉注意力层。但是，对于联合训练，只使用SW交叉注意力层。对于交叉注意力，将输入信号（查询）与conditioning信号（键、值）连接起来。
AdaLN-LoRA：自适应归一化层是各种生成和视觉合成模型中的重要组成部分。合并自适应层归一化的一种简单方法是为每个层 i 包含一个 MLP 层，以回归条件参数 Ai = MLP（c + t）的向量，其中 Ai = concat（γ1， γ2， β1， β2， α1， α2）， Ai ∈ R 6×dmodel 和 c ∈ R dmodel ， t ∈ R dmodel 是条件和时间步长嵌入。在 transformer 模块中，γ 和 β 分别缩放和移动多头注意力层和 MLP 层的输入，而 α 缩放多头注意力层和 MLP 层的输出。这些附加 MLP 层的参数计数随层数线性缩放，并与模型的维度大小二次缩放（dmodel × 6 个× dmodel ×块数）。例如，在具有 1B 参数的 ViT-g 模型中，MLP 层贡献了额外的 475M 参数。受[4]的启发，我们提出了一种称为AdaLN-LoRA的简单解决方案，以减少模型参数。对于每一层，将条件参数回归为
Self-conditioning：除了以外部输入为条件外，迭代生成算法还可以在推理过程中以自己先前生成的样本为条件。具体来说，Chen等[5]修改了扩散模型的训练过程，使得模型以某种概率首先生成一个样本，然后使用另一个以该初始样本为条件的前向传递来细化该估计。将模型估计与沿通道维度的输入连接起来，发现这种简单的技术在与 v-prediction结合使用时效果很好。

Autoregressive Generation

为了通过自回归预测生成长视频，WALT还在帧预测任务上联合训练模型。这是通过在训练期间以p的概率将模型调节到过去的帧来实现的。使用 Cfp = concat（mfp ◦ Zt， mfp）对模型进行调节，其中mfp是二进制掩码。二进制掩码表示用于调节的过去帧数，以 1 个潜在帧（图像到视频生成）或 2 个潜在帧（视频预测）为条件。这种调节通过沿噪声潜在输入的信道维度的串联集成到模型中。在推理过程中，使用 cfp 作为条件信号的标准无分类器引导。

Video Super Resolution

使用单个模型生成高分辨率视频在计算上是令人望而却步的。因此，使用级联方法，三个模型以递增的分辨率运行。基本模型生成 128 × 128 分辨率的视频，随后通过两个超分辨率阶段进行两次上采样。首先使用depth-to-space卷积操作对低分辨率输入（视频或图像）进行上采样。注意，与提供ground-truth的低分辨率输入的训练不同，推理依赖于前几个阶段产生的潜在内容。为了减少这种差异并提高超分辨率级在处理低分辨率级产生的伪影时的鲁棒性，使用了噪声调节增强[6]。

实验

参考文献

[1] Lijun Yu, Jose Lezama, Nitesh B Gundavarapu, Luca Versari, Kihyuk Sohn, David Minnen, Yong Cheng, Agrim Gupta, Xiuye Gu, Alexander G Hauptmann, et al. Language model beats diffusion–tokenizer is key to visual generation. arXiv preprint arXiv:2310.05737, 2023. 3, 4, 5, 1.

[2] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz Kaiser, and Illia Polosukhin. Attention is all you need. In NeurIPS, 2017. 1, 2, 4.

[3] Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, et al. An image is worth 16x16 words: Transformers for image recognition at scale. In ICLR, 2020. 1, 4, 5.

[4] Edward J Hu, Yelong Shen, Phillip Wallis, Zeyuan Allen-Zhu, Yuanzhi Li, Shean Wang, Lu Wang, and Weizhu Chen. Lora: Low-rank adaptation of large language models. In ICLR, 2021. 4.

[5] Ting Chen, Ruixiang Zhang, and Geoffrey Hinton. Analog bits: Generating discrete data using diffusion models with self-conditioning. arXiv preprint arXiv:2208.04202, 2022. 4.

[6] Jonathan Ho, Chitwan Saharia, William Chan, David J Fleet, Mohammad Norouzi, and Tim Salimans. Cascaded diffusion models for high fidelity image generation. JMLR, 23(1):2249–2281, 2022. 5.