SimDA: Simple Diffusion Adapter for Efficient Video Generation学习笔记-CSDN博客

本文链接：https://blog.csdn.net/kangxi11122344/article/details/132570176

SimDA: Simple Diffusion Adapter for Efficient Video Generation学习笔记

method
experinment
- 与其他方法的比较
- Ablation study

motivation： 现有的T2V模型要么从头开始训练，或将大型T2I模型适应视频，需要大量计算资源和数据
contribution： 设计轻量级spatial and temporal adapters（空间和时间适配器）进行迁移学习；将原始spatial attention（空间注意力）更改为所提出的 Latent-Shift Attention (LSA)，以实现时间一致性。

method

在这里插入图片描述提出三个模块：Spatial Adapter、Temporal Adapter、Latent-Shift Attention
Spatial Adapter：利用视频生成领域的空间信息，分为Attention Adapter 和 FFN Adapter，结构：两个全连接层中间一个激活层
Temporal Adapter：建模时间信息
以前的方法结合了时间卷积或temporal attention modules（时间注意模块）来捕获时间关系。具有大量参数和高维输入特征，导致计算量和训练成本显着。
时间适配器模块采用深度卷积而不是中间激活层
Latent-Shift Attention：实现时间一致性
除了考虑当前帧中的标记外，我们进一步沿时间维度进行补丁级移位操作，以将标记从前面的 T 帧转移到当前帧上，从而组成一个新的潜在特征帧
在这里插入图片描述
$\begin{aligned} &\mathbf{Q}=\mathbf{W}_{\mathrm{q}}(x_{z_{i}}),&& \text{(6)} \\ &\mathbf{K}=\mathbf{W}_{\mathrm{k}}[x_{z_{i}},x_{z_{shift}}],&& \left(7\right) \\ &\mathbf{V}=\mathbf{W}_{\mathrm{v}}[x_{z_{i}},x_{z_{shift}}],&& \left(8\right) \end{aligned}$

experinment

与其他方法的比较

在这里插入图片描述

Ablation study

temporal adapter
在这里插入图片描述
依赖temporal attention modeling（时间注意建模）的方法(如Tune-A-Video[100])相比，temporal adapter（时间适配器）更轻量级，并获得了更好的编辑结果

TA：Temporal Adapter
SA：Spatial Adapter
AA：Attention Adapter
FA：FFN Adapter
LSA：Latent-shift Attention