DiTCtrl: 探索多模态扩散Transformer中的注意力控制以实现无需调优的多提示长视频生成

本文链接：https://blog.csdn.net/Together_CZ/article/details/144817244

这篇文章提出了一种名为DiTCtrl的新方法，用于无需训练的多提示长视频生成。以下是文章的主要内容总结：

研究背景：
- 当前的视频生成模型主要针对单提示生成，难以处理多提示场景，导致生成的视频缺乏连贯性和自然过渡。
- 现有的多提示视频生成方法面临训练数据要求高、提示跟随能力弱和过渡不自然等问题。
方法创新：
- DiTCtrl基于**多模态扩散Transformer（MM-DiT）**架构，首次提出了无需训练的多提示视频生成方法。
- 通过分析MM-DiT的注意力机制，发现其3D全注意力机制与UNet-like扩散模型中的交叉/自注意力块行为相似，能够通过注意力共享实现跨提示的精确语义控制。
- 引入了KV共享机制和潜在混合策略，确保不同提示之间的平滑过渡和一致的对象运动。
技术细节：
- KV共享机制：在不同提示的视频片段之间共享键和值，以保持关键对象的语义一致性。
- 潜在混合策略：在相邻视频片段的重叠区域应用位置相关的权重函数，实现平滑过渡。
实验与评估：
- 提出了MPVBench，一个专门为多提示视频生成设计的新基准，包含多种过渡类型和专门评估指标。
- 在MPVBench上的实验表明，DiTCtrl在无需额外训练的情况下实现了最先进的性能，生成的视频具有更好的文本对齐、时间一致性和运动质量。
- 通过用户研究和消融实验验证了方法的有效性。
应用与扩展：
- DiTCtrl不仅适用于多提示视频生成，还可用于单提示长视频生成和视频编辑（如重加权和词替换）。
局限性与未来工作：
- 当前的开源视频生成模型在概念组合能力上较弱，可能导致属性绑定错误。
- 基于DiT架构的计算开销较大，未来研究可关注语义理解和架构效率的提升。

DiTCtrl通过创新的注意力控制和过渡策略，解决了多提示视频生成中的关键问题，展示了在无需额外训练的情况下生成高质量、连贯视频的潜力。这里是自己的论文阅读记录，感兴趣的话可以参考一下，如果需要阅读原文的话可以看这里，如下所示：

官方项目地址在这里，如下所示：

摘要

Sora-like视频生成模型通过多模态扩散Transformer（MM-DiT）架构取得了显著进展。然而，当前的视频生成模型主要专注于单提示生成，难以生成反映真实世界动态场景的多提示连贯视频。尽管一些开创性工作已经探索了多提示视频生成，但它们面临着严格的训练数据要求、弱提示跟随和不自然过渡等重大挑战。为了解决这些问题，我们首次提出了DiTCtrl，一种基于MM-DiT架构的无需训练的多提示视频生成方法。我们的核心思想是将多提示视频生成任务视为具有平滑过渡的时间视频编辑。通过分析MM-DiT的注意力机制，我们发现3D全注意力机制与UNet-like扩散模型中的交叉/自注意力块行为相似，能够通过注意力共享实现跨不同提示的精确语义控制。基于此，DiTCtrl生成的视频在多个顺序提示下实现了平滑过渡和一致的对象运动，且无需额外训练。此外，我们还提出了MPVBench，一个专门为多提示视频生成设计的新基准，用于评估多提示生成的性能。大量实验表明，我们的方法在无需额外训练的情况下实现了最先进的性能。

图1. 所提出的DiTCtrl方法以多个文本提示作为输入，展示了生成具有复杂运动和平滑过渡的长视频的卓越能力。在本图中，我们展示了一个具有挑战性的示例，其中一名运动员滑过三个不同的场景。尽管存在复杂的主体运动和剧烈的相机移动，我们的方法在整个序列中保持了显著的稳定性，并实现了无缝的语义过渡，忠实地遵循了提示描述。

1 引言

在AIGC时代，文本到视频（T2V）生成取得了显著进展，Sora等突破性成果通过DiT架构和大规模预训练展示了生成长视频的惊人能力。然而，将顺序提示输入当前最先进的视频生成模型（如Kling、Gen3、CogVideoX）时，无法生成具有自然过渡和精确提示跟随的连贯视频序列。这一限制源于其基本设计和单提示训练范式，使其无法描绘真实世界场景的动态多动作特性。

尽管一些开创性工作已经开始探索多提示视频生成，但它们面临着重大挑战。例如，从头训练这些扩展视频生成模型需要前所未有的计算资源和数据集，这在模型规模增加时几乎不可行。当前的零样本长视频生成方法仍然主要关注单提示情况下的长视频生成。此外，所有先前的工作都基于UNet架构设计，这限制了更复杂运动的能力，并增加了多提示生成的难度。然而，自Sora展示了两分钟视频生成的突破性成果以来，DiT架构的可扩展性潜力得到了凸显。随后的探索在图像生成模型（如Stable Diffusion 3、FLUX.1）和视频生成模型（如CogVideoX、Mochi1）中取得了重要进展。这些模型都采用了特定类型的DiT架构，即多模态扩散Transformer（MM-DiT）作为基本单元。该架构有效地将文本和图像（或视频）映射到统一的序列中进行注意力计算，从而实现更深的模型规模能力并取得卓越的性能。

因此，为了保持预训练单提示T2V模型的能力并利用扩散Transformer的性能，我们提出了DiTCtrl，一种基于预训练MM-DiT视频生成模型的无需训练的多提示视频生成方法。我们的关键观察是，多提示视频生成可以被视为一个两步问题：1) 时间上的视频编辑：新视频通过前一个视频和新提示生成。2) 时间上的视频过渡：两个生成的视频需要在片段之间保持平滑过渡。因此，为了执行一致的视频编辑，受基于UNet的图像编辑技术启发，我们首次探索了MM-DiT块中注意力模块的特性，发现3D全注意力机制与UNet-like扩散模型中的交叉/自注意力块行为相似。因此，我们在不同提示的视频片段之间应用了KV共享方法，以通过3D注意力控制保持关键对象的语义一致性。此外，我们还利用潜在混合策略在片段之间进行过渡，以无缝连接视频片段。最后，为了系统地评估我们的方法并促进未来多提示视频生成的研究，我们还引入了MPVBench，一个具有多种过渡类型和专门评估多提示过渡指标的新基准。在该基准上的大量实验表明，我们的方法在保持计算效率的同时实现了最先进的性能。

本文的贡献可以总结如下：

我们提出了DiTCtrl，这是首个基于MM-DiT架构的无需调优的多提示视频生成方法。我们的方法结合了新颖的KV共享机制和潜在混合策略，能够在不同提示之间实现无缝过渡，且无需额外训练。
我们首次分析了MM-DiT的注意力机制，发现3D全注意力机制与UNet-like扩散模型中的交叉/自注意力块行为相似，能够通过掩码引导的精确语义控制增强生成一致性。
我们引入了MPVBench，一个专门为多提示视频生成设计的新基准，具有多种过渡类型和专门用于多提示视频评估的指标。
大量实验表明，我们的方法在多提示视频生成上实现了最先进的性能，同时保持了计算效率。

2 相关工作

视频扩散模型。扩散模型在文本到图像生成领域取得了显著成功，这些进展也推动了从文本或图像生成视频的进展。在这些方法中，AnimateDiff尝试通过运动模块将现有的文本到图像扩散模型转化为视频生成模型。其他模型如Imagen Video和Make-a-Video直接在像素空间中训练空间和时间层的级联模型。为了提高效率，许多其他工作在潜在空间中生成视频，利用自动编码器将视频压缩为紧凑的潜在表示。值得注意的是，大多数这些文本到视频模型都使用U-Net架构。随后，Sora的引入展示了扩散Transformer架构的可扩展性和优势。最近的工作如CogVideoX、Mochi1和Movie Gen采用了DiT架构并取得了令人印象深刻的成果。在本工作中，我们基于开源模型CogVideoX（一种基于DiT的架构）探索了多提示长视频生成的注意力控制机制。

长视频生成。在长视频上训练扩散模型通常需要大量计算资源。因此，当前的视频扩散模型通常是在帧数有限的视频上进行训练的。因此，在生成较长视频时，生成视频的质量在推理过程中往往会显著下降。为了解决这个问题，一些工作采用自回归机制进行长视频生成。然而，由于误差累积，这些方法在几次迭代后往往会遭受质量下降的问题。或者，无需调优的方法被开发出来，以扩展现成的短视频扩散模型，从而无需额外训练即可生成长视频。例如，Gen-L-Video在去噪过程中将长视频处理为具有时间重叠的短视频片段。FreeNoise探索了初始噪声的影响，并基于滑动窗口进行时间注意力融合以实现时间一致性。受这些工作的启发，我们提出了一种新颖的KV共享机制和潜在混合策略，以在不同片段之间实现无缝过渡，且无需额外训练。

基于注意力控制的图像/视频编辑。由于能够在无需额外数据的情况下执行零样本图像或视频编辑，注意力控制越来越受欢迎。在图像编辑领域，MasaCtrl通过引入相互自注意力机制增强了扩散模型中的现有自注意力机制。这使得能够从源图像中查询相关内容和纹理，确保一致和连贯的编辑。Prompt-to-Prompt利用交叉注意力层来控制文本提示和图像之间的关系，这也被许多图像编辑工作所采用。在视频编辑方面，时间一致性需要在注意力控制期间考虑。Video-P2P将Prompt-to-Prompt中的交叉注意力控制扩展到视频编辑。FateZero将自注意力与通过源提示的交叉注意力特征获得的混合掩码融合。然而，所有这些工作都是为结构保留的视频到视频翻译编辑而设计的。不同的是，我们的目标是外观一致的视频编辑。此外，这些工作都没有探索扩散Transformer中的注意力控制。在本文中，我们首次分析了如何利用扩散Transformer中的全注意力进行编辑，类似于U-Net扩散模型。

图2. MM-DiT注意力分析。我们发现MM-DiT注意力矩阵可以划分为四个不同的区域。以提示“一只猫看着一只黑老鼠”为例，每个文本标记通过文本到视频和视频到文本注意力的平均值显示出高亮响应。

3 方法

接下来，我们首先仔细分析MM-DiT的注意力机制（第3.1节）。这一分析使我们能够设计一种掩码引导的全注意力KV共享机制，用于多提示视频生成中的时间视频编辑（第3.2节）。最后，为了确保不同语义片段之间的时间一致性，我们进一步引入了一种潜在混合策略，使得在具有多个提示的长视频中实现平滑过渡（第3.3节）。

3.1 MM-DiT注意力机制分析

MM-DiT是当前最先进的文本到图像/视频模型的基本架构，它与之前的UNet架构有根本区别，因为它将文本和视频映射到统一的序列中进行注意力计算。尽管它已被广泛使用，但其内部注意力机制的特性仍未得到充分探索，这限制了其在我们多提示长视频生成任务中的应用。因此，我们首次基于最先进的视频模型CogVideoX对3D全注意力图中的区域注意力模式进行了全面分析。

图3. MM-DiT文本到文本和视频到视频注意力可视化。我们发现当前的MM-DiT在构建类似于先前UNet结构中的独立注意力方面具有更强的潜力[10, 11, 41]。

如图2所示，由于视觉和文本提示的拼接，每个注意力矩阵可以分解为四个不同的区域，分别对应不同的注意力操作：视频到视频注意力、文本到文本注意力、文本到视频注意力和视频到文本注意力。下面，我们详细介绍每个区域，受先前具有单独注意力的UNet-like结构启发。

文本到视频和视频到文本注意力。先前的UNet-like架构结合了交叉注意力以实现视频-文本对齐。在MM-DiT中，文本到视频和视频到文本注意力扮演了类似的角色。为了验证其效率，我们对注意力模式进行了详细分析，如图2所示。具体来说，我们计算了所有层和注意力头的平均注意力值，然后通过选择文本到视频和视频到文本区域中与标记索引对应的特定列或行来提取注意力值。这些注意力值随后被重塑为F×H×W格式，使我们能够可视化单个帧的语义激活图。如图2所示，这些可视化显示了在标记级别语义定位上的显著精度，有效地捕捉了文本描述和视觉元素之间的细粒度关系。这种发现的精确语义控制和定位能力为适应现有的图像/视频编辑技术以增强多提示视频生成的一致性和质量提供了坚实的基础。

文本到文本和视频到视频注意力。文本到文本和视频到视频区域注意力在UNet结构中相对较新。如图3所示，我们的分析揭示了这两个组件中的相似模式。在文本到文本注意力组件中（图3(a)(b)，其中(a)表示较短提示的注意力模式，(b)表示较长提示的模式），我们观察到一个突出的对角线模式，表明每个文本标记主要关注其相邻标记。值得注意的是，随着文本序列长度的增加，存在明显的垂直线向后移动，表明所有标记都保持对文本序列末尾的特殊标记的显著注意力。对于视频到视频注意力组件，由于MM-DiT将空间和时间标记展平以进行3D注意力计算，我们在单帧级别的分析中揭示了空间注意力中的独特对角线模式（图3(c)）。更重要的是，当检查从不同帧中相同空间位置的标记构建的注意力图时，我们还观察到一个明显的对角线模式（图3(d)）。这一特征与最近基于UNet的视频模型中的空间注意力和时间注意力一致，如VideoCrafter和Lavie，与[25]中报告的发现一致。由于先前的工作仅训练扩散模型的特定部分以实现更高级的控制和生成，我们的发现从MM-DiT的角度为这些方法提供了强有力的证据。

总体而言，MM-DiT架构中这些一致的对角线模式的存在证明了帧到帧的强相关性，这对于保持时空一致性和在整个视频序列中保持运动保真度至关重要。

3.2 时间上的一致视频生成

基于先前的分析，我们发现MM-DiT中的注意力机制与UNet-like视频扩散模型中的行为相似，并通过我们的特定设计实现。因此，我们提出了掩码引导的KV共享策略，用于在多提示视频生成任务中实现时间上的一致视频生成。

图4. 所提出的DiTCtrl方法的流程。我们的方法试图基于多提示合成内容一致和运动一致的视频。第一个视频是通过源文本提示Pi−1合成的。在视频合成的去噪过程中，我们将全注意力转换为掩码引导的KV共享策略，以从源视频Vi−1中查询视频内容，从而在修改后的目标提示Pi下合成内容一致的视频。请注意，初始潜在帧假设为5帧。前三帧用于生成Pi−1的内容，后三帧用于生成Pi的内容。粉色潜在帧表示重叠帧，而蓝色和绿色潜在帧用于区分不同的提示片段。

3.3 过渡的潜在混合策略

虽然我们之前的方法能够实现片段之间的语义一致性，但在不同语义片段之间实现平滑过渡仍需要精心设计。因此，我们提出了一种潜在混合策略，以确保不同语义片段之间的时间一致性，受最近单提示长视频生成工作的启发。

我们方法的关键优势在于它无需额外训练，同时有效地处理不同语义上下文之间的过渡。在每个去噪步骤中，我们首先独立处理每个片段，然后使用位置相关的权重逐步混合重叠区域中的潜在特征。这种策略在保持时间一致性的同时，平滑地过渡到不同的语义上下文，使其特别适合多提示视频生成任务。

4 实验

我们基于CogVideoX-2B实现了DiTCtrl，这是一个基于MM-DiT的最先进的开源文本到视频扩散模型。在我们的实验中，我们生成多提示条件下的视频，每个视频片段由49帧组成，分辨率为480×720。此外，我们使用ChatGPT生成多种不同类型的过渡。我们在实验中设置潜在采样帧和重叠大小分别为13和6。实验在单个NVIDIA A100 GPU上进行。

4.1 定性结果

我们与最先进的多提示视频生成方法和领先的商业解决方案进行了全面的定性比较。为了确保公平比较，我们还在CogVideoX骨干网络上实现了FreeNoise作为增强基线。

如图6所示，我们提出的方法在三个关键方面展示了卓越的性能：文本到视频对齐、时间一致性和运动质量。虽然Kling在高质量视频生成方面表现出色，但它仅限于同时多语义混合，而不是顺序语义过渡，这突出了我们在实现跨多个提示的时间演化内容方面的工作的重要性。

我们的比较分析揭示了现有方法的独特特征和局限性。Gen-L-Video遭受严重的时间抖动和偶尔的主题消失，影响了整体视频质量。Video-Infinity和FreeNoise都展示了成功的场景级语义变化，但缺乏物理上合理的运动——例如，在图6中，车辆似乎在运动，但在空间上保持固定，这是其基于UNet能力的固有局限性。相比之下，FreeNoise+DiT利用DiT架构的能力实现了更逼真的对象运动，但在语义过渡方面表现不佳，导致片段之间的明显不连续性。我们提出的DiTCtrl方法保留了预训练DiT模型的固有能力，同时解决了这些局限性，实现了平滑的语义过渡，并在整个视频序列中保持了运动一致性。为了更全面的评估，我们在补充材料中提供了额外的帧级和视频级比较，以及广泛的定性示例。

4.2 定量结果

在本节中，我们将首先详细介绍我们提出的新基准MPVBench，用于评估多提示视频生成，然后讨论定量结果。

图6. 我们的方法和基线模型在给定提示下的生成结果。Kling是商业模型，Freenoise+DiT是我们在CogVideoX上实现的Freenoise。

图7. CLIP嵌入的T-SNE可视化。每个点表示降维后单个视频帧的CLIP嵌入。可视化结果表明，传统的多提示视频形成了不同的聚类，而我们的方法产生了更连续的分布，表明语义过渡更加平滑。

MPVBench。MPVBench包含一个多样化的提示数据集和一个专门为多提示生成定制的新指标。具体来说，利用GPT-4，我们生成了130个长提示，涵盖10种不同的过渡模式。然后，对于多提示视频生成，我们观察到CLIP特征在单提示和多提示场景中的分布不同。如图7所示，自然视频的特征点遵循连续曲线，而两个连接的孤立视频的特征点遵循两条连续曲线，中间有一个断点。由于常见的CLIP相似度计算邻域相似度的平均值，自然视频和孤立视频之间的差异仅在断点处出现，当除以帧数时变得非常小。为了解决这一限制，我们提出了CSCV（Clip Similarity Coefficient of Variation），这是一个专门用于评估多提示过渡平滑度的指标，定义为：

自动评估。我们使用MPVBench进行自动评估。从表1可以看出，我们的方法获得了最高的CSCV得分，展示了卓越的过渡处理和生成模式的整体稳定性。虽然FreeNoise以相对较强的稳定性排名第二，但其他方法在这方面明显落后，这与图7中CLIP嵌入的T-SNE可视化一致。在运动平滑度方面，我们的方法在运动质量和一致性方面表现出色。关于文本-图像相似度指标，尽管FreeNoise和Video-Infinity获得了更高的得分，但这可以归因于我们方法的KV共享机制，其中后续视频片段从先前的语义内容中学习。

如图6所示，我们的设计选择允许路面逐渐过渡到雪地条件，同时保留先前场景的特征。尽管文本-图像对齐得分可能较低，但它确保了序列中的语义连续性。在实践中，这种权衡不会对多提示场景中的视觉质量产生负面影响，正如我们下面展示的用户研究结果所示。

人类评估。我们邀请了28位用户评估五种模型：Gen-L-Video、Video-Infinity、FreeNoise、FreeNoise+DiT和我们的方法。我们采用Likert量表，范围从1（低质量）到5（高质量）。参与者根据16个不同场景生成的视频对每种方法进行评分，考虑整体偏好、运动模式、时间一致性和文本对齐。如表2所示，我们方法生成的视频在所有四个标准上显著优于其他最先进的方法，展示了在生成具有自然语义过渡的视频方面的卓越能力，更好地符合人类对视觉连贯性和连续性的偏好。更多细节将在补充材料中提供。

4.3 消融研究

我们进行了消融研究，以验证DiTCtrl关键组件的有效性：潜在混合策略、KV共享机制和掩码引导生成，如图8所示。第一行显示直接使用文本到视频模型的结果，导致场景突然变化和断开的运动模式，无法保持运动员从冲浪到滑雪的连续性。第二行展示了没有潜在混合策略的DiTCtrl，实现了基本的视频编辑能力，但缺乏场景之间的平滑过渡。没有KV共享的DiTCtrl（第三行）表现出不稳定的环境过渡和显著的运动伪影，角色缩放不一致且运动变形。此外，没有掩码引导的DiTCtrl（第四行）改善了运动一致性和过渡，但在不同提示和环境之间处理对象属性混淆时表现不佳。另一方面，完整的DiTCtrl实现提供了对生成内容的最精确控制，展示了在保持所需运动模式的同时，实现了对象一致性和提示之间的平滑过渡。这些结果验证了我们对MM-DiT注意力机制的分析及其在实现精确语义控制中的作用。

图8. DiTCtrl中的消融组件。第一行和第二行有98帧，而其余方法生成了105帧。

4.4 更多应用

单提示长视频生成。我们的方法自然适用于单提示长视频生成。如图9所示，使用提示“一辆白色SUV在陡峭的土路上行驶”，我们的方法成功生成了比原始长度长12倍以上的视频，同时保持了一致的运动模式和环境连贯性。

视频编辑。我们展示了如何使用我们的方法实现视频编辑性能（如“重加权”和“词替换”）。案例在附录C中提供。

5 结论

在本文中，我们介绍了DiTCtrl，一种基于MM-DiT架构的无需调优的多提示视频生成方法。我们对MM-DiT注意力机制的开创性分析揭示了其与UNet-like扩散模型中的交叉/自注意力块的相似性，使得能够通过掩码引导的语义控制跨提示生成一致的内容。通过KV共享机制和潜在混合策略，DiTCtrl确保了语义片段之间的平滑过渡和一致的对象运动，且无需额外训练。我们还提出了MPVBench，这是首个专门为多提示视频生成设计的广泛评估框架，旨在推动该领域的未来研究。

局限性与未来工作。虽然我们的方法展示了最先进的性能，但仍存在两个主要局限性。首先，与图像生成模型相比，当前的开源视频生成模型在概念组合能力上相对较弱，偶尔会导致不同语义片段之间的属性绑定错误。其次，基于DiT架构的计算开销对推理速度提出了挑战。这些局限性为未来研究在增强语义理解和架构效率方面提供了有希望的方向。