快手联合港中文提出FullDiT！细粒度可控视频生成！

本文链接：https://blog.csdn.net/DataSourceAI/article/details/146769465

🌐 社群导航

🔗 点击加入➡️【AIGC/LLM/MLLM/3D/自动驾驶】技术交流群

🔗 点击加入➡️【2-3月CCF投稿】交流群

数源AI 最新论文解读系列

论文名：FullDiT: Multi-Task Video Generative Foundation Model with Full Attention

论文链接：https://arxiv.org/pdf/2503.19907

开源代码：https://fulldit.github.io/

导读

视频生成基础模型的预训练主要遵循仅专注于文本到视频生成的范式，得益于其简单性和广泛适用性。然而，仅依靠文本提示的粒度不足，无法对关键视频属性进行精确和直接的操作。现实世界的创意产业，如电影制作、动画和数字内容创作，经常需要对生成视频的多个方面进行细粒度控制，如相机运动、角色身份和场景布局。

简介

当前的视频生成基础模型主要专注于文本到视频的任务，对细粒度视频内容创作的控制能力有限。尽管基于适配器的方法（如ControlNet）能够通过最少的微调实现额外的控制，但在整合多个条件时会遇到挑战，包括：独立训练的适配器之间的分支冲突、导致计算成本增加的参数冗余，以及与全量微调相比表现欠佳。为应对这些挑战，我们引入了FullDiT，这是一个用于视频生成的统一基础模型，它通过统一的全注意力机制无缝整合多个条件。通过将多任务条件融合到统一的序列表示中，并利用全自注意力的长上下文学习能力来捕捉条件动态，FullDiT减少了参数开销，避免了条件冲突，并展现出可扩展性和涌现能力。我们进一步引入了用于多任务视频生成评估的FullBench。实验表明，FullDiT取得了最先进的成果，凸显了全注意力在复杂多任务视频生成中的有效性。

方法与模型

在本节中，我们详细介绍我们提出的框架 FullDiT。FullDiT 的目标是利用多种条件（例如文本、相机、身份和深度）来生成具有细粒度控制的高质量视频。虽然本研究聚焦于有限的一组条件，但该方法可以进行调整和扩展以适应各种条件。

1. 预备知识

视频扩散模型学习给定条件下视频数据的条件分布。在采用流匹配公式 [35] 的扩散过程中，噪声样本通过逐步转变为干净数据，其中且时间步为。可学习模型经过训练以预测速度，该速度可进一步推导为：

因此，具有参数的模型通过最小化真实速度与模型预测之间的均方误差损失来进行优化：

在推理过程中，扩散模型首先对进行采样，然后使用具有离散时间步长集的常微分方程（ODE）求解器来生成。

2. 概述

我们在图2中展示了FullDiT与之前基于适配器的框架的比较。对于基于适配器的条件插入方法（如图2（b）所示），每个条件都需要一个额外的适配器。这导致了设计复杂性和参数开销的增加，因为每个条件都需要一个专门的设计模块来进行特征处理，从而使得引入新条件的可扩展性有限。此外，由于适配器是针对每个任务独立训练的，没有信息共享，任意集成可能会导致冲突并降低整体性能。与基于适配器的方法相比，FullDiT在早期直接合并所有条件（如图2（a）所示），即每个条件都被标记化为一个序列表示，随后进行拼接并输入到Transformer块中。这有助于在条件之间进行更彻底的融合，而无需为每个条件添加额外的参数。

图2. FullDiT架构概述以及与基于适配器的模型的比较。我们在左侧展示了多任务视频生成模型的扩散过程。出于研究目的，本文展示了由仅含时间信息的相机、仅含空间信息的身份和时空深度视频组成的输入条件。可以将额外的条件纳入此模型架构以实现更广泛的应用。如(a)所示，FullDiT通过以下步骤统一各种输入：(1)将输入条件分块并标记化为统一的序列表示；(2)将所有序列连接成一个更长的序列；(3)通过全自注意力学习条件动态。相比之下，早期基于适配器的方法（如(b)所示）使用不同的适配器设计独立处理各种输入，导致分支冲突、参数冗余和性能次优。每个块的下标表示其层索引。

遵循先前的工作[31, 43]，FullDiT采用了一种Transformer架构，该架构包括自注意力、自注意力、交叉注意力和前馈网络。更具体地说，FullDiT首先通过对视频、相机、身份和深度条件进行分块处理，将它们标记化为序列表示，然后使用一层卷积将它们映射到隐藏维度。之后，在每个FullDiT块中，序列潜变量首先通过带有二维旋转位置编码（RoPE）的二维自注意力，以增强空间信息学习。然后，潜变量通过带有三维RoPE的三维自注意力，从而能够对多个条件之间的空间和时间信息进行联合建模。这允许不同输入信号在空间和时间上进行自然交互，从而确保最佳性能。同时，扩散时间步长通过AdaLN - Zero映射到四组缩放、偏移和门控参数，随后将这些参数注入到二维自注意力、三维自注意力、交叉注意力和前馈层中。

给定一组条件，我们的目标是生成符合这些条件的高质量视频。这里的“条件”一词可以涵盖不同的模态和各种类别。本文在实验中选择了三个特定条件来验证FullDiT的有效性：相机（E）、身份（I）和深度（D）。选择这些条件是因为它们在模态表示和分布上存在显著差异。相机捕捉场景位置变化，作为相机运动的约束。身份以图像形式给出，定义角色属性。深度以视频格式提供，提供结构布局指导。我们还通过交叉注意力输入文本（P）条件来控制整体生成内容。因此，我们的生成模型的总体目标是学习条件分布。

3. 条件标记化

正如3.2节所讨论的，全维度扩散变压器（FullDiT）旨在探索如何有效地组合不同形式的条件。因此，我们选择相机（仅时间维度）、身份（仅空间维度）和深度（时空维度）作为输入。这些条件在特征形状、数据分布和控制效果方面彼此不同，需要分别进行标记化处理。本节详细介绍标记化的过程。相机。输入是一系列相机参数，其中表示第帧，是物体的朝向，是物体的平移，是帧号。我们借鉴相机控制（CameraCtrl）[18]和相机图像到视频（CamI2V）[68]的方法，应用普吕克嵌入（plücker embedding），以帮助模型将相机参数与图像像素相关联，从而实现对视觉细节的精确控制。具体而言，相机参数可以通过以下方式转换为其普吕克嵌入：

其中，是帧高度，是帧宽度，是相机中心，是相机内参。

我们将普吕克嵌入以16的块大小进行分块处理，得到相机序列，其中随后通过卷积层映射到隐藏维度。

身份。全维度扩散变压器（FullDiT）使用一个因果3D变分自编码器（VAE），其时间压缩率为4，空间压缩率为8，对图像和视频进行编码。身份图像首先通过变分自编码器（VAE）编码为，然后以2的块大小进行分块处理，得到序列，其中。如果提供了多个身份图像，则对每个图像都应用相同的处理流程。之后，所有身份序列通过卷积层映射到隐藏维度。该卷积层使用视频分块处理后投影层的权重进行初始化。

深度。深度视频与含噪视频遵循相同的处理流程。深度视频首先通过变分自编码器（VAE）编码为，然后以块大小为2进行分块处理得到，其中。最后，通过卷积层投影到隐藏维度。卷积层使用视频分块后投影层的权重进行初始化。

对每个条件进行分词处理后，含噪视频、相机、身份信息和深度视频的序列会沿着序列维度进行拼接，从而实现对多个条件的联合建模。

讨论。虽然本文仅实现了三种条件，但的架构设计为在不进行重大结构更改的情况下轻松纳入其他模态或条件。例如，分割视频和草图视频与深度视频在表示上具有相似性，可以采用与深度视频相同的分词技术。其他模态，如音频，也可以被分词为序列表示，并通过全注意力机制进行联合学习。

4. 训练策略

数据集构建。FullDiT的训练需要视频的文本、相机、身份信息和深度的标注。然而，由于为每个视频获取所有条件具有挑战性，我们采用选择性标注策略，优先选择与相应视频数据最匹配的标签类型。对于文本标注，我们遵循Mira - Data [25]的方法，使用结构化字幕对文本提示进行标注，这样可以为视频包含更详细的信息。对于相机数据，我们主要依赖真实标注，因为现有的自动标注流程无法达到足够高的质量。与先前的研究一致，我们使用静态场景相机数据集RealEstate [71]进行训练。我们观察到，仅使用静态场景相机数据集会导致生成视频中人和物体的运动减少。为了缓解这一问题，我们进一步使用包含动态运动的内部相机数据集进行质量微调。对于身份标注，我们遵循ConceptMaster [23]的数据创建流程，该流程包括快速排除不合适的视频和细粒度的身份信息提取。对于深度标注，我们使用Depth Anything [62]。最后，我们使用约100万个高质量样本进行训练。

条件训练顺序。在预训练阶段，我们注意到更具挑战性的任务需要更长的训练时间，并且应该在学习过程的早期引入。这些具有挑战性的任务涉及与输出视频显著不同的复杂数据分布，需要模型具备足够的能力来准确捕捉和表示它们。相反，过早引入较简单的任务可能会导致模型优先学习这些任务，因为它们能提供更直接的优化反馈，这会阻碍更具挑战性任务的收敛。为了解决这个问题，我们采用如图3所示的渐进式训练策略，在早期引入困难任务，以确保模型学习到鲁棒的表示。一旦这些具有挑战性的任务得到充分训练，较简单的任务可以利用已获得的知识，受益于改进的特征表示并更有效地收敛。遵循这一原则，我们将训练顺序安排如下：文本、相机、身份信息和深度，较简单的任务使用较少的训练数据量。预训练后，我们通过质量微调阶段进一步优化模型，以增强运动动态、细粒度可控性和整体视觉质量。

图3. 条件训练顺序示意图。我们用红色表示训练数据量。表示百万。

实验与结果

1. 评估基准和指标

基准。为了在多任务视频生成中评估FullDiT，我们构建了包含1400个高质量测试用例的FullBench。它由七个类别组成，每个类别涵盖不同的条件组合，各有200个测试用例：

(1) 相机到视频。我们遵循以往的研究 [18, 68]，从 RealEstate [71] 测试集中随机选取 200 个案例。(2) 身份到视频。我们收集了一个包含两种类型数据的身份到视频测试集。第一类使用分割后的身份图像（如图 4 (a) 所示），第二类包含带有主要身份的原始图像（如图 4 (b) 所示）。纳入这两种类型的测试样本可确保覆盖域内和域外的案例，从而实现更准确的模型评估。

(3) 深度到视频。我们从 Panda - 70M [7] 中随机选取了 200 个具有显著深度变化的高质量视频，确保它们不在训练集中，并使用 Depth Anything [62] 对其深度进行标注。

(4) [相机 + 身份] 到视频。我们从 RealEstate [71] 测试集中选取 200 对原始身份图像（图 4 (b)）和 200 条 3D 相机轨迹。这些身份图像和相机轨迹与 (1) 和 (2) 中的不同。

由于此方法仅支持图像到视频的生成，我们将真实的第一帧视频输入到模型中。因此，未报告帧质量指标。

表1. 单任务视频生成的定量比较。我们在相机到视频生成任务上，将FullDiT与MotionCtrl [54]、CameraCtrl [18]和CamI2V [18]进行比较。对于身份到视频生成任务，由于缺乏开源的多身份视频生成方法，我们与大小为的ConceptMaster [23]模型进行比较。在深度到视频生成任务中，我们将FullDiT与Ctrl - Adapter [33]和ControlVideo [66]进行比较。我们遵循每个模型的默认设置进行评估。由于大多数先前的方法只能生成16帧视频，我们从生成超过16帧的方法中统一采样16帧进行比较。

图4. 两种类型身份图像的示例。

(5) [相机+深度]到视频。我们从RealEstate 测试集中随机选择200个案例，并使用Depth Anything [62]标注深度。请注意，这些相机轨迹与(1)和(4)中的不同，以增加测试的多样性。(6) [身份+深度]到视频。我们按照(2)的方式收集身份 - 视频对，并使用Depth Anything [62]进行标注，身份图像与(2)和(4)中的不同。

(7) [相机+身份+深度]到视频。我们首先按照(6)的方式收集身份 - 深度 - 视频对，然后使用GLOMAP [41]标注相机参数。我们选择的样本与(6)中的不同，以增强多样性。

指标。我们在五个关键方面采用了10个指标：文本对齐、相机控制、身份相似度、深度控制和整体视频质量。遵循先前的工作[23]，我们使用CLIP相似度[44]来衡量文本对齐。对于相机控制，我们采用CamI2V [68]中使用的RotErr、TransErr和CamMC。使用DINO - I [5]和CLIP - I [44]评估身份相似度[45]。遵循先前的工作，通过平均绝对误差（MAE）来衡量深度控制。我们纳入了Mira - Data [25]中的三个指标来评估视频质量：用于衡量平滑度的帧CLIP相似度[44]、用于衡量动态性的光流运动距离[50]，以及用于美学评估的LAION - Aesthetic [46]模型。详细信息见附录。

2. 实现细节

我们基于一个内部的文本到视频扩散模型训练FullDiT，该模型约有个参数。我们使用较小的参数规模，以确保与先前的方法进行公平比较，并便于复现。由于训练视频的大小和长度各不相同，我们在每个批次中将所有视频调整大小并填充到统一的分辨率，并采样77帧。我们应用注意力掩码和损失掩码以确保正确的训练。我们使用Adam优化器，学习率为，并在由64个NVIDIA H800 GPU组成的集群上进行训练。模型需要大约32,000步的训练，其中相机控制为20帧，最多3个身份，深度条件为21帧。相机和深度控制从77帧中均匀采样。详细的训练数据量如图3所示。对于模型的推理，我们使用分辨率为的77帧（帧率为15时约5秒）。我们将推理步数设置为50，分类器自由引导尺度设置为5。

3. 与先前方法的比较

本节旨在验证FullDiT相对于先前基于适配器的方法的优越性能。我们在基准FullBench的相机到视频、身份到视频和深度到视频子集上，将FullDiT与先前的单条件引导视频生成方法进行评估。由于缺乏适合比较的开源多条件到视频生成方法，我们未提供FullDiT与先前方法的比较。我们将FullDiT在FullBench其他子集上的定量结果放在附录中。

图5. FullDiT与先前单控制视频生成方法的定性比较。我们展示了与ConceptMaster [23]比较的身份到视频结果、与Ctrl - Adapter [33]和ControlVideo [66]比较的深度到视频结果，以及与MotionCtrl [54]、CamI2V [68]和CameraCtrl [18]比较的相机到视频结果。标有*的结果是图像到视频方法。

单任务生成的定量比较。对于相机到视频的转换，我们将FullDiT与MotionC - trl [54]、CameraCtrl [18]和CamI2V [68]进行比较。所有这些模型都在RealEstate10k [71]数据集上进行训练，确保相机条件下训练数据设置的一致性和公平性。对于身份到视频的转换，由于缺乏参数规模相当的开源多身份视频生成模型，我们以概念大师（ConceptMaster）[23]为基准，使用与FullDiT相同的训练数据。这确保了在相同模型架构和训练数据下进行公平比较，进一步验证了全注意力机制的优势。对于深度到视频的转换，我们与Ctrl - Adapter [33]和ControlVideo [66]进行比较。结果表明，尽管FullDiT集成了多个条件，但它在控制指标（即文本、相机、身份和深度控制）上仍达到了最先进的性能，从而验证了FullDiT的有效性。在整体质量指标方面，FullDiT在大多数情况下优于以前的方法。FullDiT的平滑度略低于概念大师（ConceptMaster），因为平滑度的计算基于相邻帧之间的CLIP相似度。由于FullDiT与概念大师（ConceptMaster）相比表现出明显更大的动态变化，相邻帧之间的较大差异影响了平滑度指标。在美学评分方面，由于评分模型偏爱绘画风格的图像，而ControlVideo通常生成这种风格的视频，因此它在美学方面获得了高分。

单任务生成的定性比较。如图5 (a)所示，与概念大师（ConceptMaster）[23]相比，FullDiT表现出更好的身份保留能力，生成的视频具有更好的动态效果和视觉质量。由于概念大师（ConceptMaster）和FullDiT在相同的主干网络上进行训练，这凸显了全注意力条件注入的有效性。我们在图5 (b)和(c)中进一步展示了深度到视频和相机到视频的额外比较。结果表明，与现有的深度到视频和相机到视频方法相比，FullDiT具有更好的可控性和生成质量。例如，我们的训练数据中没有同时包含相机和身份注释的视频。但如图6c所示，FullDiT可以有效地生成忠实反映相机和身份输入的视频。这证明了FullDiT在未见任务上的新兴能力。

图6. 具有多个控制信号的FullDiT的定性结果。我们在(a)和(b)中展示了相机 + 身份 + 深度到视频的结果，在(c)中展示了相机 + 身份到视频的结果，在(d)中展示了身份 + 深度到视频的结果，在(e)中展示了相机 + 深度到视频的结果。

4. FullDiT的可扩展性和新兴能力

图7. 随着训练数据量增加的相机到视频性能。我们还展示了MotionCtrl [54]和CamI2V [68]的数据量和性能以供比较。

可扩展性。如图7所示，随着训练数据量的增加，FullDiT相机到视频在平移误差（TransErr）和旋转误差（RotErr）方面的结果都有所改善，这说明了FullDiT的可扩展性。相比之下，MotionCtrl [54]使用了的数据量，CameI2V [68]使用了的数据量，但两者的表现都不如FullDiT。这进一步证明了全注意力机制的有效性

组合和新兴能力。我们在图6和图1中展示了向FullDiT输入多个条件的结果。这些结果突出了FullDiT即使在没有同时包含所有条件的训练数据的情况下，也能够组合多个条件输入的能力。例如，

5. 消融研究

条件训练顺序的影响。我们使用不同的条件训练顺序训练了三组模型，每个条件使用相同的数据列：（1）身份（identities），然后是摄像头（camera），接着是深度（depth）；（2）深度，然后是摄像头，接着是身份；（3）摄像头，然后是身份，接着是深度。我们在FullBench的摄像头到视频、身份到视频和深度到视频子集上评估我们的模型。表2中的结果验证了我们的观点，即更具挑战性的任务需要额外的训练，并且应该更早引入。特别是，过晚引入摄像头条件会显著降低其可控性。

训练阶段数量的影响。我们进一步分析了使用多阶段训练的影响，以及在相同数据量下后期阶段对早期阶段条件的影响。我们在FullBench的摄像头到视频、身份到视频和深度到视频子集上评估我们的模型。表3显示，多阶段训练可以实现更好的条件控制。具体来说，通过比较单阶段和两阶段训练，我们发现将摄像头作为一个独立的训练阶段进行隔离可以显著提高摄像头控制指标。

模型架构的影响。为了在相同的架构和训练数据下公平比较基于适配器的方法和FullDiT的性能，我们参照CameraCtrl [18]在我们的模型架构上实现了一个相机到视频的模型。该模型与FullDiT使用相同的文本到视频权重作为初始权重，并且仅使用相机数据进行训练。表4显示，尽管FullDiT是在三种条件下进行训练的，但在相机控制方面，它仍然优于适配器架构。

结论

我们介绍了全注意力扩散变压器（FullDiT），这是一种新颖的视频生成基础模型，它利用统一的全注意力机制来无缝集成多模态条件。FullDiT解决了基于适配器架构的局限性，如分支冲突和参数冗余问题，实现了可扩展的多任务和多模态控制。我们还提供了全注意力基准测试（FullBench），这是首个用于评估多条件视频生成的综合基准。大量实验证明了FullDiT的先进性能和新兴能力。