复旦联合微软提出MagicMotion！Motion可控图生视频新框架！-CSDN博客

本文链接：https://blog.csdn.net/DataSourceAI/article/details/146462387

🌐 社群导航

🔗 点击加入➡️【AIGC/LLM/MLLM/3D/自动驾驶】技术交流群

🔗 点击加入➡️【2-3月CCF投稿】交流群

数源AI 最新论文解读系列

论文名：MagicMotion: Controllable Video Generation with Dense-to-Sparse Trajectory Guidance

论文链接：https://arxiv.org/pdf/2503.16421

开源代码：https://quanhaol.github.io/magicmotion-site/

导读

虽然基于DiT的模型在生成高质量和更长视频方面表现出色，但许多文本到视频方法缺乏对物体运动和相机运动等属性的精确控制。细粒度的轨迹可控视频生成技术应运而生，这对于在现实场景中生成可控视频尤为关键。

简介

近年来，视频生成技术取得了显著进展，在视觉质量和时间连贯性方面有了显著提升。在此基础上，轨迹可控的视频生成技术应运而生，它可以通过明确定义的空间路径实现对物体运动的精确控制。然而，现有方法在处理复杂物体运动和多物体运动控制时存在困难，导致轨迹跟踪不精确、物体一致性差以及视觉质量受损。此外，这些方法仅支持单一格式的轨迹控制，限制了它们在不同场景中的适用性。另外，目前还没有专门针对轨迹可控视频生成的公开可用数据集或基准，这阻碍了模型的稳健训练和系统评估。为了解决这些挑战，我们提出了魔法运动（MagicMotion），这是一种新颖的图像到视频生成框架，它通过从密集到稀疏的三个级别的条件（掩码、边界框和稀疏边界框）实现轨迹控制。给定输入图像和轨迹，魔法运动可以使物体沿着定义的轨迹无缝动画化，同时保持物体的一致性和视觉质量。此外，我们还推出了魔法数据（MagicData），这是一个大规模的轨迹控制视频数据集，以及一个用于标注和过滤的自动化流程。我们还引入了魔法基准（MagicBench），这是一个全面的基准，用于评估不同数量物体的视频质量和轨迹控制精度。大量实验表明，魔法运动在各种指标上都优于以往的方法。

方法与模型

1. 概述

我们的工作主要聚焦于轨迹可控的视频生成。给定一张输入图像和若干轨迹图，该模型能够生成一个符合所提供轨迹的视频，其中 T 表示生成视频的长度。在接下来的章节中，我们首先会在 3.2 节详细解释我们的模型架构。接着，我们会在 3.3 节概述我们的渐进式训练过程。在 3.4 节，我们会引入潜在分割损失（Latent Segmentation Loss），并展示它如何提升模型在细粒度物体形状方面的能力。然后，我们会在 3.5 节描述我们的数据集整理和过滤流程。最后，我们会在 3.6 节深入介绍 MagicBench。

2. 模型架构

图2. MagicMotion架构概述（为简化起见，省略了文本提示和编码器）。MagicMotion采用预训练的3D变分自编码器（VAE）将输入轨迹、第一帧图像和训练视频编码到潜在空间。它有两个独立的分支：视频分支处理视频和图像令牌，轨迹分支使用轨迹控制网络（Trajectory ControlNet）融合轨迹和图像令牌，随后通过一个零初始化的卷积层将其集成到视频分支。此外，来自DiT块的扩散特征被拼接起来，并由一个可训练的分割头进行处理，以预测潜在分割掩码，这有助于我们的潜在分割损失。

基础图像到视频（I2V）生成模型我们使用 CogVideoX - 5B - I2V [73] 作为我们的基础图像到视频模型。CogVideoX 基于扩散变压器（Diffusion Transformer，DiT）架构构建，融入了 3D 全注意力机制来生成高质量视频。如图 2 所示，该模型接收一张输入图像和一个对应的视频，并使用预训练的 3D 变分自编码器（VAE）[27] 将它们编码为潜在表示。随后，被零填充至帧，并与的加噪版本拼接，然后输入到扩散变压器中，在那里一系列的变压器模块会在预定义的步数内迭代地对其去噪。最后，去噪后的潜在表示由 3D VAE 解码器解码以得到输出视频。

轨迹控制网络（Trajectory ControlNet）为确保生成的视频遵循输入轨迹图所给定的运动模式，我们采用了类似于控制网络（ControlNet）[77] 的设计来注入轨迹条件。如图 2 所示，我们使用 3D VAE 编码器将轨迹图编码为，然后将其与编码后的视频拼接，并作为轨迹控制网络的输入。具体而言，轨迹控制网络由所有预训练的 DiT 模块的可训练副本构建而成，用于编码用户提供的轨迹信息。每个轨迹控制网络模块的输出随后会通过一个零初始化的卷积层进行处理，并添加到基础模型中对应的 DiT 模块，以提供轨迹引导。

3. 从密集到稀疏的训练过程

密集轨迹条件，如分割掩码，比像边界框这样的稀疏条件能提供更精确的控制，但对用户不太友好。为解决这个问题，MagicMotion 采用了一种渐进式训练过程，其中每个阶段都用前一阶段的权重来初始化其模型。这使得能够实现从密集到稀疏的三种类型的轨迹控制。我们发现，与使用稀疏条件从头开始训练相比，这种渐进式训练策略有助于模型取得更好的性能。

具体来说，我们在各个阶段采用以下轨迹条件：阶段 1 使用分割掩码，阶段 2 使用边界框，阶段 3 使用稀疏边界框，其中少于 10 帧有边界框标注。此外，我们总是将轨迹条件的第一帧设置为分割掩码，以指定应该移动的前景对象。

我们的模型遵循文献[73]进行速度预测。设为初始视频隐变量，为高斯噪声，为加噪后的视频隐变量，为模型输出。扩散损失可以表示为：

4. 隐分割损失

基于边界框的轨迹能够控制物体的位置和大小，但缺乏细粒度的形状感知能力。为了解决这个问题，我们提出了隐分割损失，它在模型训练过程中引入分割掩码信息，增强了模型对物体细粒度形状的感知能力。

以往的工作利用扩散生成模型进行感知任务，表明扩散模型提取的特征包含丰富的语义信息。然而，这些模型通常在像素空间中运行，这导致计算时间长且需要大量的GPU内存。

为了在合理的计算成本范围内融入密集轨迹信息，我们建议使用轻量级分割头直接在隐空间中预测分割掩码，从而无需进行解码操作。

具体来说，我们的分割头接收来自每个DiT块的扩散特征列表，并输出一个隐分割掩码。我们采用了受全景特征金字塔网络（Panoptic FPN）[28]启发的轻量级架构。每个扩散特征首先通过一个卷积层提取视觉特征。然后将得到的特征进行拼接，并通过另一个卷积层和上采样层处理，以生成最终的隐分割掩码。

我们将隐分割损失计算为与真实掩码轨迹隐变量之间的欧几里得距离，可表示为：

在实践中，仅在阶段2和阶段3使用，在稀疏条件下训练时为模型提供密集条件信息。具体来说，我们将的权重设置为0.5，原始扩散损失设置为1。总的来说，我们的最终损失函数可以表示为：

其中，在阶段1设置为0，在阶段2和阶段3设置为0.5。

5. 数据管道

轨迹可控的视频生成需要一个带有轨迹标注的视频数据集。然而，现有的大规模视频数据集仅提供文本标注，缺乏轨迹数据。此外，几乎所有以往的工作都使用私有整理的数据集，这些数据集并未公开。

我们提出了一个全面且通用的数据管道，用于生成同时具有密集（掩码）和稀疏（边界框）标注的高质量视频数据。如图3所示，该管道由两个主要阶段组成：整理管道和过滤管道。整理管道负责从视频 - 文本数据集中构建轨迹信息，而过滤管道确保在训练前去除不合适的视频。

图3. 数据集管道概述。整理管道用于构建轨迹标注，而过滤管道过滤掉不适合训练的视频。

数据筛选流程。我们的数据集筛选过程始于Pexels [24]，这是一个大规模的视频 - 文本数据集，包含个带有文本注释的视频片段。它涵盖了具有不同主题、各种场景和广泛动作的视频。我们使用Llama3.1 [53]从每个视频的文本注释中提取前景移动物体。如图3所示，我们将视频的标题输入到语言模型中，并提示它识别句子中提到的主要前景物体。如果模型确定句子中不包含任何前景物体，它将简单地返回“空”，此类视频将被过滤掉。接下来，我们使用Grounded - SAM2 [44, 46]，这是一种基于文本的分割模型，它将视频及其主要物体作为输入，并为每个主要物体生成分割掩码。每个物体都用唯一的颜色进行一致注释。最后，使用左上角和右下角的坐标从每个分割掩码中提取边界框，以绘制相应的框。每个物体的边界框颜色与其分割掩码保持一致。

过滤流程。许多视频仅包含静态场景，这对训练轨迹可控的视频生成模型没有帮助。为了解决这个问题，我们使用光流分数来过滤掉运动和动态较少的视频。具体来说，我们使用UniMatch [69]提取帧之间的光流图，并计算这些光流图的平均绝对值作为光流分数，以表示视频的运动强度。然而，具有背景运动但前景静态的视频仍然可能有较高的运动分数。为了解决这个问题，我们进一步使用UniMatch根据分割掩码和边界框提取前景物体的光流分数。过滤掉前景光流分数较低的视频，确保MagicData仅包含具有移动前景物体的视频。

筛选流程生成的轨迹注释需要进一步细化。如图3所示，一些视频包含过多的前景物体注释，或者它们的尺寸可能太大或太小。为了解决这个问题，我们将这些因素调节到合理范围内，并过滤掉超出可接受范围的视频。

具体来说，基于大量的人工评估，我们凭经验将光流分数阈值设置为2.0，将前景物体注释的数量限制在1到3个之间，并将注释区域比例限制在0.008到0.83的范围内。整个数据筛选和过滤流程为我们提供了MagicData，这是一个用于轨迹可控视频生成的高质量数据集，包含个具有密集和稀疏轨迹注释的视频。

6. MagicBench

先前关于轨迹控制视频生成的工作[17, 31, 36, 50, 58, 64, 78]主要在DAVIS（数据集规模相对较小）、VIPSeg（每个视频的标注帧不足）或私有构建的测试集上进行了验证。因此，迫切需要一个大规模、公开可用的基准，以便在该领域的不同模型之间进行公平比较。为了填补这一空白，我们使用第3.5节中提到的数据管道构建了MagicBench，这是一个大规模的开放基准，由600个带有相应轨迹标注的视频组成。MagicBench不仅评估视频质量和轨迹准确性，还将受控对象的数量作为一个关键评估因素。具体来说，它根据受控对象的数量分为6组，从1到5个对象以及超过5个对象，每个类别包含100个高质量视频。

图4. MagicBench上不同目标数量的比较结果。为了更清晰地呈现结果，我们对FVD和FID分数取了负值。

指标。对于评估指标，我们遵循文献[17, 55, 59, 64]，采用FVD [43]来评估视频质量，采用FID [18]来评估图像质量。为了量化运动控制的准确性，我们使用掩码交并比（Mask_IoU）和边界框交并比（Box_IoU），它们分别衡量掩码和边界框的准确性。具体来说，给定一个生成的视频，我们将第一帧的真实掩码作为输入，输入到SAM2 [44]中，以预测中前景对象的掩码。对于每个前景对象，我们计算每一帧中与真实掩码的交并比（IoU），然后对这些值求平均，得到掩码交并比（Mask_IoU）。同样，我们计算每一帧中每个前景对象的预测边界框与真实边界框的IoU，并将平均值作为边界框交并比（Box_IoU）。

实验与结果

1. 实验设置

实现细节。我们采用CogVideoX 5B [73]作为我们的基础图像到视频模型，该模型经过训练，可以生成分辨率为的49帧视频。

MagicMotion的每个阶段都在MagicData上训练一个轮次。训练过程包括三个阶段。阶段1从零开始训练轨迹控制网络（Trajectory ControlNet）。在阶段2中，使用阶段1的权重进一步优化轨迹控制网络（Trajectory ControlNet），同时从零开始训练分割头（Segment Head）。最后，在阶段3中，轨迹控制网络（Trajectory ControlNet）和分割头（Segment Head）都使用阶段2的权重继续训练。所有训练实验都在4块NVIDIA A100 - 80G GPU上进行。我们采用AdamW [33]作为优化器，以的学习率和每块GPU上1的批量大小进行训练。在推理过程中，我们默认将步数设置为50，引导尺度设置为6，轨迹控制网络（Trajectory ControlNet）的权重设置为1.0。

数据集。在训练过程中，我们使用MagicData作为训练集。MagicData使用第3.5节中描述的数据管道标注了从密集到稀疏的轨迹信息。它总共包含51,000个<视频，文本，轨迹>三元组。在训练过程中，每个视频被调整为的大小，并从每个片段中采样出49帧。为了进行评估，我们使用第3.6节中说明的比较指标，在MagicBench和DAVIS [39]上对所有方法进行评估。

2. 与其他方法的比较

为了进行全面和公平的比较，我们将我们的方法与7种公开的轨迹可控图像到视频（I2V）方法[31, 36, 50, 55, 64, 75, 78]进行了比较。下面展示了定量比较和定性比较的结果。

定量比较。为了将MagicMotion与以往的工作进行比较，我们使用DAVIS和MagicBench中每个视频的前49帧作为真实视频。由于一些方法[31, 36, 50, 55, 64, 75]不支持生成长达49帧的视频，我们从这49帧中均匀采样帧进行评估，其中表示每种方法支持的视频长度。我们利用这些选定帧的掩码和边界框注释作为基于掩码或边界框方法的轨迹输入。对于基于点或光流的方法，提取每一帧掩码的中心点作为输入。

如表1所示，我们的方法在MagicBench和DAVIS上的所有指标上都优于以往的所有方法，这表明它能够生成更高质量的视频并实现更精确的轨迹控制。此外，我们根据受控对象的数量评估了每种方法在MagicBench上的性能。如图4所示，我们的方法在所有对象数量类别中都取得了最佳结果，进一步证明了我们方法的优越性。

定性比较。定性比较结果如图5所示，同时提供了输入图像、提示和轨迹。如图5所示，Tora [78]能够准确控制运动轨迹，但难以保持对象的形状。而DragAnything [64]、ImageConductor [31]和MotionI2V [50]难以保持原始主体的一致性，导致后续帧出现大幅变形。同时，Drag - NUWA [75]、LeviTor [55]和SG - I2V [36]在精细细节上经常产生伪影和不一致性。相比之下，MagicMotion允许移动物体在保持高视频质量的同时，平滑地遵循指定轨迹。

图5. MagicMotion成功控制主要对象沿着提供的轨迹移动，而其他所有方法都表现出明显的缺陷，用橙色框标记。

3. 消融实验

在本节中，我们进行消融实验以验证我们的MagicData数据集的有效性。此外，我们展示了我们的渐进式训练过程和潜在分割损失如何增强模型在稀疏控制条件下对精确对象形状的理解，从而提高轨迹控制的准确性。

数据集消融实验。为了验证MagicData的有效性，我们通过结合两个公开的视频目标分割（VOS）数据集MeViS [9]和MOSE [10]构建了一个消融数据集。为了进行公平比较，我们使用MagicData或消融数据集作为训练集，对MagicMotion的第二阶段进行一个轮次的训练，两者均使用相同的第一阶段权重进行初始化。然后，我们在MagicBench和DAVIS上对模型进行评估。

如表2所示，在MagicData上训练的模型在所有指标上都优于在消融数据集上训练的模型。定性比较如图6所示。在这种情况下，我们的目标是将右下角的男孩逐渐移动到图像中心。然而，不使用MagicData会导致男孩旁边意外出现另一个孩子。相比之下，使用MagicData训练的模型表现良好，能够在保持视频质量的同时，让男孩沿着指定轨迹移动。

渐进式训练过程消融实验。渐进式训练过程允许模型利用前一阶段学到的权重，在稀疏轨迹条件下训练时融入密集轨迹控制信息。为了验证这种方法的有效性，我们以边界框作为轨迹条件，从头开始对模型进行一个轮次的训练。然后，我们将其性能与MagicMotion的第二阶段进行比较。

图6. 对MagicData的消融研究。不使用MagicData会导致模型生成意外的子项。

如表3所示，排除渐进式训练过程（Progressive Training Procedure）会削弱模型感知物体形状的能力，最终降低轨迹控制的准确性。图7中的定性比较进一步说明了这些影响，其中未采用渐进式训练过程（Progressive Training Procedure）训练的模型将女性的头部完全变成了头发。

潜在片段损失的消融实验。潜在片段损失使模型在使用稀疏轨迹进行训练时能够预测密集的分割掩码，增强了其在稀疏条件下感知细粒度物体形状的能力。为了评估该技术的有效性，我们从阶段1开始使用边界框作为轨迹条件对模型进行一个周期的训练，并将其性能与MagicMotion阶段2进行比较。表3显示，缺少潜在片段损失会降低模型对物体形状的处理能力，导致轨迹控制不够精确。图8中的定性比较进一步凸显了这种影响。没有潜在片段损失时，生成视频中女性的手臂看起来不完整。

图7. 渐进式训练过程的消融实验。没有渐进式训练，生成的头部形状会明显变形。

图8. 潜在片段损失的消融实验。没有潜在片段损失，生成的手臂部分缺失。

结论

在本文中，我们提出了MagicMotion，这是一种轨迹控制的图像到视频生成方法，它使用类似ControlNet的架构将轨迹信息集成到扩散变压器中。我们采用了渐进式训练策略，使MagicMotion能够支持三个级别的轨迹控制：密集掩码、边界框和稀疏框。我们还利用潜在片段损失来增强模型在仅提供稀疏轨迹条件时感知细粒度物体形状的能力。此外，我们展示了MagicData，这是一个通过强大的数据管道创建的用于轨迹控制视频生成的高质量标注数据集。最后，我们引入了MagicBench，这是一个用于评估轨迹控制视频生成的大规模基准。MagicBench不仅评估视频质量和轨迹准确性，还考虑了受控物体的数量。在MagicBench和DAVIS上的大量实验证明了MagicMotion相对于以往工作的优越性。