超越DragGAN和DragDiffusion！StableDrag:基于点的图像编辑新框架(南大&腾讯) 原创 Yutao Cui等 AI生成未来_stabledrag: stable dragging for point-based image -CSDN博客

本文链接：https://blog.csdn.net/AIGCer/article/details/136614152

超越DragGAN和DragDiffusion！StableDrag:基于点的图像编辑新框架(南大&腾讯) 原创 Yutao Cui等 AI生成未来

文章链接：https://arxiv.org/pdf/2403.04437
开源地址：https://stabledrag.github.io/

基于点的图像编辑自DragGAN出现以来就引起了人们的极大关注。最近，通过将这种拖拽技术应用到扩散模型中，DragDiffusion进一步推动了生成质量。尽管取得了巨大的成功，但这种拖拽方案存在两个主要缺点，即不精确的点跟踪和不完整的运动监督，这可能导致令人不满意的拖拽结果。

为了解决这些问题，本文构建了一个稳定且精确的基于拖拽的编辑框架，命名为StableDrag，通过设计一种判别式的点跟踪方法和基于置信度的潜空间增强策略来实现。前者使我们能够精确定位更新的控制点，从而提高了长距离操作的稳定性，而后者负责确保优化的潜空间在所有操作步骤中尽可能高质量。由于这些独特的设计，本文实例化了两种类型的图像编辑模型，包括StableDrag-GAN和StableDrag-Diff，在DragBench上进行了广泛的定性实验和定量评估，实现了更稳定的拖拽性能。

介绍

在过去的几年里，使用生成模型进行可控图像编辑已经取得了显著的成就，可以根据进一步的精细化目的定制生成结果。最近，开创性的DragGAN已经大大推动了准确的图像编辑，通过交互式基于点的操作，即根据用户输入的控制点驱动语义对象朝向相应的目标点。DragGAN提出了一种新颖的拖拽技术，主要包含运动监督和点跟踪，其中前者监督着控制点周围的局部补丁逐步朝向目标点移动，而后者负责在每个步骤中定位更新的控制点。

尽管DragGAN取得了巨大的成功，但其编辑能力仍受制于生成对抗网络的固有模型容量和泛化性。因此，最近的一些工作借助扩散模型进行高质量的拖拽式图像编辑。代表性工作DragDiffusion探索了将拖拽方案适应于扩散模型，即首先微调一个LoRA，然后在单个扩散步骤中优化潜空间，最后基于MasaCtrl对优化的潜空间进行去噪。对于扩散潜空间优化的关键组件，它直接遵循了DragGAN的传统，即迭代地进行运动监督和点跟踪。我们分析当前的拖拽方案仍然存在以下问题。

不准确的点跟踪。这些方法利用特征差异作为相似度度量来跟踪更新的控制点，这不足以从干扰项（即具有相似内容的周围误导性点）中精确地定位正确的控制点。特别是在扩散模型中，由于特征是从具有大量噪声注入的中间扩散过程中采样的，更新的点变得越来越难以与其周围的局部环境区分开来。这可能导致令人不满意的拖拽结果，如图1中蒙娜丽莎肖像和花瓶的示例所示。
不完整的运动监督。在运动监督过程中，潜空间可能在某些步骤上没有充分优化，导致操纵质量的下降（见下图1中大象和女人的示例），以及点跟踪的漂移。在扩散模型中，潜空间比GAN更稳定且更难操纵，特别是在对特定图像微调LoRA时，这可能会加剧问题。

考虑到前面提到的问题，设计一个更稳定的拖拽框架需要两个主要原则。首先，需要一个稳健而高效的点跟踪方法，以避免定位错误点并增加太多的延迟，从而使基于点的拖拽更加精确。其次，应该保证在每个优化步骤中运动监督是完整的，以便在整个操作过程中保持编辑内容尽可能高质量，并充分释放生成模型的强大修复能力。此外，完整的运动监督可以增强给定控制点和更新点之间内容的相似性，防止跟踪错误的积累。

基于以上分析，重新制定了DragGAN和DragDiffusion中的点跟踪和运动监督的拖拽方案，并提出了一个更稳定的基于点的图像编辑的拖拽框架，称为StableDrag。具体而言，受到视觉对象跟踪成功的启发，试图从一个判别式学习损失中推导出一个简单而强大的点跟踪模型，采用卷积滤波器的形式。

该模型能够抑制干扰项点的跟踪置信度分数，并增强控制点的置信度分数。在操作步骤开始时，根据定制的相似性学习函数监督更新跟踪模型的权重。一旦跟踪模型准备好，将其与原始的特征差异方法结合起来，进行稳健而精确的点跟踪。

值得注意的是，由于我们只需要在初始操作步骤中优化简单的跟踪模型（即单个卷积滤波器），因此这种方法几乎不会增加推理延迟。此外，设计了基于置信度的潜空间增强策略，以确保每个步骤中运动监督的完整性。

具体来说，利用控制点的跟踪置信度分数来评估当前操作过程的质量。通常情况下，使用与DragDiffusion相同的运动监督方式。然而，当质量分数低于可接受的阈值时，将使用模板特征（即给定起始控制点的初始特征）来监督当前控制点的内容，直到其置信度分数令人满意。

由于拖拽方案的独特设计，我们实例化了两种类型的图像编辑模型，包括StableDrag-GAN和StableDrag-Diff，分别构建在GAN和扩散模型上，从而实现了更稳定和精确的拖拽性能。

本文的贡献总结如下：

提出了一个判别式的点跟踪方法，使模型能够准确区分更新的控制点和干扰项点，从而提高了拖拽的稳定性。
设计了一个基于置信度的潜空间增强策略，用于运动监督，可以提高每个操作步骤的优化质量。
在这些设计的基础上，构建了StableDrag，一个基于点的图像编辑框架，基于不同的生成模型，包括GAN和Stable Diffusion。通过在各种示例上进行广泛的定性实验和在DragBench上进行定量评估，证明了StableDrag-GAN和StableDrag-Diff的有效性。

方法

初识基于点的拖拽

首先，简要回顾最近关于GAN和扩散模型背后基于点的拖拽框架的文献，这是本工作的基础。

DragGAN。给定由GAN模型生成的图像，结合用户输入的控制点和目标点，DragGAN旨在驱动每个控制点的内容向其相应的目标点移动。

在这个意义上，主要关注点级编辑如何精确控制，同时保持高图像保真度。为了实现这一目标，DragGAN量身定制了一种新颖的范例，涉及重复的运动监督和点跟踪。考虑到生成器的特征，中间特征非常具有辨别力，他们利用简单的在线运动监督损失来优化潜空间code。当将周围的局部区域表示为，即距离小于半径的像素时，损失可以定义为：

其中，F表示当前优化步骤的中间特征，是初始步骤的特征，n是控制点的数量，是一个偏差向量，M是预定义的mask，用于控制变化区域。特别地，由于被分离，当前的内容将被激励向迈出一小步。然而，由于优化的固有不确定性，很难保证接近 + 。因此，他们利用简单的特征差异方法作为点跟踪，确定的更新状态。上述优化过程迭代直至每个控制点都收敛到各自的目标点。

DragDiffusion。DragDiffusion将基于点的编辑框架扩展到扩散模型，如Stable Diffusion(SD-V1.5)，以释放其高稳定性和优越的生成质量的强大能力。该编辑方法涉及三个子过程，即在真实图像上对LoRA进行微调，在特定扩散步骤上优化潜空间并对更新的潜空间进行去噪以生成编辑后的图像。

具体来说，他们采用了相同的拖拽公式，即在单个中间扩散步骤上进行重复的运动监督和点跟踪来操纵潜空间。此外，采用了一种LoRA微调策略，通过整个操作过程保留图像的身份。最后，使用了自我注意力控制机制MasaCtrl来增强原始图像与编辑后图像之间的一致性。

概述

如前面图1所示，由于不精确的点跟踪和不完整的运动监督，DragGAN和DragDiffusion可能导致编辑图像质量下降。因此，在本工作中，我们关注当前的拖拽技术，以实现更稳定和精确的图像操作。所开发的拖拽流程如下图2所示，包括一个判别式点跟踪模块和一个自信的运动监督模块。

具体而言，设计了一种新的点跟踪方法，将原始的特征差异与来自学习的判别式跟踪模型产生的跟踪分数相结合，从而提高了点跟踪的准确性和拖拽的精度。基于跟踪分数，进一步探索了一种基于置信度的潜空间增强策略，以实现足够完整的运动监督。

还观察到，DragGAN在短时间内掌握了大变形和创造性内容（例如，将嘴闭合的狮子转化为吼叫状态）。而DragDiffusion擅长生成优质和高保真度的编辑结果。为了使拖拽模型能够适应各种情景，基于DragGAN和DragDiffusion构建了StableDrag，并设计了相应的拖拽方案。在本节中，我们将详细介绍所提出的拖拽方法。

判别式点跟踪

点跟踪在识别更新的控制点中发挥着关键作用，以避免拖拽错误点并产生不满意的编辑结果。在DragGAN和DragDiffusion中采用的普遍方法是直接进行最近邻搜索，通过识别与的初始特征模板的特征差异最小的位置来进行。然而，这完全忽略了背景外观信息，这对于在复杂场景中将控制点与相似点区分开来至关重要。

特别是，在扩散模型中，由于监督特征是从中间扩散阶段提取的，其中包含大量噪声，逐渐难以辨别更新的点。例如，如前面图1中蒙娜丽莎肖像的情况所示，鼻子的控制点与相邻点具有相似的外观，这导致了DragDiffusion中误导性位置的产生。因此，在本工作中，我们探索了一种实现更具辨别能力但简单的点跟踪的替代方法。

通过使用可学习的判别式跟踪模型，可以将给定的控制点与干扰因素区分开来。在我们的设计中，点跟踪模型由卷积层的权重组成，将点分类分数作为输出。具体而言，建议学习一个函数，其中 g 表示卷积函数，是当前控制点周围的局部区域，是学习的跟踪模型，如果跟踪模型与某个位置的内容匹配并将其识别为更新的控制点，则返回高分数；否则返回低分数。

特别地，跟踪模型在潜空间优化之前学习，并在所有操作步骤中保持不变。在这个意义上，这种方法几乎不会增加编辑运行时。最后，我们将跟踪模型产生的分类分数与原始特征差异分数合并，以实现既具有判别能力又精确的点定位。判别式点跟踪的详细过程如前面图2所示。

形式上，给定局部区域，跟踪到的控制点更新为：

这里，代表局部区域的跟踪置信度分数图，λ是加权因子，是step-0时初始控制点的原始特征，是当前步骤中的最大跟踪置信度分数，用于指导运动监督。在的术语中，前者衡量了模板与搜索区域之间的特征差异。尽管它在大多数情况下可以提供准确的点定位，但可能会被干扰因素所误导。因此，第二项负责通过判别式学习提高跟踪的鲁棒性，即在的初始优化过程中抑制周围点的分数。与简单的特征差异方法不同，这个跟踪模型能够利用背景信息，并利用中间特征的判别式特征，从而对原始方法进行有价值的增强。

跟踪模型的学习。在操作过程之前，对点跟踪模型进行学习，该模型是一个大小为1×C×1×1的卷积滤波器。学习过程的概述如图3所示。

使用来初始化，并在以下损失的监督下更新权重：

这里，表示step-0的初始特征，代表真值标签，即每个位置的期望置信度分数，通常设为以为中心的高斯函数。在学习过程中，梯度不会通过进行反向传播。换句话说，只需要优化跟踪模型，从而实现快速收敛。通过优化，我们突出了控制点，同时抑制了背景点的置信度分数。然后，在后续的操作步骤中，跟踪模型保持不变以确保效率。

自信运动监督

运动监督是逐步鼓励点向其预期目的地移动的核心。DragGAN使用方程(1)中的在线损失来实现这一目标，但在长程拖拽中可能会产生不理想的结果。

相反，我们设计了一个基于自信的运动监督组件，其核心原则是，不仅要在每一步确保高质量和全面的监督，而且还要允许适当的修改以适应更新状态的新内容创建。例如，图1中一个穿着裙子的女人的案例显示了维持视觉连贯性的完整监督的重要性。

为了实现上述目标，我们提出了一种基于置信度的潜空间增强策略，如前面图2所示。首先，我们引入了跟踪分数的最大值，即，来表示当前的监督置信度，以及step-1处的置信度分数来生成增强策略的阈值。通常情况下，当我们确定当前状态足够自信时，会使用方程(1)中的原始运动监督。如果当前的置信度分数低于预定义的阈值，会回退到初始模板进行监督。具体的增强监督定义为:

这里的是一个固定的模板，不进行梯度反向传播，它可以强制更新点的内容模仿初始状态。此外，是否使用这种潜空间增强监督是根据以下准则确定的。

这里，τ是一个阈值率，用于控制增强的强度。通过这种方式，可以防止控制点当前的内容明显偏离原始模板，从而实现自信的运动监督。另一方面，当置信度分数超过阈值时，依赖于动态的运动监督来维持高的可编辑性。为了更好地阐明自信的运动监督的见解，我们与FreeDrag中提出的方法进行了比较，该方法使用自适应模板和线性搜索来释放点跟踪模块。

首先，在FreeDrag中预设的线性搜索可能会对潜空间优化的灵活性施加限制，从而显著增加拖拽的难度。正如图4的左上角示例所示，FreeDrag的控制点经常沿着预定义路径振荡，并需要进行320步的优化。然而，我们的方法允许控制点沿着更为优化的非线性路径向目的地移动，仅需46步。

此外，如下图4的左下角示例所示，FreeDrag在生成创意和超出分布范围的内容方面遇到困难，因为它主要依赖于模板特征进行监督，即使采用了更新策略。相比之下，我们的StableDrag-GAN在给定长程拖拽路径的情况下可以生成令人满意的创意内容，展示了更好的可编辑性。

实验

实现细节

基于PyTorch实现了该方法，包括StableDrag-GAN和StableDrag-Diff。在优化潜空间代码的过程中，对StableDrag-Diff使用了学习率为0.01的Adam优化器，对StableDrag-GAN使用了学习率为0.001的Adam优化器，这遵循它们的默认设置。在大多数情况下，超参数λ和τ分别设为0.3和0.4。对于其他参数和模型设置，我们遵循DragGAN和DragDiffusion中的默认设置。实验在NVIDIA V100 GPU上进行。

定性比较

下图5展示了DragGAN和StableDrag-GAN、DragDiffusion和StableDrag-Diff、FreeDrag-Diff和StableDrag-Diff之间的定性结果，以进行公平比较。

为了评估方法的通用性，对于基于GAN的模型，输入图像是从StyleGAN2生成的。而对于基于扩散的模型，我们输入真实图像并使用DDIM反演来重建它们。可以看出，我们的方法可以更精确地将控制点移动到目标点，如山顶、狮子的下巴、鹿的前额和小灯。

此外，我们的StableDrag可以生成更高质量和更高保真度的编辑结果，例如保持包、眼镜、马和秦始皇兵马俑雕塑的外观。还将我们的StableDrag-Diff与基于扩散模型的FreeDrag进行了比较。可以看出，我们的Diff产生了更精确的结果，并保持了初始图像的细节。这证明了所提出的判别式点跟踪和自信的运动监督的有效性，能够实现更稳定的拖拽性能。

定量结果

在DragBench 上对我们的方法进行定量评估，其中包括205个样本，具有预定义的拖动点和mask。注意到，在DragBench中，有许多例子与适当的StyleGAN2模型不兼容，因此我们只对DragDiffusion和我们的Diff模型进行实验。

将StableDrag-Diff与DragDiffusion进行比较，并使用相同的LoRA权重和通用超参数进行公平比较。如下表1所示，在三种不同的优化步骤设置下，StableDrag-Diff始终优于DragDiffusion，特别是在60步优化下，Mean Distance得分超过基线3.22，Image Fidelity得分超过基线0.017。