BrushEdit: All-In-OneImage Inpainting and Editing——一体化图像修复与编辑-CSDN博客

本文链接：https://blog.csdn.net/Together_CZ/article/details/144576027

这篇文章介绍了一种名为BrushEdit的图像编辑框架，旨在通过结合多模态大语言模型（MLLMs）和图像修复模型，实现高效、用户友好的自由形式指令引导图像编辑。以下是文章的主要内容总结：

1. 背景与问题

图像编辑的挑战：现有的基于反演的方法在处理大规模修改（如添加或移除对象）时存在困难，而基于指令的方法通常限制了用户的交互能力。
目标：提出一种新的编辑范式，克服推理效率、数据管理、可编辑性和可控性方面的挑战。

2. BrushEdit框架

核心思想：通过MLLMs和图像修复模型的结合，实现自由形式的指令引导编辑。
主要步骤：
1. 编辑类别分类：确定编辑类型（如添加、移除、局部编辑、背景编辑）。
2. 主要对象识别：识别要编辑的主要对象。
3. 掩码获取和目标描述生成：生成编辑掩码和目标描述。
4. 图像修复：使用双分支修复模型进行图像编辑。

3. 技术细节

MLLMs的作用：解释用户指令，分类编辑类型，识别目标对象，生成编辑掩码和目标描述。
双分支修复模型：通过混合微调策略处理随机和分割掩码，确保模型能够处理任意掩码形状。
灵活控制：支持即插即用集成、保留比例调整和模糊混合定制，提供细粒度的编辑控制。

4. 实验与评估

基准测试：在PIE-Bench、_BrushBench_和EditBench上进行评估，结果表明_BrushEdit_在背景保留和文本对齐方面表现卓越。
定量和定性比较：与现有方法相比，_BrushEdit_在编辑和修复任务中均表现出色，特别是在处理大规模结构变化和复杂掩码时。
消融研究：验证了双分支设计和冻结基础模型的有效性。

5. 结论与未来工作

结论：_BrushEdit_通过结合MLLMs和图像修复模型，实现了高效、灵活且用户友好的图像编辑。
局限性：生成质量和内容依赖于基础模型，掩码形状和文本对齐仍需改进。
未来工作：解决当前局限性，并探索负责任的使用和道德指南。

6. 社会影响

潜在风险：图像修复模型可能放大社会偏见并生成误导性内容。
应对措施：负责任的使用和建立道德指南。

BrushEdit通过结合MLLMs和图像修复模型，提供了一种高效、灵活且用户友好的图像编辑框架，解决了现有方法在推理效率、可编辑性和可控性方面的局限性，并在多个基准测试中表现出色。

这里是自己的论文阅读记录，感兴趣的话可以参考一下，如果需要阅读原文的话可以看这里，如下所示：

官方项目主页地址在这里，如下所示：

官方项目地址在这里，如下所示：

摘要

随着基于扩散模型的图像编辑技术的发展，基于反演和基于指令的方法都取得了显著进展。然而，当前的反演方法在处理大规模修改（例如添加或移除对象）时存在困难，因为反演噪声的结构化特性阻碍了实质性的变化。同时，基于指令的方法通常将用户限制在黑箱操作中，限制了用户直接指定编辑区域和强度的交互能力。为了解决这些局限性，我们提出了BrushEdit，一种新颖的基于修复的指令引导图像编辑范式，该范式利用多模态大语言模型（MLLMs）和图像修复模型，实现了自主、用户友好且交互式的自由形式指令编辑。具体而言，我们设计了一个系统，通过在代理协作框架中集成MLLMs和双分支图像修复模型，执行编辑类别分类、主要对象识别、掩码获取和编辑区域修复。大量实验表明，我们的框架有效结合了MLLMs和修复模型，在七个指标上实现了卓越的性能，包括掩码区域保留和编辑效果的一致性。

关键词：图像编辑，图像修复，多模态大语言模型

I 引言

扩散模型的快速发展显著推动了文本引导的图像生成[1, 2, 3, 4]，提供了卓越的质量[5]、多样性[6]和与文本指导的对齐[7]。然而，在基于源图像和编辑指令生成目标图像的图像编辑任务中，这一进展仍然有限，主要是因为收集大量配对数据具有挑战性。

为了基于扩散生成模型进行图像编辑，先前的研究主要集中在两种策略上：（1）基于反演的编辑：该方法利用从反演中获得的噪声潜在的结构信息，在未编辑区域保留内容，同时在编辑区域操纵潜在以实现所需的修改[8, 9, 10, 11]。尽管这种方法有效地保持了整体图像结构，但由于多次扩散采样过程，通常耗时较长。此外，隐式反演条件显著限制了可编辑性，使得大规模编辑（例如背景替换）和结构变化（例如添加或移除对象）变得困难[12]。此外，这些方法通常要求用户提供精确且高质量的源图像和目标图像描述，以利用条件生成模型的先验来保留背景并改变前景。然而，在实际场景中，用户通常希望通过简单的编辑指令实现目标区域的修改。（2）基于指令的编辑：该策略涉及收集“源图像-指令-目标图像”配对数据，并对扩散模型进行微调以执行编辑任务[13, 14, 15, 16]。由于手动编辑配对数据的获取困难，训练数据集通常使用多模态大语言模型（MLLMs）和基于反演的图像编辑方法生成（例如Prompt-to-Prompt[8]和Masacrti[9]）。然而，这些无训练方法的成功率和质量不稳定[11]，导致数据集噪声大且不可靠，从而导致训练模型的性能不佳。此外，这些方法通常使用黑箱编辑过程，阻止用户交互控制和细化编辑[17]。

鉴于这些局限性，我们提出了一个问题：我们能否开发另一种编辑范式，克服推理效率、可扩展数据管理、可编辑性和可控性方面的挑战？多模态大语言模型（MLLMs）[18, 19, 20, 21]的卓越图像-文本理解能力，结合图像修复模型[22, 23]的出色背景保留和文本对齐前景生成能力，启发我们提出了_BrushEdit_。_BrushEdit_是一种基于代理的、自由形式的、交互式框架，用于基于修复的指令引导图像编辑，突出了结合语言理解和图像生成能力以实现自由形式、高质量的交互式自然语言指令图像编辑的潜力。该框架要求用户仅输入自然语言编辑指令，并支持高效的任意轮次交互式编辑，允许调整编辑类型和强度。

我们的方法包括四个主要步骤：（i）编辑类别分类：确定所需的编辑类型。（ii）主要编辑对象识别：识别要编辑的主要对象。（iii）获取编辑掩码和目标描述：生成编辑掩码和相应的目标描述。（iv）图像修复：执行实际的图像编辑。步骤（i）至（iii）利用预训练的MLLMs[20, 21]和检测模型[24]来确定编辑类型、目标对象、编辑掩码和目标描述。步骤（iv）涉及使用双分支修复模型BrushNet进行图像编辑，如我们之前的会议论文中所述。该模型根据目标描述和编辑掩码对目标区域进行修复，利用修复模型的生成潜力和背景保留能力。该框架使步骤（i）至（iii）能够通过MLLMs提取和总结指令信息，为后续的扩散模型提供清晰的中间交互指导。同时，步骤（iv）最大化修复模型保留背景和生成前景内容的能力。用户可以在步骤（i）至（iv）中交互修改中间控制信息（例如编辑掩码或编辑图像的描述），并迭代执行这些步骤，直到获得满意的编辑结果。

图1：_BrushEdit_可以实现任意掩码形状的一体化修复，而无需为每种掩码类型单独训练模型。这种处理任意形状的灵活性也增强了用户驱动的编辑，因为用户提供的掩码通常结合了基于分割的结构细节和随机掩码噪声。通过支持任意掩码形状，_BrushEdit_避免了随机掩码版本的BrushNet-Ran引入的伪影和基于分割掩码版本的BrushNet-Seg对边界形状的强依赖性导致的边缘不一致性。

II 相关工作

图像编辑

图像编辑涉及修改对象的形状、颜色、姿势、材质以及添加或移除对象[34]。最近，扩散模型[1, 2]的进展显著改善了视觉生成任务，在图像编辑方面超越了基于GAN的模型[35, 36, 37]。为了实现可控和引导的编辑，各种方法利用了文本指令[6, 13, 14]、掩码[15, 23, 38]、布局[8, 9, 39]、分割图[40, 41]和点拖动界面[42, 43]等模态。然而，这些方法通常在处理大规模结构编辑时遇到困难，因为噪声潜在反演的结构信息过于强大，或者依赖于稀缺的高质量“源图像-目标图像-编辑指令”配对数据。此外，它们通常要求用户以黑箱方式操作，需要精确的输入（如掩码、文本或布局），限制了内容创作者的可用性。这些挑战阻碍了自由形式、交互式自然语言编辑系统的发展。

许多基于多模态大语言模型（MLLM）的方法利用先进的视觉和语言理解能力进行图像编辑[15, 16, 17, 25, 44]。MGIE通过生成更详细和富有表现力的提示来改进基于指令的编辑。SmartEdit增强了复杂指令的理解和推理能力。FlexEdit集成了MLLMs来处理图像内容、掩码和文本输入。GenArtist采用MLLM代理来分解复杂任务，指导工具选择，并系统地执行图像编辑、生成和自我校正，并通过迭代验证。然而，这些方法通常涉及昂贵的MLLM微调，仅限于单轮黑箱编辑，或面临这两种挑战。

最近的MagicQuill[17]使用涂鸦和颜色在区域级别实现对形状和颜色的精细控制，利用微调的MLLM从用户输入中推断编辑选项。虽然它提供了精确的交互控制，但它需要劳动密集型的笔触来定义区域，并产生显著的训练成本来微调MLLMs。相比之下，我们的方法仅依赖于自然语言指令（例如“从狗的嘴里移除玫瑰”或“将盘子上的饺子转换为寿司”），并在无训练的代理协作框架中集成了MLLMs、检测模型和我们的双分支修复模型。我们的框架还支持多轮细化，用户可以迭代调整生成的编辑掩码和目标图像描述，以实现多轮交互。如表I总结，我们的_BrushEdit_通过基于指令的、多轮交互的、即插即用的设计，克服了当前编辑方法的局限性，实现了未掩码区域的灵活保留，并确立了自己作为多功能编辑解决方案的地位。

图像修复

图像修复仍然是计算机视觉中的一个关键挑战，重点是使用真实且连贯的内容重建掩码区域[45, 46]。传统方法[47, 48]和早期的变分自编码器（VAE）[49, 50]或生成对抗网络（GAN）[35, 36, 37]方法通常依赖于手工特征，导致结果有限。

最近，基于扩散的模型[26, 27, 28, 51, 52, 53]因其卓越的生成质量、精确控制和多样化的输出[54, 1, 5]而受到关注。早期的文本引导修复方法[26, 27, 51, 53, 55, 56, 57]，如Blended Latent Diffusion，通过使用预训练模型对掩码区域进行采样并保留输入图像的未掩码区域来修改去噪过程。尽管它们在工具（如Diffusers[58]）中很受欢迎，但这些方法在处理复杂掩码、内容或提示时表现不佳，通常由于对掩码边界和周围区域上下文理解的局限性而产生不一致的输出。为了克服这些缺点，最近的工作[29, 28, 31, 59, 60, 61, 32, 6]对基础模型进行了微调，以增强内容和形状感知。例如，SmartBrush[28]集成了对象掩码预测以实现更好的采样，而Stable Diffusion Inpainting[5]通过UNet架构处理掩码、掩码图像和噪声潜在，以优化修复。此外，HD-Painter[30]和PowerPaint[29]提高了这些模型的高质量和多任务功能。

然而，许多方法难以将修复能力推广到任意预训练模型。一个突出的努力是微调ControlNet[33]以处理修复配对，但其设计在感知理解方面仍然有限，导致结果不佳。如表I总结，我们的_BrushEdit_通过内容感知、形状感知和即插即用的设计解决了这些问题，允许灵活保留未掩码区域。在此基础上，_BrushEdit_统一了随机和分割掩码的训练，使单个模型能够无缝处理任意掩码，提升了其作为多功能修复解决方案的角色。

III 预备知识和动机

在本节中，我们首先在第III-A节中介绍扩散模型。然后，第III-B节将回顾基于采样策略修改和特殊训练的先前修复技术。最后，第III-D节概述了动机。

扩散模型

图2：**模型概述。**我们的模型根据掩码和掩码图像输入输出修复后的图像。首先，我们将掩码下采样以适应潜在的大小，并将掩码图像输入VAE编码器以对齐潜在空间的分布。然后，噪声潜在、掩码图像潜在和下采样掩码连接作为_BrushEdit_的输入。从_BrushEdit_提取的特征通过零卷积块[33]逐层添加到预训练的UNet中。去噪后，生成的图像和掩码图像通过模糊掩码进行混合。

IV 方法

_BrushEdit_的概述如图2所示。我们的框架通过代理协作将MLLMs与双分支图像修复模型集成，实现了自由形式、多轮交互式指令编辑。具体而言，预训练的MLLM作为编辑指导者，解释用户的自由形式编辑指令，识别编辑类型、定位目标对象、检索编辑区域的检测结果并生成编辑图像的文本描述。在指导下，修复模型作为编辑指挥者，根据目标文本描述填充掩码区域。该迭代过程允许用户在任何阶段修改或细化中间控制输入，支持灵活且交互式的指令编辑。

编辑指导者

在_BrushEdit_中，我们使用MLLM作为编辑指导者，解释用户的自由形式编辑指令，将其分类为预定义的类型（添加、移除、局部编辑、背景编辑），识别目标对象，并利用预训练的检测模型找到相关的编辑掩码。最后，生成编辑图像的描述。在下一阶段，这些信息被打包并发送到编辑系统，使用图像修复方法完成任务。

编辑指挥者

我们的编辑指挥者基于之前的BrushNet，采用混合微调策略，使用随机和分割掩码。这种方法使修复模型能够处理多样化的基于掩码的修复任务，而不会受到掩码类型的限制，从而实现相当的或更优的性能。具体而言，我们通过额外的控制分支将掩码图像特征注入预训练的扩散网络（例如Stable Diffusion 1.5）。这些特征包括通过VAE提取的掩码图像潜在，以指导提示前景与真实背景之间的语义一致性，以及通过三次插值下采样的掩码，以明确指示前景填充区域的位置和边界。

为了保留掩码图像特征，_BrushEdit_采用了一个预训练的扩散模型的副本，去除了所有注意力层。预训练的卷积权重作为提取掩码图像特征的强大先验，而排除交叉注意力层确保分支仅关注纯背景信息。_BrushEdit_特征逐层集成到冻结的扩散模型中，实现分层、密集的逐像素控制。根据ControlNet[33]，使用零卷积层将冻结模型与可训练的_BrushEdit_连接，减轻早期训练阶段的噪声。特征插入操作定义在公式5中：

先前的研究表明，潜在混合过程中的下采样可能引入不准确性，VAE编码-解码过程固有的局限性会损害完整图像的重建。为了确保未掩码区域的一致重建，先前的研究探索了各种策略。一些方法[29, 31]依赖于复制粘贴技术直接传输未掩码区域，但这些方法通常导致输出缺乏语义一致性。受BLD[27, 5]启发的潜在混合方法也难以有效保留未掩码区域中的所需信息。在本工作中，我们提出了一种简单的像素空间方法，在复制粘贴之前应用掩码模糊。虽然这可能会略微影响掩码边界附近的准确性，但误差几乎不可察觉，并显著提高了边界一致性。

_BrushEdit_的架构设计为与各种预训练扩散模型无缝即插即用集成，实现灵活的保留控制。具体而言，_BrushEdit_的灵活功能包括：（1）即插即用集成：由于_BrushEdit_不修改预训练扩散模型的权重，它可以轻松与任何社区微调模型集成，促进易于采用和实验。（2）保留比例调整：未掩码区域的保留比例可以通过权重w将_BrushEdit_特征集成到冻结的扩散模型中进行控制，调整_BrushEdit_对保留水平的影响。（3）模糊和混合定制：保留比例可以通过调整模糊比例和应用混合操作进一步细化。这些功能提供了对编辑过程的细粒度和灵活控制。

V 实验

评估基准和指标

V-Aa 基准

为了全面评估_BrushEdit_的性能，我们在图像编辑和图像修复基准上进行了实验：

*图像编辑。我们使用PIE-Bench[11]（Prompt-based Image Editing Benchmark）评估_BrushEdit_和所有基线在图像编辑任务上的表现。PIE-Bench包含700张图像，涵盖10种编辑类型，均匀分布在自然和人工场景（例如绘画）中，分为动物、人类、室内和室外四个类别。每张图像包含五个注释：源图像提示、目标图像提示、编辑指令、主要编辑主体和编辑掩码。
*图像修复。扩展我们之前的会议工作，我们用_BrushBench_替换传统的基准[81, 82, 83, 84, 85, 86]，用于基于分割的掩码，以及用于随机笔刷掩码的EditBench。这些基准涵盖人类、动物以及室内和室外场景的真实和生成图像。EditBench包含240张图像，自然和生成内容各占一半，每张图像都带有掩码和描述。_BrushBench_如图3所示，包含600张图像，带有人类注释的掩码和描述，均匀分布在自然和人工场景（例如绘画）中，涵盖人类、动物以及室内/室外环境等各种类别。

图3. 基准概述。I和II分别展示了自然和人工图像、掩码以及BrushBench的描述。(a)至(d)展示了人类、动物、室内场景和室外场景的图像。每组图像展示了原始图像、内部修复掩码和外部修复掩码，顶部附有图像描述。III展示了来自EditBench [32]的图像、掩码和描述，其中(e)为生成图像，(f)为自然图像。这些图像是从两个基准中随机选择的

我们将任务细化为基于分割掩码修复的两个场景：内部修复和外部修复，以实现对不同图像区域性能的详细评估。

**值得注意的是，_BrushEdit_通过利用统一的高质量修复掩码图像进行训练，超越了BrushNet，使其能够处理所有掩码类型。**这确立了_BrushEdit_作为能够执行所有修复和编辑基准任务的统一模型，而BrushNet需要为每种掩码类型分别进行微调和测试。

数据集。基于我们之前会议版本中提出的_BrushData_，我们集成了两个基于分割掩码和随机掩码的子集，并进一步扩展了Laion-Aesthetic[87]数据集的数据，形成了_BrushData-v2_。一个关键的区别是，我们选择了背景干净的图像，并将它们随机与分割或随机掩码配对，有效地创建了模拟基于删除的编辑的配对，显著增强了我们在图像编辑中的删除能力。数据扩展过程如下：我们使用Grounded-SAM[88]注释开放世界的掩码，然后根据置信度分数进行过滤，仅保留置信度较高的掩码。我们还考虑了掩码大小和连续性进行过滤。

指标。我们评估了五个指标，重点关注未编辑/未修复区域的保留和编辑/修复区域的文本对齐。此外，我们进行了广泛的用户研究，以验证_BrushEdit_在编辑指令对齐和背景保真度方面的卓越性能。

*背景保真度。我们采用标准指标，包括峰值信噪比（PSNR）[89]、学习感知图像块相似性（LPIPS）[90]、均方误差（MSE）[91]和结构相似性指数测量（SSIM）[92]，评估生成图像和原始图像未掩码区域之间的一致性。
*文本对齐。我们使用CLIP相似性（CLIP Sim）[93]通过将文本和图像投影到CLIP模型[94]的共享嵌入空间中，并测量其表示的相似性，来评估文本-图像一致性。

实现细节

除非另有说明，我们在一致的设置下评估各种修复方法，使用NVIDIA Tesla V100 GPU和其开源代码，以Stable Diffusion v1.5为基础模型，50步，指导比例为7.5。每种方法在所有图像上使用其推荐的超参数，以确保公平性。_BrushEdit_和所有消融模型在8个NVIDIA Tesla V100 GPU上训练430k步，大约需要3天。值得注意的是，对于所有图像编辑（PnPBench）和图像修复（_BrushBench_和EditBench）任务，_BrushEdit_使用单个模型在_BrushData-v2_上进行训练，实现了统一的图像编辑和修复。相比之下，我们之前的BrushNet需要为不同掩码类型分别进行训练和测试。更多细节见提供的代码。

定量比较（图像编辑）

表II和表III比较了在PIE-Bench[11]上的定量图像编辑性能。我们评估了先前基于反演方法的编辑结果，包括四种反演技术——DDIM反演[2]、Null-Text反演[95]、Negative-Prompt反演[96]和StyleDiffusion[97]——以及四种编辑方法：Prompt-to-Prompt[8]、MassCtrl[9]、pix2pix-zero[65]和Plug-and-Play[66]。

表II的结果证实了_BrushEdit_在保留未编辑区域和确保编辑区域准确文本对齐方面的优越性。尽管基于反演的方法（如DDIM反演（DDIM）[2]和PnP反演（PnP）[11]）可以实现高质量的背景保留，但它们固有地受到重建误差的影响，这些误差会影响背景保留。相比之下，_BrushEdit_通过专用分支分别建模未编辑的背景信息，而主网络根据文本提示生成编辑区域。结合预定义的用户掩码和混合操作，它确保了几乎无损的背景保留和语义一致的编辑。

更重要的是，我们的方法保留了高保真的背景信息，而不会受到基于反演方法中不可恢复的结构噪声的影响。它允许操作（如添加或移除对象），这些操作通常在基于反演的编辑中是不可能的。此外，由于不需要反演，_BrushEdit_只需一次前向传递即可执行编辑操作。如表III所示，_BrushEdit_的编辑时间显著缩短，大大提高了图像编辑的效率。

图4. 在自然和合成图像上比较先前的编辑方法和BrushEdit，涵盖了图像编辑操作，如移除对象（I）、添加对象（II）、修改属性（III）和交换对象（IV）。

定性比较（图像编辑）

图4展示了与先前图像编辑方法的定性比较。我们在人工和自然图像上展示了各种编辑任务的结果，包括删除对象（I）、添加对象（II）、修改对象（III）和交换对象（IV）。_BrushEdit_在编辑和未编辑区域之间始终实现了卓越的一致性，在遵循编辑指令、编辑掩码边界的平滑度和整体内容一致性方面表现出色。值得注意的是，图4 I和II涉及删除花朵或笔记本电脑，以及添加衣领或耳环等任务。

尽管先前的方法由于反演噪声导致的持续结构伪影而未能提供令人满意的结果，_BrushEdit_成功执行了预期操作，并生成了与背景和谐融合的无缝编辑，这得益于其双分支解耦的基于修复的编辑范式。

定量比较（图像修复）

表IV和表V展示了在_BrushBench_和EditBench[32]上的定量比较。我们评估了采样策略修改方法Blended Latent Diffusion[27]的修复结果，以及基于Stable Diffusion Inpainting[5]的HD-Painter[30]和PowerPaint[29]，以及在修复数据上微调的即插即用方法ControlNet[33]，以及我们之前的BrushNet1。

结果证实了_BrushEdit_在保留未修复区域和确保修复区域准确文本对齐方面的优越性。Blended Latent Diffusion[27]表现最差，主要是因为掩码和未掩码区域之间的过渡不连贯，源于其忽视掩码边界和混合导致的潜在空间损失。HD-Painter[30]和PowerPaint[29]在内部修复任务上与其基础模型表现相似。然而，它们在外部修复任务上的性能急剧下降，因为它们专为内部修复设计。ControlNet[33]明确为修复训练，与我们最可比的实验设置。然而，其设计与修复任务的不匹配阻碍了其保持掩码区域保真度和文本对齐的能力，需要与Blended Latent Diffusion[27]集成以获得合理的结果。即使如此，它仍不及专门的修复模型和_BrushEdit_。EditBench上的性能与_BrushBench_上的性能高度一致，两者都展示了_BrushEdit_的卓越结果。这表明我们的方法在各种修复任务（包括分割、随机、内部和外部修复掩码）中表现一致。

值得注意的是，与BrushNet相比，_BrushEdit_现在在基于分割掩码和随机掩码的基准上均超越了BrushNet，使用单个模型实现了更通用和鲁棒的一体化修复。这一改进主要归功于我们统一的掩码类型和_BrushData-v2_中更丰富的数据分布。

定性比较（图像修复）

图5展示了与先前图像修复方法的定性比较。我们在人工和自然图像上评估了各种修复任务的结果，包括随机掩码修复和分割掩码修复。_BrushEdit_在生成和未掩码区域之间始终实现了卓越的内容和颜色一致性（I，II）。值得注意的是，在图5 II（左）中，任务涉及生成猫和金鱼。尽管所有先前的方法未能识别掩码图像中已有的金鱼，而是生成了额外的鱼，_BrushEdit_准确地整合了背景上下文，这得益于其双分支解耦设计。此外，_BrushEdit_在整体修复性能上超越了我们之前的BrushNet，无需为特定掩码类型进行微调，在随机和基于分割的掩码上实现了可比甚至更好的结果。

灵活控制能力

图6和图7展示了_BrushEdit_在两个关键领域的灵活控制：基础扩散模型选择和比例调整。这种灵活性不仅限于修复，还扩展到图像编辑，通过改变骨干网络的生成先验和分支信息注入强度实现。在图6中，我们展示了_BrushEdit_如何与各种社区微调的扩散模型结合，使用户能够选择最适合其特定编辑或修复需求的模型。这大大增强了_BrushEdit_的实际价值。图7展示了_BrushEdit_比例参数的控制，允许用户在编辑或修复过程中调整未掩码区域保护的程度，提供细粒度的控制以实现精确和可定制的结果。

图5. BrushEdit与先前图像修复方法在各种修复任务中的性能比较：(I) 随机掩码修复，(II) 分割掩码修复。每组结果包含7种修复方法：(b) Blended Latent Diffusion (BLD) [27]，(c) Stable Diffusion Inpainting (SDI) [5]，(d) HD-Painter (HDP) [30]，(e) PowerPaint (PP) [29]，(f) ControlNet-Inpainting (CNI) [33]，(g) 我们之前的BrushNet，以及(h) 我们的方法。

图6. 将BrushEdit与社区微调的扩散模型集成。我们使用了五种从稳定扩散v1.5微调的流行社区扩散模型：DreamShaper (DS) [99]，epiCRealism (ER) [100]，Henmix Real (HR) [101]，MeinaMix (MM) [102]，以及Realistic Vision (RV) [103]。MM专门设计用于动漫图像。

消融研究

我们进行了消融研究，以检查不同模型设计对图像修复任务的影响。由于_BrushEdit_基于图像修复模型，编辑任务通过将MLLMs、_BrushEdit_和图像检测模型作为代理进行推理实现。修复能力直接反映了我们模型的训练结果。表VI比较了双分支和单分支设计，而表VII突出了额外分支架构的消融研究。

消融研究在_BrushBench_上进行，平均了内部修复和外部修复的性能。表VI的结果显示，双分支设计显著优于单分支设计。此外，在双分支设置中微调基础扩散模型比冻结它产生更好的结果。然而，微调可能会限制模型的灵活性和控制。考虑到性能和灵活性之间的权衡，我们选择了冻结的双分支设计。表VII解释了关键设计选择的理由：（1）使用VAE编码器而不是随机初始化的卷积层处理掩码图像，（2）将完整的UNet特征逐层集成到预训练的UNet中，（3）在_BrushEdit_中去除文本交叉注意力，以防止掩码图像特征受到文本的影响。

图7. BrushEdit的灵活控制比例。(a) 展示了给定的掩码图像，(b)-(h) 展示了控制比例w从1.0到0.2的变化。结果显示，从精确到粗略控制，可控能力逐渐减弱。

VI 讨论

结论

本文介绍了一种新颖的基于修复的指令引导图像编辑范式（IIIE），该范式结合了大语言模型（LLMs）和即插即用的一体化图像修复模型，实现了自主、用户友好且交互式的自由形式指令编辑。在PIE-Bench、我们提出的基准_BrushBench_和EditBench上的定量和定性结果表明，_BrushEdit_在图像编辑和修复任务中的掩码背景保留和图像-文本对齐方面表现卓越。