【AIGC】2024-arXiv-BrushNet：一种具有分解双分支扩散的即插即用图像修复模型

本文链接：https://blog.csdn.net/weixin_42475026/article/details/143368267

2024-arXiv-BrushNet: A Plug-and-Play Image Inpainting Model with Decomposed Dual-Branch Diffusion

BrushNet：一种具有分解双分支扩散的即插即用图像修复模型

BrushNet：一种具有分解双分支扩散的即插即用图像修复模型

作者：Xuan Ju, Xian Liu, Xintao Wang, Yuxuan Bian, Ying Shan, and Qiang Xu
单位：ARC Lab, Tencent PCG, The Chinese University of Hong Kong
论文地址：https://arxiv.org/abs/2403.06976

图 1

**图 1：BrushNet 与之前的图像修复方法在不同修复任务上的性能比较**：（I）Random Mask（< 50% 掩码），（II）Random Mask（> 50% 掩码），（III）Segmentation Mask Inside-Inpainting，（IV）Seg- mentation Mask Outside-Inpainting。每组结果包含一幅人工图像（左）和一幅自然图像（右），采用 6 种修复方法：（b）Blended Latent Diffu- sion（BLD）[1]，（c）Stable Diffusion Inpainting（SDI）[33]，（d）HD-Painter（HDP）[25]，（e）PowerPaint（PP）[56]，（f）ControlNet-Inpainting（CNI）[51]，和（g）我们的。

摘要

图像修复是恢复损坏图像的过程，随着扩散模型（DM）的出现，该过程取得了重大进展。尽管取得了这些进展，但当前针对修复的 DM 改编（涉及对采样策略的修改或开发特定于修复的 DM）经常遭受语义不一致和图像质量下降的影响。为了应对这些挑战，我们的工作引入了一种新颖的范式：将掩码图像特征和嘈杂的潜在特征划分为单独的分支。这种划分大大减少了模型的学习负担，有助于以分层方式细致入微地整合必要的掩码图像信息。在此，我们提出了 BrushNet，这是一种新颖的即插即用双分支模型，旨在将像素级掩码图像特征嵌入到任何预训练的 DM 中，从而保证连贯且增强的图像修复结果。此外，我们引入了 BrushData 和 BrushBench 来促进基于分割的修复训练和性能评估。我们广泛的实验分析表明，BrushNet 在七个关键指标（包括图像质量、掩码区域保留和文本连贯性）方面优于现有模型。
关键词：图像修复·扩散模型·图像生成

1. 引言

图像修复 [45] 旨在恢复图像的缺失区域，同时保持整体的连贯性。作为一个长期存在的计算机视觉问题，它促进了许多应用，如虚拟试穿 [18] 和图像编辑 [15]。最近，扩散模型 [12, 36] 在图像生成中表现出色，能够通过语义和结构条件实现灵活的用户控制 [33, 51]。为此，研究人员采用基于扩散的管道来实现与给定文本提示一致的高质量图像修复。

常用的基于扩散的文本引导修复方法大致可分为两类：（1）采样策略修改 [1, 2, 6, 20, 23, 47, 50]，它通过从预先训练的扩散模型中采样掩码区域来修改标准去噪过程，并且在每个去噪步骤中简单地从给定图像中复制粘贴未掩码的区域。虽然它们可以用于任意扩散主干，但由于对掩模边界和未掩模图像区域上下文的感知知识有限，因此修复结果不连贯。（2）专用修复模型 [4, 33, 37, 42, 43, 46, 49, 56]，通过扩展基础扩散模型的输入通道维度来微调专门设计的图像修复模型，以合并提供的损坏图像和掩模。虽然它们使扩散模型能够通过专门的内容感知和形状感知模型生成更令人满意的结果，但我们认为，这种架构是否最适合基于扩散的修复？

如图 2 所示，专用修复模型在早期阶段融合了噪声潜在特征、掩码图像潜在特征、掩码和文本。这种架构设计使得掩码图像特征容易受到文本嵌入的影响，从而防止 UNet 中的后续层因文本影响而获得纯掩码图像特征。此外，在单个分支中处理条件和生成会给 UNet 框架带来额外的负担。这些方法还需要在不同版本的扩散主干中进行微调，这可能非常耗时，并且可迁移性有限。

图 2

**图 2：之前的修复架构与 BrushNet 的比较。**

添加一个专门用于掩码图像特征提取的额外分支可能是解决上述问题的一种有前途的方法。然而，现有的解决方案（如 ControlNet [51]）在直接应用于修复时会导致信息提取和插入不足，这源于可控图像生成和修复之间的差异：修复需要具有强限制信息的像素到像素约束，而不是依赖文本进行内容完成的稀疏结构控制。因此，与专用修复模型相比，ControlNet 产生的结果并不令人满意。

为了解决这个问题，我们提出了 BrushNet，它在扩散框架中引入了一个额外的分支，从而创建了一个更适合图像修复的架构。具体来说，我们的设计包括三个方面：（1）为了改进图像特征的提取以适应 UNet 分布，我们使用 VAE 编码器来处理掩码图像，而不是随机初始化的卷积层。（2）为了实现密集的每像素控制，我们采用分层方法，将完整的 UNet 特征逐层逐渐合并到预训练的 UNet 中。（3）为了确保在附加分支中考虑纯图像信息，我们从 UNet 中删除了文本交叉注意力。这种设计进一步为修复过程提供了即插即用功能和灵活的未掩码区域可控性。为了获得更好的一致性和更大范围的未掩码区域可控性，我们还提出了一种模糊混合策略。

为了确保对实际应用进行全面评估，我们根据掩码形状将修复任务分为两种不同类型：随机画笔掩码和基于分割的掩码。我们使用 EditBench [37] 作为随机画笔掩码修复的比较基准。此外，我们引入了新的训练数据集 BrushData 和新的基准 BrushBench，用于训练和评估基于分割的掩码修复。结果表明，Brush-Net 在 7 个指标（包括图像质量、掩码区域保留和文本对齐）方面实现了最佳性能。

2. 相关工作

图像修复是计算机视觉领域的经典问题，旨在用可信且自然的内容恢复图像的掩码区域 [29, 45]。以前基于传统技术 [3, 7]、变分自动编码器（VAE）[27, 54] 和生成对抗网络（GAN）[21, 53, 55] 的方法通常需要辅助手工设计的特征，但效果不佳。最近，基于扩散的方法 [1, 2, 20, 23, 31, 42] 因其令人印象深刻的高质量生成、细粒度控制和输出多样性而广受欢迎 [12, 13, 33]。

最初尝试利用扩散模型进行文本引导修复 [1, 2, 6, 20, 23, 47, 50]，例如混合潜在扩散，通过从预先训练的扩散模型中对掩码区域进行采样，从给定图像中对未掩码区域进行采样，修改了标准去噪策略，这通常用作广泛使用的图像生成库（如扩散器 [28]）的默认修复选择。虽然这些方法在简单的图像修复任务中显示出令人满意的结果，并且可以即插即用到任何扩散模型，但它们难以处理复杂的掩模形状、图像内容和文本提示，导致结果缺乏连贯性。这主要归因于他们对掩模边界和未掩码图像区域上下文的感知知识有限。

以前的研究 [4, 33, 37, 42, 43, 46, 49, 56] 通过将基础模型微调为专为图像修复设计的内容感知和形状感知模型来解决此问题。具体来说，SmartBrush [42] 通过对象掩码预测增强了扩散 U-Net，从而利用掩码边界信息指导采样过程。稳定扩散修复 [33] 对专为修复任务设计的扩散模型进行微调，将掩码、掩码图像和噪声潜在值作为 UNet 架构的输入。HD-Painter [25] 和 PowerPaint [56] 建立在稳定扩散修复的基础上，分别增强了生成质量并使模型能够执行多项任务。

然而，这些方法很难有效地将其修复能力迁移到任意预训练模型，从而限制了它们的适用性。为了使任何扩散模型都具有修复能力，社区对 ControlNet [51] 进行了微调，使其能够修复图像对。然而，ControlNet 的模型设计在对掩码和掩码图像的感知理解方面存在局限性，因此导致结果不尽人意。与以前的方法（如表 1 所示）相比，BrushNet 是即插即用的、内容感知的、形状感知的，对未掩码区域的保留程度灵活。

表 2

**表 1：BrushNet 与之前图像修复方法的比较**。BrushNet 的优势在于可以与任何预训练扩散模型即插即用。此外，它允许灵活控制修复规模，并且设计为同时了解掩码形状和未掩码内容。请注意，我们在此表中仅列出常用的文本引导扩散方法。

3. 准备工作和动机

在本节中，我们将首先在第 3.1 节中介绍扩散模型。然后，第 3.2 节将回顾以前基于采样策略修改和特殊训练的修复技术。最后，在第 3.3 节中概述了动机。

3.1 扩散模型

扩散模型包括一个前向过程，该过程添加高斯噪声 $\epsilon$ ，将干净样本 $z_0$ 转换为噪声样本 $z_T$ ，以及一个后向过程，该过程迭代地从 $z_T$ 到 $z_0$ 进行去噪，其中 $\epsilon\sim \mathcal{N}\left(0,\ 1\right)$ ， $T$ 表示总时间步数。前向过程可以表述为：

公式 1

$z_t$ 是第 $t$ 步的噪声特征， $t\sim[1,\ T]$ ， $\alpha$ 是超参数。

在后向过程中，给定从随机高斯分布中采样的输入噪声 $z_T$ ，可学习网络 $\epsilon_{\theta}$ 在 $C$ 条件下估计每一步 $t$ 的噪声。经过 $T$ 次逐步细化迭代后，得出 $z_0$ 作为输出样本：

公式 2

扩散模型的训练围绕优化去噪网络 $\epsilon_{\theta}$ 进行，以条件 $C$ 进行去噪，目标是：

公式 3

3.2 先前的修复模型

采样策略修改。这一系列研究通过逐渐将掩码图像与生成结果混合来实现修复。其中最常用的方法是 Blended Latent Diffusion（BLD）[1]，它是广泛使用的基于扩散的图像生成库（例如，Diffusers [28]）中修复的默认选择。给定一个二元掩码 $m$ 和一个掩码图像 $x^{masked}_0$ ，BLD 首先使用 VAE 提取掩码图像的潜在表示 $z^{masked}_0$ 。随后，将掩码 $m$ 的大小调整为 $m^{resized}$ 以匹配潜在表示的大小。为了制定修复过程，BLD 在 $T$ 步中将高斯噪声添加到 $z^{masked}_0$ 并得到 $z^{masked}_t$ ，其中 $t\sim[1,\ T]$ 。然后，去噪步骤从 $z^{masked}_T$ 开始，其中等式 2 中的每个采样步骤后跟：

公式 4

尽管 BLD 实现起来很简单，但在未掩码区域保留和生成内容对齐方面，其性能并不理想。这是因为（1）掩码大小的调整使其无法正确混合嘈杂的潜在信息，（2）扩散模型缺乏对掩码边界和未掩码图像区域上下文的感知知识。

专用修复模型。为了提高修复性能，以前的研究通过扩展输入 UNet 通道以包含掩码和掩码图像输入来微调基础模型，将其转变为专门为图像修复设计的架构。虽然与 BLD 相比具有更好的生成结果，但它们仍然存在一些缺点：（1）这些模型在 UNet 架构的初始卷积层合并了噪声潜在、掩码图像潜在和掩码，它们共同受到文本嵌入的影响。因此，由于文本的影响，UNet 模型中的后续层难以获得纯掩码图像特征。（2）将条件处理和生成合并到单个分支中会给 UNet 框架带来额外的负担。（3）这些方法需要在各种扩散主干上进行大量微调，这需要大量计算并且缺乏向自定义扩散模型的可迁移性。

3.3 动机

基于第 3.2 节中的分析，更有效的修复架构设计将引入一个专门用于掩码图像处理的附加分支。ControlNet [51] 是体现这一想法的广泛采用的策略之一。然而，应该注意的是，直接在修复任务上微调最初为可控图像生成而设计的 ControlNet 会产生不令人满意的结果。ControlNet 设计了一个轻量级编码器来合并域外结构条件（例如骨架），并依靠文本指导进行内容生成，这不适合像素级修复图像特征注入。此外，ControlNet 通常依赖于稀疏控制，这意味着仅在 UNet 框架中添加对残差的控制就足够了，而修复需要具有强大限制信息的像素到像素约束。因此，迫切需要一种专门为修复设计的新架构。

4. 方法

图 3 显示了 BrushNet 的概览。我们采用双分支策略进行掩码图像引导插入（第 4.1 节）。使用模糊掩码的混合操作来确保更好地保留未掩码区域（第 4.2 节）。值得注意的是，BrushNet 可以通过调整添加的尺度来实现灵活的控制。

图 3

**图 3：模型概览**。我们的模型根据掩码和掩码图像输入输出修复后的图像。首先，我们对掩码进行下采样以适应潜在图像的大小，并将掩码图像输入到 VAE 编码器以对齐潜在空间的分布。然后，将噪声潜在图像、掩码图像潜在图像和下采样掩码连接起来作为 BrushNet 的输入。从 BrushNet 中提取的特征在零卷积块 [51] 之后逐层添加到预训练的 UNet 中。去噪后，生成的图像和掩码图像与模糊掩码混合。

4.1 掩码图像引导

掩码图像特征插入预训练扩散网络是通过附加分支完成的，该分支明确将掩码图像的特征提取与图像生成过程分开。附加分支的输入包括噪声潜伏、掩码图像潜空间（latent）和下采样掩码，它们连接在一起形成输入。具体而言，噪声潜伏在当前生成过程中提供生成信息，帮助 BrushNet 增强掩码图像特征的语义一致性。使用 VAE 从掩码图像中提取掩码图像潜伏，这与预训练的 UNet 的数据分布一致。为了确保掩码大小与噪声潜伏和掩码图像潜伏对齐，我们采用立方插值对掩码进行下采样。

为了处理被遮盖的图像特征，BrushNet 使用了预训练扩散模型的克隆，同时排除了其交叉注意层。扩散模型的预训练权重可作为提取被遮盖的图像特征的强先验，而交叉注意层的移除可确保在此附加分支中仅考虑纯图像信息。BrushNet 特征被逐层插入到冻结扩散模型中，从而实现分层的密集逐像素控制。与 ControlNet [51] 类似，我们使用零卷积层在锁定模型和可训练 BrushNet 之间建立连接。这可确保在训练的初始阶段，有害噪声不会影响可训练副本中的隐藏状态。

特征插入操作如式 5 所示。具体而言， $\epsilon_{\theta}\left(z_{t},\ t,\ C\right)_{i}$ 表示网络 $\epsilon_{\theta}$ 中第 $i$ 层的特征， $i\sim[1,\ n]$ ，其中 $n$ 是层数。同样的符号也适用于 $\epsilon^{BrushNet}_{\theta}$ 。 $\epsilon^{BrushNet}_{\theta}$ 将 $\theta$ 连接的噪声潜在 $z_t$ 、掩码图像潜在 $z^{masked}_0$ 和下采样的掩码 $m^{resized}$ 作为输入，其中连接操作表示为 $[\dot]$ 。 $\mathcal{Z}$ 是零卷积运算。 $w$ 是用于调整 BrushNet 对预训练扩散模型影响的保留尺度。

公式 5

4.2 混合操作

如第 4.2 节所述，在潜在空间中进行的混合操作可能会因调整掩码大小而导致不准确。同样，在我们的方法中，当我们调整掩码大小以匹配潜在空间的大小时也会出现类似的问题，这可能会导致潜在的不准确性。此外，重要的是要认识到 VAE 编码和解码操作具有固有的局限性，可能无法确保完整的图像重建。

为了确保完全一致的未遮罩区域图像重建，先前的研究探索了不同的技术。一些方法 [4, 56] 利用粘贴和复制方法，其中未遮罩区域直接从原始图像复制。然而，这可能导致最终生成结果缺乏语义连贯性。另一方面，采用受 BLD [1, 33] 启发的潜在混合操作已观察到在有效保留未遮罩区域中所需信息方面面临挑战。

在这项工作中，我们提出了一种简单的像素空间解决方案来解决这个问题，方法是首先模糊掩码，然后使用模糊掩码执行复制和粘贴。虽然这种方法可能会导致在保留掩码边界细节方面的精度略有损失，但误差几乎肉眼无法察觉，并可显着提高掩码边界的连贯性。

4.3 灵活控制

BrushNet 的架构设计使其本身适合无缝即插即用地集成到各种预训练扩散模型中，并实现灵活的保存规模。具体而言，我们提出的 BrushNet 的灵活控制包括：（1）由于 BrushNet 不会修改预训练扩散模型的权重，因此可以将其作为即插即用组件轻松集成到任何社区微调扩散模型中。这样可以轻松采用和试验不同的预训练模型。（2）保存规模调整：可以通过将 BrushNet 特征合并到权重为 $w$ 的冻结扩散模型中来控制未屏蔽区域的保存规模。该权重决定了 BrushNet 对保存规模的影响，从而能够调整所需的保存水平。（3）模糊尺度和混合操作：通过调整模糊尺度并决定是否应用混合操作，可以进一步定制未屏蔽区域的保存规模。这些功能允许对修复过程进行灵活的细粒度控制。更多解释请参见第 5.5 节。

5. 实验

5.1 评估基准和指标

基准。图像修复领域以前常用的数据集包括 CelebA [22]、CelebA-HQ [14]、ImageNet [8]、MSCOCO [19]、Open Images [17] 和 LSUN-Bedroom [48]。然而，这些数据集要么主要关注人脸等小区域，要么主要由低质量、杂乱的真实场景数据组成。因此，这些数据集不适合训练和评估基于扩散的修复模型，这些模型可以生成与文本提示一致的高质量多样化图像。

最近提出的 EditBench [37] 是专为扩散模型的文本引导图像修复而设计的基准。该基准由 240 张图像组成，其中自然图像和生成图像的比例相等，每张图像都有掩码和标题注释。然而，EditBench 中带注释的掩码大多是随机形状，没有特定的对象信息，忽略了修复在现实场景中的实际应用，例如用外部掩码替换对象，这在电子商务产品展示和图像编辑中很常见。

为了填补这一空白，我们提出了基于分割的修复 BrushBench，如图 4 所示。BrushBench 总共包含 600 张图像，每张图像都附有人工注释的掩码和标题注释。BrushBench 中的图像在自然图像和人工图像（如绘画）之间均匀分布。此外，数据集确保不同类别（包括人类、动物、室内场景和室外场景）之间的平等分布。这种平衡的分布使得各个类别的评估更加公平，从而促进了更好的评估公平性。

为了进一步增强对修复任务的分析，我们根据所使用的掩码将其分为两种不同的类型：随机画笔掩码和基于分割的掩码。我们使用 EditBench 作为随机画笔掩码的比较基准，并使用 BrushBench 作为基于分割的掩码的比较基准。对于使用基于分割的掩码进行修复，我们通过考虑两种特定场景来细化任务：分割掩码内部修复和分割掩码外部修复。通过分离这两个子任务，我们可以更好地了解不同图像区域的修复性能。

在这里插入图片描述

**图 4：基准概览**。图 I 和图 II 分别展示了 BrushBench 的自然和人工图像、掩码和标题。（a）至（d）展示了人类、动物、室内场景和室外场景的图像。每组图像都展示了原始图像、内部修复掩码和外部修复掩码，顶部有图像标题。图 III 展示了 EditBench [37] 中的图像、掩码和标题，其中（e）为生成的图像，（f）为自然图像。图像是从两个基准中随机选择的。

数据集。为了训练基于分割的掩码修复，我们在 Laion-Aesthetic [34] 数据集上注释了分割掩码，称为 BrushData。我们使用 Grounded-SAM [32] 注释开放世界掩码，然后根据其置信度分数过滤掩码，确保只保留置信度分数相对较高的掩码。此外，我们在过滤过程中考虑了合理的掩码大小和良好的掩码连续性等因素。¹

¹ 提议的 BrushData 和 BrushBench 将与代码一起发布。

指标。我们从三个方面考虑了 7 个指标：图像生成质量、掩码区域保留和文本对齐。

图像生成质量。以前的修复方法（例如 FID [11] 和 KID [5]）最常用的指标表明，现代文本转图像模型 [16] 生成的丰富多样的内容表现不佳。因此，我们使用与人类感知一致的图像奖励（IR）[44]、HPS v2（HPS）[41] 和美学评分（AS）[34]。具体来说，ImageReward 和 HPS v2 是文本转图像人类偏好评估模型，在生成图像的人类偏好选择的大规模数据集上进行训练。美学评分是在真实图像的图像质量评级对上进行训练的线性模型。
掩码区域保留。我们遵循先前的研究，在生成的图像和原始图像的未掩蔽区域中使用标准峰值信噪比（PSNR）[39]、学习感知图像块相似度（LPIPS）[52] 和均方误差（MSE）[38]。
文本对齐。我们使用 CLIP 相似度（CLIP Sim）[40] 来评估生成的图像和相应的文本提示之间的文本图像一致性。CLIP 相似度使用 CLIP 模型 [30] 将文本和图像投影到相同的共享空间，并评估它们嵌入的相似性。

5.2 实施细节

除非另有说明，否则我们会在相同设置下对不同的修复方法进行推理，即在 NVIDIA Tesla V100 上，遵循其开源代码，以 Stabe Diffusion v1.5 为基本模型，分 50 步进行，指导比例为 7.5。我们在所有图像中保留每种修复方法的推荐超参数，以便进行公平比较。BrushNet 和所有消融模型在 8 个 NVIDIA Tesla V100 GPU 上训练了 43 万步，大约需要 3 天时间。为了在 BrushBench 上进行比较，我们使用在 BrushData 上训练的 BrushNet。为了在 EditBench 上进行比较，我们使用在 LAION- 5B 上训练的带有随机掩码的模型。详细信息可在提供的代码中找到。

5.3 定量比较

表 2 和表 3 展示了 BrushBench 和 EditBench [37] 上的定量比较。我们比较了采样策略修改方法 Blended Latent Diffusion [1]、专用修复模型 Stable Diffusion Inpainting [33]、HD-Painter [25] 和 PowerPaint [56] 的修复结果，以及在修复数据上训练的即插即用方法 ControlNet [51] 的修复结果。

EditBench 上的表现与 BrushBench 上的整体表现大致一致，同样显示出 BrushNet 的卓越性能。这表明我们的方法在各种掩码类型的一系列修复任务中表现出色，包括随机掩码、内部修复掩码和外部修复掩码。

表 2

**表 2：BrushBench 中 BrushNet 与其他基于扩散的修复模型之间的定量比较**：混合潜在扩散（BLD）[1]、稳定扩散修复（SDI）[33]、HD-Painter（HDP）[25]、PowerPaint（PP）[56] 和 ControlNet-Inpainting（CNI）[51]。表中显示了内部修复和外部修复的图像质量、掩码区域保留和文本对齐（Text Align）指标。所有模型均使用稳定扩散 V1.5 作为基础模型。红色代表最佳结果，蓝色代表第二佳结果。

表 3

**表 3：EditBench 中 BrushNet 与其他基于扩散的修复模型之间的定量比较**。比较方法和指标的详细说明可在表 2 的标题中找到。红色代表最佳结果，蓝色代表第二好结果。

结果证明了 BrushNet 在图像质量、掩码区域保存和图文对齐方面的有效性。混合潜在扩散 [1] 在图像质量和文本对齐方面的结果最差，这是由于生成的掩码和未掩码给定图像之间的不一致造成的。同时，其在掩码区域保存方面的表现也不令人满意，因为调整大小的掩码混合操作在潜在空间中会产生损失。HD-Painter [25] 和 PowerPaint [56] 是从稳定扩散修复 [33] 修改而来的，在内部修复任务中表现出与稳定扩散修复相当的性能。然而，当涉及到外部修复时，它们在图像质量和文本对齐方面的结果与稳定扩散修复相比要差得多，这可以归因于它们专注于内部修复任务。

ControlNet [51] 经过了修复训练，其实验配置与我们的最为相似。由于其模型设计与修复任务不匹配，ControlNet 在掩码区域保留和图像质量方面表现不佳，因此需要将其与混合潜在扩散 [1] 结合使用才能生成令人满意的修复图像。然而，即使采用这种组合，与专用修复模型和 BrushNet 相比，它仍然有所欠缺。

5.4 定性比较

图 1 显示了与之前图像修复方法的定性比较。我们提供了各种修复任务中人工图像和自然图像的结果，包括随机掩码修复、分割掩码内修复和分割掩码外修复。考虑到内容（I、II 右、III 右、IV）、颜色（II 左）和文本（III 左），BrushNet 在生成区域和未掩码区域的连贯性方面始终表现出色。有趣的是，图 1 III 左要求模型生成一只猫和一条金鱼。所有以前的方法都无法识别掩码图像中已经存在的金鱼，导致在掩码区域内生成了一条额外的鱼。由于双分支解耦的设计，BrushNet 成功实现了对背景信息的感知。

未经修改的预训练扩散分支还提供了在不同数据域（例如绘画和动漫）之间实现更好覆盖的优势。如图 5 所示，BrushNet 在各种图像类别中均表现出色，包括自然图像（I、II）、铅笔画（III）、动漫（IV）、插图（V）、数字艺术（VI 左）和水彩画（VI 右）。由于页数限制，更多定性比较结果在补充文件中。

图 5

**图 5：以前的修复方法与 BrushNet 在不同图像域上的比较**。比较方法的详细说明如图 1 所示。

5.5 灵活的控制能力

图 6 和图 7 从两个方面说明了 BrushNet 提供的灵活控制：基础扩散模型选择和控制尺度。在图 6 中，我们展示了将 BrushNet 与社区微调的不同扩散模型相结合的能力。这允许用户选择最适合其修复要求的特定模型，从而使用户能够根据自己的特定需求实现所需的修复结果。图 7 演示了 BrushNet 控制尺度的调整。此控制尺度参数允许用户在修复过程中有效控制未遮罩区域保护的程度。通过操纵尺度参数，用户可以对修复过程进行细粒度控制，从而实现精确且可定制的修复。

图 6

图 6：将 BrushNet 集成到社区微调扩散模型中。我们使用了五种流行的社区扩散模型，这些模型都是从稳定扩散 v1.5 微调而来的：DreamShaper（DS）[24]、epiCRealism（ER）[9]、Henmix_Real（HR）[10]、MeinaMix（MM）[26] 和 Realistic Vision（RV）[35]。MM 是专门为动漫图像设计的。

图 7

图 7：BrushNet 的灵活控制尺度。（a）显示给定的掩码图像，（b）-（h）显示添加控制尺度 $w$ 从 1.0 到 0.2 的 BrushNet。结果显示，从精确控制到粗略控制，可控能力逐渐减弱。

5.6 消融研究

我们进行了消融研究以调查不同模型设计的影响。表 4 比较了双分支和单分支设计。表 5 展示了重点关注附加分支架构的消融研究。消融研究是在 BrushBench 上进行的，对内部修复和外部修复的性能进行了平均。表 4 中的结果表明双分支设计明显优于单分支设计。此外，在双分支设计中，对基础扩散模型进行微调比冻结它能产生更好的结果。然而，微调基础扩散模型可能会限制模型的灵活性和对模型的控制。考虑到性能和灵活性之间的权衡，我们决定采用冻结的双分支设计作为我们的模型设计。表 5 介绍了以下设计选择背后的原理：（1）使用 VAE 编码器而不是随机初始化的卷积层来处理掩码图像；（2）将完整的 UNet 特征逐层合并到预先训练的 UNet 中；（3）删除 BrushNet 中的文本交叉注意力，避免掩码图像特征受到文本的影响。

表 4

**表 4：双分支设计上的消融**。稳定扩散修复（SDI）使用单分支设计，其中整个 UNet 都经过微调。我们通过训练具有两个变体的双分支模型进行了消融分析：一个是基础 UNet 经过微调，另一个是基础 UNet 经过冻结。结果证明了采用双分支设计所取得的卓越性能。红色是最好的结果。

表 5

**表 5：模型架构上的消融**。我们对以下组件进行消融：图像编码器（Enc），从随机初始化卷积 (Conv) 和 VAE 中选择；在输入中包含掩码 (Mask)，从添加 (w/) 和不添加 (w/o) 中选择；交叉注意层 (Attn) 的存在，从添加 (w/) 和不添加 (w/o) 中选择；UNet 特征添加的类型 (UNet)，从添加完整 UNet 特征 (full)、添加一半 UNet 特征 (half) 和添加类似 ControlNet (CN) 的特征中选择；最后，混合操作 (Blend)，从不添加 (w/o)、直接粘贴 (paste) 和模糊混合 (blur) 中选择。红色是最佳结果。

6. 讨论

结论。本文提出了一种即插即用的图像修复方法 BrushNet，该方法具有像素级掩码图像特征插入架构设计。在我们提出的基准 BrushBench 和 EditBench 上进行的定量和定性结果表明，在图像生成质量、掩码区域保留和图像文本对齐方面，BrushNet 具有卓越的性能。

局限性和未来工作。然而，BrushNet 仍然存在一些局限性：（1）我们的模型生成的质量和内容在很大程度上取决于所选的基础模型。如图 6 所示，模型 MeinaMix [26] 的结果表现出不连贯性，因为给定的图像是自然图像，而生成模型主要关注动漫。（2）即使使用 BrushNet，当给定的掩码形状异常或不规则时，或者当给定的文本与掩码图像不能很好地对齐时，我们仍然会观察到较差的生成结果。在未来的工作中，我们将继续应对这些挑战并进一步改进已发现的问题。

负面社会影响。图像修复模型为内容创作提供了令人兴奋的机会，但它们也给个人和社会带来了潜在的风险。它们对互联网收集的训练数据的依赖可能会放大社会偏见，并且通过操纵带有攻击性元素的人类图像可能会产生具有说服力的错误信息。为了解决这些问题，在使用这些模型时，强调负责任的使用和建立道德准则至关重要。这也是我们未来模型发布的重点。

参考文献

Avrahami,O.,Fried,O.,Lischinski,D.:Blendedlatentdiffusion.ACMtransactions on graphics (TOG) 42(4), 1–11 (2023)
Avrahami, O., Lischinski, D., Fried, O.: Blended diffusion for text-driven editing of natural images. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). pp. 18208–18218 (2022)
Bertalmio, M., Sapiro, G., Caselles, V., Ballester, C.: Image inpainting. In: Inter- national Conference and Exhibition on Computer Graphics and Interactive Tech- niques (SIGGRAPH). pp. 417–424 (2000)
Binghui, C., Chao, L., Chongyang, Z., Wangmeng, X., Yifeng, G., Xuansong, X.: Replaceanything as you want: Ultra-high quality content replacement (2023), https://aigcdesigngroup.github.io/replace-anything/
Bińkowski, M., Sutherland, D.J., Arbel, M., Gretton, A.: Demystifying MMD GANs. arXiv preprint arXiv:1801.01401 (2018)
Corneanu, C., Gadde, R., Martinez, A.M.: Latentpaint: Image inpainting in latent space with diffusion models. In: IEEE/CVF Winter Conference on Applications of Computer Vision (WACV). pp. 4334–4343 (2024)
Criminisi,A.,Pérez,P.,Toyama,K.:Regionfillingandobjectremovalbyexemplar- based image inpainting. IEEE Transactions on Image Processing 13(9), 1200–1212 (2004)
Deng, J., Dong, W., Socher, R., Li, L.J., Li, K., Fei-Fei, L.: Imagenet: A large- scale hierarchical image database. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). pp. 248–255. Ieee (2009)
epinikion: epicrealism (2023), https : / / civitai . com / models / 25694 ? modelVersionId=143906
heni29833: Henmixreal (2024), https : / / civitai . com / models / 20282 ? modelVersionId=305687
Heusel, M., Ramsauer, H., Unterthiner, T., Nessler, B., Hochreiter, S.: GANs trained by a two time-scale update rule converge to a local Nash equilibrium. Advances in Neural Information Processing Systems (NIPS) 30 (2017)
Ho, J., Jain, A., Abbeel, P.: Denoising diffusion probabilistic models. Advances in Neural Information Processing Systems (NIPS) 33, 6840–6851 (2020)
Ho, J., Salimans, T.: Classifier-free diffusion guidance. arXiv preprint arXiv:2207.12598 (2022)
Huang, H., He, R., Sun, Z., Tan, T., et al.: Introvae: Introspective variational autoencoders for photographic image synthesis. Advances in Neural Information Processing Systems (NIPS) 31 (2018)
Huang, Y., Huang, J., Liu, Y., Yan, M., Lv, J., Liu, J., Xiong, W., Zhang, H., Chen, S., Cao, L.: Diffusion model-based image editing: A survey. arXiv preprint arXiv:2402.17525 (2024)
Jayasumana, S., Ramalingam, S., Veit, A., Glasner, D., Chakrabarti, A., Kumar, S.: Rethinking fid: Towards a better evaluation metric for image generation. arXiv preprint arXiv:2401.09603 (2023)
Kuznetsova, A., Rom, H., Alldrin, N., Uijlings, J., Krasin, I., Pont-Tuset, J., Ka- mali, S., Popov, S., Malloci, M., Kolesnikov, A., et al.: The open images dataset v4: Unified image classification, object detection, and visual relationship detection at scale. International Journal of Computer Vision (IJCV) 128(7), 1956–1981 (2020)
Li, Z., Wei, P., Yin, X., Ma, Z., Kot, A.C.: Virtual try-on with pose-garment keypoints guided inpainting. In: IEEE/CVF International Conference on Computer Vision (ICCV). pp. 22788–22797 (2023)
Lin, T.Y., Maire, M., Belongie, S., Hays, J., Perona, P., Ramanan, D., Dollár, P., Zitnick, C.L.: Microsoft coco: Common objects in context. In: European Conference on Computer Vision (ECCV). pp. 740–755. Springer (2014)
Liu, A., Niepert, M., Broeck, G.V.d.: Image inpainting via tractable steering of diffusion models. arXiv preprint arXiv:2401.03349 (2023)
Liu, H., Wan, Z., Huang, W., Song, Y., Han, X., Liao, J.: Pd-GAN: Probabilistic diverse GAN for image inpainting. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). pp. 9371–9381 (2021)
Liu, Z., Luo, P., Wang, X., Tang, X.: Deep learning face attributes in the wild. In: IEEE/CVF International Conference on Computer Vision (ICCV) (December 2015)
Lugmayr, A., Danelljan, M., Romero, A., Yu, F., Timofte, R., Van Gool, L.: Re- Paint: Inpainting using denoising diffusion probabilistic models. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). pp. 11461–11471 (2022)
Lykon: Dreamshaper (2022), https : / / civitai . com / models / 4384 ? modelVersionId=128713
Manukyan, H., Sargsyan, A., Atanyan, B., Wang, Z., Navasardyan, S., Shi, H.: Hd-painter: High-resolution and prompt-faithful text-guided image inpainting with diffusion models. arXiv preprint arXiv:2312.14091 (2023)
Meina: Meinamix (2023), https://civitai.com/models/7240?modelVersionId= 119057
Peng, J., Liu, D., Xu, S., Li, H.: Generating diverse structure for image inpainting with hierarchical vq-vae. In: Proceedings of the IEEE/CVF Conference on Com- puter Vision and Pattern Recognition (CVPR). pp. 10775–10784 (2021)
von Platen, P., Patil, S., Lozhkov, A., Cuenca, P., Lambert, N., Rasul, K., Davaadorj, M., Wolf, T.: Diffusers: State-of-the-art diffusion models. https:// github.com/huggingface/diffusers (2022)
Quan, W., Chen, J., Liu, Y., Yan, D.M., Wonka, P.: Deep learning-based image and video inpainting: A survey. International Journal of Computer Vision (IJCV) pp. 1–34 (2024)
Radford, A., Kim, J.W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., Sastry, G., Askell, A., Mishkin, P., Clark, J., Krueger, G., Sutskever, I.: Learning transferable visual models from natural language supervision. In: International Conference on Machine Learning (ICML). pp. 8748–8763. PMLR (2021)
Razzhigaev, A., Shakhmatov, A., Maltseva, A., Arkhipkin, V., Pavlov, I., Ryabov, I., Kuts, A., Panchenko, A., Kuznetsov, A., Dimitrov, D.: Kandinsky: an im- proved text-to-image synthesis with image prior and latent diffusion. arXiv preprint arXiv:2310.03502 (2023)
Ren, T., Liu, S., Zeng, A., Lin, J., Li, K., Cao, H., Chen, J., Huang, X., Chen, Y., Yan, F., et al.: Grounded sam: Assembling open-world models for diverse visual tasks. arXiv preprint arXiv:2401.14159 (2024)
Rombach, R., Blattmann, A., Lorenz, D., Esser, P., Ommer, B.: High-resolution image synthesis with latent diffusion models. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). pp. 10684– 10695 (June 2022)
Schuhmann, C., Beaumont, R., Vencu, R., Gordon, C., Wightman, R., Cherti, M., Coombes, T., Katta, A., Mullis, C., Wortsman, M., et al.: Laion-5b: An open large- scale dataset for training next generation image-text models. Advances in Neural Information Processing Systems (NIPS) 35, 25278–25294 (2022)
SG161222: Realisticvision (2023), https : / / civitai . com / models / 4201 ? modelVersionId=130072
Song, J., Meng, C., Ermon, S.: Denoising diffusion implicit models. arXiv preprint arXiv:2010.02502 (2020)
Wang, S., Saharia, C., Montgomery, C., Pont-Tuset, J., Noy, S., Pellegrini, S., Onoe, Y., Laszlo, S., Fleet, D.J., Soricut, R., et al.: Imagen editor and editbench: Advancing and evaluating text-guided image inpainting. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). pp. 18359–18369 (2023)
Wikipedia contributors: Mean squared error — Wikipedia, the free encyclopedia (2024), https://en.wikipedia.org/w/index.php?title=Mean_squared_error& oldid=1207422018, [Online; accessed 4-March-2024]
Wikipedia contributors: Peak signal-to-noise ratio — Wikipedia, the free encyclo- pedia (2024), https://en.wikipedia.org/w/index.php?title=Peak_signal-to- noise_ratio&oldid=1210897995, [Online; accessed 4-March-2024]
Wu, C., Huang, L., Zhang, Q., Li, B., Ji, L., Yang, F., Sapiro, G., Duan, N.: GO- DIVA: Generating open-domain videos from natural descriptions. arXiv preprint arXiv:2104.14806 (2021)
Wu, X., Hao, Y., Sun, K., Chen, Y., Zhu, F., Zhao, R., Li, H.: Human preference score v2: A solid benchmark for evaluating human preferences of text-to-image synthesis. arXiv preprint arXiv:2306.09341 (2023)
Xie, S., Zhang, Z., Lin, Z., Hinz, T., Zhang, K.: Smartbrush: Text and shape guided object inpainting with diffusion model. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). pp. 22428– 22437 (2023)
Xie, S., Zhao, Y., Xiao, Z., Chan, K.C., Li, Y., Xu, Y., Zhang, K., Hou, T.: Dreaminpainter: Text-guided subject-driven image inpainting with diffusion mod- els. arXiv preprint arXiv:2312.03771 (2023)
Xu, J., Liu, X., Wu, Y., Tong, Y., Li, Q., Ding, M., Tang, J., Dong, Y.: Imagere- ward: Learning and evaluating human preferences for text-to-image generation (2023)
Xu, Z., Zhang, X., Chen, W., Yao, M., Liu, J., Xu, T., Wang, Z.: A review of image inpainting methods based on deep learning. Applied Sciences 13(20), 11189 (2023)
Yang, S., Chen, X., Liao, J.: Uni-paint: A unified framework for multimodal image inpainting with pretrained diffusion model. In: ACM International Conference on Multimedia (MM). pp. 3190–3199 (2023)
Yang,S.,Zhang,L.,Ma,L.,Liu,Y.,Fu,J.,He,Y.:Magicremover:Tuning-freetext-guided image inpainting with diffusion models. arXiv preprint arXiv:2310.02848 (2023)
Yu, F., Seff, A., Zhang, Y., Song, S., Funkhouser, T., Xiao, J.: Lsun: Construction of a large-scale image dataset using deep learning with humans in the loop. arXiv preprint arXiv:1506.03365 (2015)
Yu, T., Feng, R., Feng, R., Liu, J., Jin, X., Zeng, W., Chen, Z.: Inpaint anything: Segment anything meets image inpainting. arXiv preprint arXiv:2304.06790 (2023)
Zhang, G., Ji, J., Zhang, Y., Yu, M., Jaakkola, T., Chang, S.: Towards coherent image inpainting using denoising diffusion implicit models (2023)
Zhang, L., Rao, A., Agrawala, M.: Adding conditional control to text-to-image diffusion models. In: IEEE/CVF International Conference on Computer Vision (ICCV) (2023)
Zhang, R., Isola, P., Efros, A.A., Shechtman, E., Wang, O.: The unreasonable effec- tiveness of deep features as a perceptual metric. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). pp. 586–595 (2018)
Zhao, S., Cui, J., Sheng, Y., Dong, Y., Liang, X., Chang, E.I., Xu, Y.: Large scale image completion via co-modulated generative adversarial networks. arXiv preprint arXiv:2103.10428 (2021)
Zheng, C., Cham, T.J., Cai, J.: Pluralistic image completion. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). pp. 1438–1447 (2019)
Zheng, H., Lin, Z., Lu, J., Cohen, S., Shechtman, E., Barnes, C., Zhang, J., Xu, N., Amirghodsi, S., Luo, J.: Image inpainting with cascaded modulation GAN and object-aware training. In: European Conference on Computer Vision (ECCV). pp. 277–296. Springer (2022)
Zhuang,J.,Zeng,Y.,Liu,W.,Yuan,C.,Chen,K.:Ataskisworthoneword:Learn- ing with task prompts for high-quality versatile image inpainting. arXiv preprint arXiv:2312.03594 (2023)