BrushNet：一种具有分解双分支扩散的即插即用图像修复模型

最新推荐文章于 2025-04-16 15:44:08 发布

暗莉qwq

最新推荐文章于 2025-04-16 15:44:08 发布

阅读量3.3k

点赞数 30

分类专栏： cv 文章标签：计算机视觉人工智能

本文链接：https://blog.csdn.net/qq_52750784/article/details/137102329

版权

cv 专栏收录该内容

1 篇文章

订阅专栏

本文介绍了图像修复模型BrushNet，它将蒙面图像特征和噪声潜伏物划分分支，减少学习负荷。通过双分支策略、模糊混合策略等设计，实现像素级控制。还引入BrushData和BrushBench用于训练和评估。实验表明，BrushNet在图像质量、区域保留和文本对齐等指标上优于现有模型，但也存在依赖基础模型等局限。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在这里插入图片描述

来源：https://arxiv.org/abs/2403.06976v1

图 1：BrushNet与以前的图像修复方法在各种修复任务中的性能比较：（I）随机蒙版（< 50% 蒙版），（II）随机蒙版（> 50% 蒙版），（III）内修分割蒙版，（IV）外内修分割蒙版。
每组结果包含一个人工图像（左）和一个自然图像（右），其中修复方法：（b）混合潜伏扩散（BLD），（c）稳定扩散修复（SDI），（d） HD-Painter （HDP），（e） PowerPaint （PP），（f） ControlNet-Inpainting （CNI）和（g）我们的。

摘要

随着扩散模型（DM）的出现，图像修复是恢复损坏图像的过程，取得了重大进展。尽管有这些进步，但目前对修复的 DM 改编，包括对采样策略的修改或特定于 inpainting 的 DM 的开发，经常会出现语义不一致和图像质量下降的问题。为了应对这些挑战，我们的工作引入了一种新的范式：将蒙面图像特征和噪声潜伏物划分为单独的分支。这种划分大大减少了模型的学习负荷，促进了以分层方式细致入微地合并基本的掩蔽图像信息。在此，我们介绍了 BrushNet，这是一种新颖的即插即用双分支模型，旨在将像素级掩码图像特征嵌入到任何预训练的 DM 中，从而保证连贯和增强的图像修复结果。此外，我们还引入了 BrushData 和 BrushBench，以促进基于分割的修复训练和性能评估。我们广泛的实验分析表明，BrushNet 在七个关键指标上优于现有模型，包括图像质量、蒙版区域保留和文本连贯性。

1.引言

图像修复旨在恢复图像的缺失区域，同时保持整体连贯性。作为一个长期存在的计算机视觉问题，它促进了许多应用，例如虚拟试戴和图像编辑. 最近，扩散模型在图像生成方面表现出令人印象深刻的性能，可实现对语义和结构条件的灵活用户控制.为此，研究人员求助于基于扩散的管道，以实现与给定文本提示一致的高质量图像修复。

常用的基于扩散的文本引导着修方法大致可分为两类：（1）抽样策略修改，它通过从预先训练的扩散模型中对掩蔽区域进行采样来修改标准去噪过程，并且在每个去噪步骤中，只需从给定图像复制粘贴即可将未掩蔽区域复制粘贴。尽管它们可用于任意扩散主干，但对掩码边界和未遮罩图像区域上下文的有限感知知识会导致不连贯的修复结果。（2）专用修复模型 [42,33,56,43,37,4,49,46]，通过扩展基本扩散模型的输入通道维度以合并提供的损坏图像和蒙版，对专门设计的图像修复模型进行微调。虽然它们使扩散模型能够通过专门的内容感知和形状感知模型产生更令人满意的结果，但我们认为，这种架构是否最适合基于扩散的修复？

如图2所示。专用修复模型在早期阶段融合了噪声潜伏、掩蔽图像潜伏、掩码和文本。这种架构设计使得蒙版图像特征容易受到文本嵌入的影响，从而防止了UNet中的后续层因文本的影响而获得纯蒙版图像特征。此外，在单个分支中处理条件和生成会给 UNet 框架带来额外的负担。这些方法还需要对扩散主链的不同变体进行微调，这可能很耗时，而且可转移性有限。

图2：以前的修复架构和 BrushNet 的比较。

图2：以前的修复架构和 BrushNet 的比较

添加一个专门用于掩码图像特征提取的额外分支可能是解决上述问题的一种有前途的方法。但是，现有的解决方案，如ControlNet当直接应用于修复时，会导致信息提取和插入不足，这源于可控图像生成和修复之间的差异：修复需要具有强限制性信息的像素到像素约束，而不是依赖文本完成内容的稀疏结构控制。因此，与专用修复模型相比，ControlNet 的结果并不令人满意。

为了解决这个问题，我们提出了 BrushNet，它为扩散框架引入了一个额外的分支，为图像修复创建了一个更适合的架构。具体来说，我们的设计有三个方面：（1）为了更好地提取图像特征以适应UNet分布，我们使用VAE编码器代替随机初始化的卷积层来处理掩码图像。（2）为了实现密集的每像素控制，我们采用分层方法，将完整的UNet特征逐层合并到预训练的UNet中。（3）为了确保在附加分支中考虑纯图像信息，我们从 UNet 中删除了文本交叉注意力。这种设计进一步为修装过程提供了即插即用功能和灵活的无遮蔽区域可控性。为了获得更好的一致性和更大范围的未遮罩区域可控性，我们还提出了一种模糊混合策略。

为了确保对实际应用进行全面评估，我们根据掩模形状将修复任务分为两种不同的类型：随机画笔蒙版和基于分割的蒙版。我们利用 EditBench作为随机画笔蒙版修复的比较基准。此外，我们还引入了一个新的训练数据集 BrushData 和一个新的基准测试 BrushBench，用于训练和评估基于分割的蒙版修复。结果显示，BrushNet 在以下方面实现了最先进的性能指标包括图像质量、遮罩区域保留和文本对齐。

2.相关工作

图像修复是计算机视觉中的一个经典问题，旨在恢复图像的遮罩区域，使其具有合理和自然的内容. 以前基于传统技术的方法、变分自动编码器（VAE）和生成对抗网络（GAN）通常需要辅助的手工设计功能，但效果不佳。最近，基于扩散的方法由于其令人印象深刻的高质量生成、细粒度控制和输出多样性而广受欢迎.

利用扩散模型进行文本引导修复的初步尝试，例如 Blended Latent Diffusion，通过从预训练的扩散模型中对掩码区域进行采样，从给定图像中对未掩蔽区域进行采样来修改标准去噪策略，这在广泛使用的图像生成库（如扩散器）中通常用作默认修复选项. 尽管这些方法在简单的图像修复任务中表现出令人满意的结果，并且可以即插即用到任何扩散模型，但它们在处理复杂的蒙版形状、图像内容和文本提示时会遇到困难，导致结果缺乏连贯性。这主要归因于他们对掩码边界和未遮罩图像区域上下文的感知知识有限。

过往作品通过将基础模型微调为专为图像修复设计的内容感知和形状感知模型来解决此问题。具体来说，SmartBrush通过对象掩模预测增强扩散 U-Net，以使用掩模边界信息指导采样过程。稳定扩散修复微调专为修复任务而设计的扩散模型，将蒙版、蒙版图像和噪声潜伏作为 UNet 架构的输入。 HD-Painter和 PowerPaint建立在稳定扩散修复的基础上，分别提高生成质量并使模型能够执行多项任务。

然而，这些方法很难有效地将其修复能力转移到任意预训练模型上，从而限制了它们的适用性。为了启用任何具有修复功能的扩散模型，社区对 ControlNet 进行了微调在修复图像对上。然而，ControlNet的模型设计在对掩码和掩码图像的感知理解方面表现出局限性，从而导致结果不尽如人意。与以前的方法（如表1所示）相比，BrushNet具有即插即用、内容感知和形状感知功能，对未遮罩区域具有灵活的保留程度。

在这里插入图片描述

表1 BrushNet与以前的图像修复方法的比较

3.预备和动机

在本节中，我们将首先介绍第 3.1 节中的扩散模型。然后，第 3.2 节将基于采样策略修改和特殊培训回顾以前的修复技术。最后，第 3.3 节概述了动机。

3.1扩散模型

略

3.2以前的修复模型

抽样策略修改。
这一系列研究通过逐渐将蒙版图像与生成的结果混合来实现绘画。其中最常用的方法是混合潜伏扩散（BLD），作为在广泛使用的基于扩散的图像生成库（例如，扩散器）中修复的默认选择). 给定二进制掩码m和蒙版图像x₀^masked，BLD首先提取潜在表示z₀^masked使用 VAE 的掩码图像。随后，mask m调整为：m^resized以匹配潜在表示的大小。为了制定修复过程，BLD 将高斯噪声添加到z₀^masked为T步骤和获取z_t^masked其中t~[1，T]. 然后，降噪步骤从*z_t^masked*开始，其中方程 2 中的每个采样步骤后面跟着：
在这里插入图片描述
尽管 BLD 的实现简单，但在未屏蔽区域保留和生成内容对齐方面表现出不理想的性能。这是由于（1）掩模的大小调整使其无法正确混合嘈杂的潜在声音，（2）扩散模型缺乏对掩模边界和未遮罩图像区域上下文的感知知识。

专用修复模型。
为了增强修复的性能，以前的工作通过扩展输入UNet通道以包括蒙版和蒙版图像输入来微调基础模型，将其转变为专门为图像修复设计的架构。尽管与 BLD 相比具有更好的生成结果，但它们仍然存在一些缺点：（1）这些模型在UNet架构的初始卷积层合并了噪声潜伏层、掩蔽图像潜伏层和掩码，在那里它们共同受到文本嵌入的影响。因此，由于文本的影响，UNet模型中的后续层难以获得纯遮罩图像特征。（2）将条件处理和生成合并到一个分支中会给 UNet 框架带来额外的负担。（3）这些方法需要对扩散主干的各种变体进行广泛的微调，这需要计算密集型，并且缺乏与自定义扩散模型的可转移性。

3.3赋予动机

根据第 3.2 节中介绍的分析，更有效的修复架构设计将引入一个专门用于掩码图像处理的额外分支。 ControlNet是体现这一想法的广泛采用的策略之一。但是，需要注意的是，在修复任务上直接微调最初设计用于可控图像生成的 ControlNet，结果并不令人满意。 ControlNet 设计了一个轻量级编码器来合并域外结构条件（例如骨架），并依赖文本引导来生成内容，这不适合像素级修复图像特征注入。此外，ControlNet 通常依赖于稀疏控制，这意味着只需在 UNet 框架中向残差添加控制就足够了，而修复需要具有强限制性信息的像素到像素约束。因此，迫切需要一种专门为修复而设计的新架构。

4.方法

BrushNet 的概述如图3所示。我们采用双分支策略进行掩蔽图像引导插入（第 4.1 节）。使用模糊遮罩进行混合操作，以确保更好地保留遮罩区域（第 4.2 节）。值得注意的是，BrushNet 可以通过调整添加的比例来实现灵活的控制。
在这里插入图片描述

图3：模型概述。我们的模型在给定蒙版和蒙版图像输入的情况下输出一个未绘制的图像。首先，我们对掩模进行下采样以适应潜空间的大小，并将掩模图像输入VAE编码器以对齐潜在空间的分布。然后，将噪声潜伏、掩码图像潜伏和下采样掩码连接起来作为 BrushNet 的输入。从 BrushNet 中提取的特征在零卷积块后逐层添加到预训练的 UNet 中.去噪后，生成的图像和蒙版图像与模糊蒙版混合。

4.1蒙版图像引导

将掩码图像特征插入到预训练的扩散网络中是通过一个附加分支完成的，该分支将掩码图像的特征提取与图像生成过程显式分离。附加分支的输入包括噪声潜伏、掩码图像潜伏和下采样掩模，它们连接在一起形成输入。具体来说，噪声潜伏在当前生成过程中提供生成信息，帮助 BrushNet 增强掩码图像特征的语义连贯性。使用 VAE 从掩码图像中提取掩码图像潜伏，这与预训练的 UNet 的数据分布一致。为了确保掩模尺寸与噪声潜伏和掩蔽图像潜伏对齐，我们采用三次插值对掩模进行下采样。

为了处理蒙版图像特征，BrushNet 利用了预训练扩散模型的克隆，同时排除了其交叉注意力层。扩散模型的预训练权重可作为提取掩码图像特征的强先验，而去除交叉注意力层可确保在此附加分支中仅考虑纯图像信息。将 BrushNet 特征逐层插入到冻结扩散模型中，从而实现密集的每像素分层控制。与ControlNet相似，我们采用零卷积层在锁定模型和可训练的 BrushNet 之间建立连接。这可确保有害噪声在训练的初始阶段不会影响可训练副本中的隐藏状态。

特征插入操作如方程 5 所示。具体说来ϵ_θ(z_t,t,C)_i 表示网络*ϵ_θ*中的第 i 层，其中i ~ [1，N]，N是层数。同样的符号适用于ϵ_θ^BrushNet ,其采用串联的噪音潜变量z_t、遮罩图像潜变量z₀^masked和下采样蒙版m^resized作为输入，串联运算表示为[·]，Z是零卷积运算。w是用于调整 BrushNet 对预训练扩散模型的影响的保存量表。
在这里插入图片描述

4.2混合操作

如第 4.2 节所述，在潜在空间中进行的混合操作可能会因掩模大小的调整而导致不准确。同样，在我们的方法中，当我们调整掩码大小以匹配潜在空间的大小时，也会出现类似的问题，这可能会引入潜在的不准确。此外，重要的是要承认 VAE 编码和解码操作具有固有的局限性，可能无法确保完整的图像重建。

为了确保对未遮罩区域进行完全一致的图像重建，以前的工作已经探索了不同的技术。一些方法，利用过去和复制方法，其中未遮罩区域直接从原始图像复制。但是，这可能会导致最终生成结果缺乏语义一致性。另一方面，采用受 BLD 启发的潜在混合操作据观察，在未屏蔽区域有效保存所需信息方面面临挑战。

在这项工作中，我们提出了一个简单的像素空间解决方案来解决这个问题，首先模糊蒙版，然后使用模糊蒙版执行复制和粘贴。尽管这种方法可能会导致在保留掩模边界细节方面的准确性略有下降，但肉眼几乎察觉不到这种误差，并导致掩模边界的相干性显著提高。

4.3灵活控制

BrushNet 的架构设计本身就适合与各种预训练扩散模型无缝即插即用集成，并实现灵活的保存规模。具体来说，我们提出的 BrushNet 的灵活控制包括：（1）由于 BrushNet 不会修改预训练扩散模型的权重，因此它可以很容易地作为即插即用组件与任何社区微调扩散模型集成。这允许轻松采用和试验不同的预训练模型。（2）保存尺度调整：通过将BrushNet特征纳入冷冻扩散模型中，可以控制未遮蔽区域的保存尺度，权重为w.该重量决定了 BrushNet 对保存秤的影响，从而能够调整所需的保存水平。（3）模糊比例和混合操作：通过调整模糊比例并决定是否应用混合操作，可以进一步自定义未遮罩区域的保存比例。这些功能允许对修装过程进行灵活的细粒度控制。更多解释可以在第 5.5 节中找到。

5.实验

5.1评估基准和指标

基准。
以前在图像修复领域常用的数据集包括 CelebA， CelebA-HQ、IamgeNet， MSCOCO， Open Image和 LSUN-Bedroom. 然而，这些数据集要么主要集中在一个小区域，如人脸，要么主要由低质量、杂乱无章的真实场景数据组成。因此，这些数据集不太适合训练和评估基于扩散的修复模型，这些模型可以生成与文本提示一致的高质量多样化图像。

最近提出的 EditBench作为专门为扩散模型的文本引导图像修复而设计的基准测试。该基准测试由240图像包括自然图像和生成图像的相等比例，每个图像都有蒙版和标题注释。然而，EditBench 中的带注释的蒙版大多是随机形状，没有特定的对象信息，忽略了修复在实际场景中的实际应用，例如将对象替换为外部蒙版，这在电子商务产品展示和图像编辑中很常见。

为了填补这一空白，我们提出了 BrushBench 用于基于分割的修复，如图4所示。BrushBench 总共包括600图像，每张图像都附有人工注释的蒙版和标题注释。 BrushBench 中的图像均匀分布在自然图像和人工图像（例如绘画）之间。此外，该数据集确保了不同类别之间的平均分布，包括人类、动物、室内场景和室外场景。这种平衡的分配使得对各个类别的评价得以公平，从而促进了更好的评价公平。
在这里插入图片描述

图4：基准测试概述。I 和 II 分别展示了 BrushBench 的自然和人工图像、蒙版和标题。（a）至（d）显示人类、动物、室内场景和室外场景的图像。每组图像都显示原始图像、内内涂装蒙版和外内涂蒙版，顶部带有图像说明。III 显示来自 EditBench 的图像、蒙版和标题[37]，其中（e）用于生成的图像，（f）用于自然图像。图像是从两个基准中随机选择的。

为了进一步增强对修复任务的分析，我们根据所使用的蒙版将其分为两种不同的类型：随机画笔蒙版和基于分割的蒙版。我们使用 EditBench 作为随机画笔蒙版的比较基准，并使用 BrushBench 作为基于分割的蒙版。关于使用基于分割的蒙版进行修复，我们通过考虑两个特定场景来细化任务：分割蒙版内部修复和分割蒙版外部内修复。通过分离这两个子任务，我们可以更好地理解不同图像区域下的修复性能。

数据。
为了训练基于分割的蒙版修复，我们在 Laion-Aesthetic 上注释了分割蒙版数据集，称为 BrushData。我们采用接地SAM对开放世界蒙版进行注释，然后根据其置信度分数过滤蒙版，确保仅保留置信度分数相对较高的蒙版。此外，我们还考虑了过滤过程中合理的掩模尺寸和良好的掩模连续性等因素。

指标。
我们从三个方面衡量7个指标：图像生成质量、遮罩区域保留和文本对齐。

图像生成质量。以前的修复方法最常用的指标（例如，FID和 KID）显示了现代文本到图像模型生成的丰富多样的内容的糟糕表现. 因此，我们使用图像奖励（IR) 、 HPS v2 （HPS) 和审美评分（AS) 与人类的感知相一致。具体来说，ImageReward 和 HPS v2 是文本到图像的人类偏好评估模型，在生成图像的人类偏好选择的大规模数据集上训练。Aesthetic Score 是一种线性模型，它基于真实图像的图像质量评级对进行训练。
遮蔽区域保护。我们遵循以前的工作，使用标准峰值信噪比（PSNR)、学习感知图像贴片相似性（LPIPS)和均方误差（MSE) 在生成的图像和原始图像之间的未遮罩区域中。
文本对齐方式。我们使用 CLIP Similarity （CLIP Sim) 评估生成的图像与相应文本提示之间的文本-图像一致性。CLIP 相似性将文本和图像投影到与 CLIP 模型相同的共享空间[30]并评估其嵌入的相似性。

5.2实施细节

除非特别说明，否则我们会在同一设置中推断不同的修复方法，即在 NVIDIA Tesla V100 上，按照其开源代码使用 Stabe Diffusion v1.5 的基本模型分 50 步，指导等级为 7.5。我们在所有图像中为每种修复方法保留推荐的超参数，以便进行公平比较。BrushNet 和所有消融模型都在 8 个 NVIDIA Tesla V100 GPU 上训练430 000步，大约需要 3 天。为了在 BrushBench 上进行比较，我们使用在 BrushData 上训练的 BrushNet。为了在EditBench上进行比较，我们使用在LAION-5B上训练的模型和随机掩码。详细信息可以在提供的代码中找到。

5.3定量比较

在这里插入图片描述

表2：BrushNet 与其他基于扩散的修复模型在 BrushBench 中的定量比较：混合潜伏扩散（BLD）、稳定扩散修复（SDI）， HD-Painter （HDP）、PowerPaint （PP）和 ControlNet-Inpainting （CNI）表中显示了包括图像质量、遮罩区域保留和文本对齐（文本对齐）的内修和外修饰的指标。所有型号均使用 Stable Diffusion V1.5 作为基本型号。红色代表最佳结果，蓝色代表第二好结果。

表 2 和表 3 显示了 BrushBench 和 EditBench 的定量比较. 比较了混合潜伏扩散采样策略修正方法的内修结果，专用修复模型 Stable Diffusion Inpainting、HD-Painter和 PowerPaint，以及即插即用的ControlNet方法对修复数据进行培训。

结果证明了 BrushNet 在图像质量、遮罩区域保留和图像-文本对齐方面的有效性。 Blended Latent Diffusion在图像质量和文本对齐方面显示最差的结果，这是由于生成的蒙版和未蒙版的给定图像之间的不连贯性造成的。同时，由于在潜在空间中调整尺寸的掩模混合操作所产生的损失，它在掩蔽区域保存方面的表现也不尽如人意。修改自 Stable Diffusion Inpainting、HD-Painter和 PowerPaint在内部修复任务中表现出与稳定扩散修复相当的性能。然而，当涉及到外部内修时，它们在图像质量和文本对齐方面的结果明显不如Stable Diffusion Inpainting，这可以归因于它们只强调内内修任务。

ControlNet在 Inpainting 上接受过培训，其实验配置与我们最相似。由于模型设计与修复任务不匹配，ControlNet在掩蔽区域保存和图像质量方面表现不佳，因此需要与Blended Latent Diffusion结合生成令人满意的彩绘图像。然而，即使有这种组合，与专用修复模型和 BrushNet 相比，它仍然不足。

在这里插入图片描述

表 3：BrushNet 和 EditBench 中其他基于扩散的修复模型之间的定量比较。比较方法和指标的详细说明可在表 2 的标题中找到。红色代表最佳结果，蓝色代表第二好结果。

EditBench 上的性能与 BrushBench 上的整体性能大致一致，这同样显示了 BrushNet 的卓越性能。这表明，我们的方法在各种蒙版类型的一系列内修任务中表现出强大的性能，包括随机蒙版、内内修版和外内修蒙版。

5.4定性比较

与以前的图像修复方法的定性比较如图1所示。我们在各种修复任务中提供人工图像和自然图像的结果，包括随机蒙版修复、分割蒙版内内修复和分割蒙版外内修复。BrushNet在考虑内容（I、II右、III右、IV）、颜色（II左）和文本（III左）的情况下，在生成区域和未遮罩区域的连贯性方面始终显示出出色的结果。有趣的是，图。剩下的 1 III 要求模型生成一只猫和一条金鱼。以前的所有方法都无法识别遮罩图像中已经存在金鱼，从而导致在遮罩区域内生成其他鱼。BrushNet通过双分支解耦的设计，成功实现了对背景信息的感知。

在这里插入图片描述

图5：比较以前的修复方法和BrushNet在各种图像域上。比较方法的详细说明如图1所示.

未触及的预训练扩散分支还提供了在不同数据域（例如绘画和动漫）中更好地覆盖的优势。如图5所示。BrushNet在自然图像（I、II）、铅笔画（III）、动漫（IV）、插图（V）、数字艺术（左VI）和水彩（右VI）等各种图像类别中表现出卓越的性能。由于页数限制，更多的定性比较结果在补充文件中。

5.5灵活的控制能力

图6图7从基础扩散模型选择和控制尺度两个方面说明了BrushNet提供的灵活控制。在图6中。我们展示了将 BrushNet 与社区微调的不同扩散模型相结合的能力。这允许用户选择最适合其修复要求的特定模型，使用户能够根据其特定需求实现所需的修复效果。图7演示了BrushNet控制刻度的调整。该控制比例参数允许用户在修复过程中有效控制未遮罩区域的保护范围。通过操纵比例参数，用户可以对修装过程进行精细控制，从而实现精确和可定制的修装。
在这里插入图片描述

图 6：将 BrushNet 集成到社区微调的扩散模型中。我们使用了五种流行的社区扩散模型，这些模型是从稳定扩散 v1.5 微调而来的：DreamShaper （DS）， epiCRealism （ER）， Henmix_Real （HR）， MeinaMix （MM）和Realistic Vision （RV）.MM是专门为动漫图像设计的。

在这里插入图片描述

图7：BrushNet灵活的控制比例。（a）显示给定的蒙版图像，（b）-（h）显示添加具有控制比例的 BrushNetw从1.0自0.2.结果显示，从精确控制到粗略控制，可控能力逐渐减弱。

5.6消融研究

在这里插入图片描述

表4：双分支设计消融。稳定扩散修复（SDI）采用单分支设计，对整个 UNet 进行微调。我们通过训练具有两种变体的双分支模型进行了消融分析：一种是基础 UNet 微调，另一种是基础 UNet forzened。结果表明，采用双分支设计实现了卓越的性能。红色是最好的结果。

我们进行了消融研究，以调查不同模型设计的影响。表 4 比较了双分支和单分支设计。表 5 显示了专注于附加分支结构的消融研究。烧蚀研究在 BrushBench 上进行，平均内内漆和外内漆的性能。表4中显示的结果表明，双分支设计明显优于单分支设计。此外，与冷冻相比，在双分支设计中微调碱基扩散模型会产生更好的结果。但是，对基础扩散模型进行微调可能会限制对模型的灵活性和控制。考虑到性能和灵活性之间的权衡，我们决定采用冻结的双分支设计作为我们的模型设计。表 5 介绍了（1）使用 VAE 编码器而不是随机初始化的卷积层来处理掩码图像的设计选择背后的基本原理。（2）将完整的UNet特征逐层合并到预训练的UNet中，（3）去除BrushNet中的文本交叉注意力，避免受文本影响的屏蔽图像特征。

在这里插入图片描述

表5：模型架构上的消融。我们消融了以下组件：图像编码器（Enc），选自随机初始化卷积（Conv）和VAE; 在输入中包含掩码（Mask），从添加（w/）和不添加（w/o）中选择; 交叉注意力层（Attn）的存在，从添加（w/）和不添加（w/o）中选择; UNet 特征添加（UNet）的类型，从添加完整的 UNet 功能（完整）、添加一半的 UNet 功能（一半）和添加 ControlNet （CN）等功能中选择;最后是混合操作（Blend），从不添加（w/o）、直接粘贴（粘贴）和模糊混合（blur）中选择。红色是最好的结果。

6.讨论

结论。
该文提出了一种即插即用的图像修复方法BrushNet，采用像素级掩码图像特征插入架构设计。我们提出的基准测试 BrushBench 和 EditBench 的定量和定性结果表明，考虑到图像生成质量、遮罩区域保留和图像文本对齐，BrushNet 具有卓越的性能。

局限性和未来工作。
然而，BrushNet仍然存在一些局限性：（1）我们的模型生成的质量和内容很大程度上取决于所选择的基础模型。如图 6 所示，Model MeinaMix 的结果表现出不连贯性，因为给定的图像是自然图像，而生成模型主要关注动漫。（2）即使使用 BrushNet，我们仍然观察到在给定蒙版具有异常形状或不规则形式的情况下，或者给定文本与蒙版图像不一致的情况下，生成结果不佳。在今后的工作中，我们将继续应对这些挑战，并进一步改进已发现的问题。

负面的社会影响。
图像修复模型为内容创作提供了令人兴奋的机会，但它们也给个人和社会带来了潜在的风险。他们对互联网收集的训练数据的依赖会放大社会偏见，并且存在通过操纵具有冒犯性元素的人类图像来产生有说服力的错误信息的特定风险。为了解决这些问题，在使用这些模型时强调负责任的使用并建立道德准则至关重要。这也是我们未来模型发布的重点。