（2023|CVPR，目标检测，目标掩模修复，级联扩散，Imagen）Imagen Editor 和 EditBench：推进和评估文本引导的图像修复

文本引导的图像编辑对支持创意应用具有深远的影响。一个关键挑战是生成与输入文本提示相符的编辑，同时与输入图像一致。我们提出了 Imagen Editor，这是一个级联扩散模型，通过在文本引导的图像修复上微调 Imagen [36] 而构建。Imagen Editor 的编辑与文本提示一致，这是通过在训练期间使用目标检测器进行掩模修复（mask inpainting）而实现的。此外，Imagen Editor 通过在级联管道中以原始高分辨率图像为条件来捕捉输入图像的细节。为了改进定性和定量评估，我们引入了 EditBench，这是一个用于文本引导的图像修复的系统基准。EditBench 在自然和生成的图像上评估修复编辑，探索对象、属性和场景。通过在 EditBench 上进行广泛的人工评估，我们发现在训练期间使用目标掩模会在文本-图像对齐方面带来全面的改进，从而使 Imagen Editor 相对于 DALL-E 2 [31] 和 Stable Diffusion [33] 更受青睐，并且这些模型作为同伴，它们在对象呈现方面优于文本呈现，并且比计数/形状属性更好地处理材料/颜色/大小属性。

Imagen Editor：https://imagen.research.google/editor/

1. 简介

文本到图像生成近来引起了极大的兴趣 [31, 33, 36, 50, 51]。尽管这些生成模型非常有效，但具有特定艺术和设计需求的用户通常不能在与模型的单次交互中获得期望的结果。文本引导的图像编辑可以通过支持交互式细化 [13, 17, 34, 46] 来增强图像生成体验。我们关注文本引导的图像修复，用户提供图像、掩模区域和文本提示，模型填充掩模区域，使其与提示和图像背景一致（图1）。这与无掩模编辑 [13, 17, 46] 相辅相成，具有定位编辑（localized edits） [5, 27] 的精度。

本文对文本引导的图像修复进行建模和评估的贡献是 Imagen Editor，它是一个文本引导的图像编辑器，将大规模语言表示与细粒度控制结合起来，以产生高保真度的输出。Imagen Editor 是一个级联扩散模型，通过对文本引导的图像修复进行微调，扩展了 Imagen [36]。Imagen Editor 通过图2 中显示的三个下采样卷积图像编码器向每个扩散阶段添加图像和掩模上下文。

在文本引导的图像修复中的一个关键挑战是确保生成的输出对文本提示忠实。标准的训练过程使用输入图像的随机掩模区域 [27, 35]。我们假设这会导致图像-文本对齐较弱，因为随机选择的区域通常可以仅使用图像上下文合理修复，而不太关注提示。相反，我们提出一种新颖的目标掩模技术，鼓励模型在训练期间更多地依赖于文本提示（图 3）。这有助于使 Imagen Editor 更易控制，并显著改善文本-图像对齐。

鉴于目前没有专门设计的用于评估文本引导的图像修复的标准数据集，我们提出了 EditBench，一个策划评估数据集，捕捉各种语言、图像类型和难度级别。每个 EditBench示例包括（i）一个掩模输入图像，（ii）一个输入文本提示，以及（iii）一个高质量的输出图像，可用作自动度量的参考。为了深入了解不同模型的相对优势和劣势，编辑提示沿三个轴进行分类：属性（材料、颜色、形状、大小、数量）、对象（常见、罕见、文本呈现）和场景（室内、室外、逼真、绘画）。

最后，我们在 EditBench 上进行了广泛的人工评估，对 Imagen Editor 进行了深入探讨，与 Stable Diffusion（SD）[33] 和 DALL-E 2（DL2）[31] 进行了比较。人类标注者被要求判断 a）文本-图像对齐 - 提示实现得有多好（总体上以及评估每个对象/属性的存在）和 b）图像质量 - 视觉质量，而不考虑文本提示。在文本-图像对齐方面，使用对象掩模进行训练的 Imagen Editor 在与其使用随机掩模进行训练的对照配置进行比较中有 68% 的首选度（这是一种常用的方法 [27, 35, 41]）。在所有对象和属性类别中都取得了全面的改进。相对于 SD 和 DL2（分别为78%和77%），人类标注者也更倾向于选择 Imagen Editor。此外，模型在对象呈现方面优于文本呈现，并且更好地处理材料/颜色/大小属性而不是计数/形状属性。通过将自动评估指标与人类判断进行比较，我们得出结论，虽然人类评估仍然是不可或缺的，但 CLIPScore [14] 是进行超参数调优和模型选择的最有用的指标。

总之，我们的主要贡献是：（i）Imagen Editor，一种新的高保真度文本引导图像编辑的最新扩散模型（第 3 节）；（ii）EditBench，一个手动定制的文本引导图像修复评估基准，评估细粒度的细节，如对象-属性组合（第 4 节）；以及（iii）在 EditBench 上的全面人工评估，突显当前模型的相对优势和劣势，以及各种自动化评估指标在文本引导图像编辑中的实用性（第 5 节）。

2. 相关工作

文本引导的图像编辑。近期在文本引导的图像修复方面进行了许多工作 [1, 3, 5, 7, 19, 27, 31, 33]。Paint By Word [3] 在以下两个方面进行了优化：a）输入图像与编辑图像之间的一致性，以及b）文本指引与编辑图像之间的一致性。这项技术最近在 DiffusionCLIP [18] 中得到了有效使用。Blended Diffusion [1] 在前景（掩模区域）和背景（上下文）上分别并行运行 CLIP 引导的扩散，然后通过逐元素聚合混合结果。CogView2 [7] 提出了一种由跨模态语言建模提供支持的自回归文本引导的填充技术。DiffEdit [5] 提出了一种 “masked mask-free” 的表述，其中掩模分割和掩模扩散并行运行以应用掩模修复。与我们的工作最相关的是 Stable Diffusion [33] 和 GLIDE/DALL-E2 [27, 31]，它们也是扩散模型。我们工作的关键区别在于使用目标检测器进行掩模处理，以及对架构的更改以实现高分辨率编辑。

此外，还有很多关于无掩模（mask-free）文本引导的图像编辑的工作 [2, 13, 17, 46]。Text2Live [2] 在具有语义定位的孤立编辑层上操作，这允许很好地保留上下文但不适用于广泛的修改。Prompt-to-Prompt [13] 在文本调制模块的交叉关注中提供了强大的操作技术。Imagic [17] 优化了一个特殊的嵌入以捕捉输入图像的语义，并通过将优化的嵌入与目标文本的嵌入插值来生成文本上忠实的编辑。

文本引导的图像编辑的评估。文本引导的图像编辑的评估主要涉及三个方面。首先是图像质量 [1, 25, 27, 47]，评估图像的独立质量，通常与（单一的）真实参考无关。另一方面，重建保真度 [10, 18, 23] 计算了评估图像与真实参考之间的相似度。文本-图像对齐 [28, 44, 53] 衡量了视觉输出与文本输入之间的相似度。其中图像质量和文本-图像对齐与我们的工作最相关，因为文本引导的图像修复促进了对语义一致性的多样性覆盖，而不是对一个特定参考的忠实性。

自动评估。图像质量的标准自动度量是 Frechét Inception Distance（FID），它在生成模型的潜在空间（对应于一组真实图像）中评估图像的质量。对于文本-图像对齐，基于文本-图像编码器（尤其是 CLIP [30]）的度量标准很受欢迎，例如 CLIPScore [14] - 文本和图像编码之间的距离；CLIP-R-Precision [28] - 编辑/合成图像在干扰物中对于真实文本的检索等级。在这项工作中，我们进一步探讨了自动评估与人工评估之间的联系，评估自动度量在多大程度上与人类对模型性能的评估一致（目前在评估模型输出时没有替代品）。

人工评估。最典型的形式是对比竞争模型的并排输出，问两个问题 - 哪个图像质量更好？哪个更好地与此文本对齐？（以不同方式重新表述）。EditBench 通过沿多种特征轴（属性/对象/场景）构建基准，将评估集中在掩码区域而不是整个图像上（这将图像编辑的评估与生成分开），并要求标注者单独评估文本提示中提到的每个对象和属性的存在，扩展了这一范式。这使得我们的工作与以前的文本引导的图像修复工作有所区别，后者通常以较不系统的方式进行评估或仅分享经过挑选的例子 [1, 18, 27, 53]。

3. Imagen Editor

Imagen Editor 是一个以文本引导的图像修复模型，旨在改进对语言输入、细粒度控制和高保真度输出的表示和反映。Imagen Editor 从用户处接收三个输入：1）要编辑的图像，2）指定编辑区域的二元掩码，以及 3）文本提示 - 所有三个输入都用于引导输出样本。Imagen Editor 是一个基于扩散的模型 [6]，通过对 Imagen [36] 进行微调以用于编辑。请参见图 2。

目标检测器掩模策略。一个自然的问题是：我们在文本引导的图像修复模型训练中使用什么样的掩模？掩模区域应该与编辑文本提示很好地对齐。理想情况下，我们将拥有一个大型的专业数据集，其中包含与掩模-提示编辑对齐的样本，以进行训练；然而，这样的数据集并不存在，而且创建一个大型数据集将会很困难。一个自然且简单的策略是使用随机掩模分布，例如随机框和/或随机笔画掩模；这在先前的修复模型中已成功应用过 [35, 48, 49]。然而，在训练过程中使用随机掩模时，它们可能会覆盖与文本提示无关的区域（图 3 左）。在这样的示例上进行训练可能会促使模型忽略文本提示。我们发现，在掩码区域较小或仅部分覆盖对象时，这个问题尤为普遍，这与CogView2 [7] 的观察结果相似。

与简单的无文本条件修复不同，我们需要生成的区域（从掩码中）不仅要真实，还要与输入文本提示有关。我们提出了这个问题的一个简单而有效的解决方案。我们假设完全掩模已识别的对象将导致与文本提示更大的重叠（图 3），因此在修复时会鼓励模型更多地关注文本提示。我们使用现成的目标检测器来检测和定位目标，并使用这些边界框生成在训练期间使用的掩模。我们使用的模型是轻量级的 SSD Mobilenet v2 [39]，它可以轻松地实时运行，因此提供与随机掩模策略相同的灵活性。我们的实验证明，这种对掩模策略的简单修改效果非常好，可以减轻使用随机掩模策略训练的模型面临的大多数问题。有关实现细节，请参阅附录。

高分辨率编辑。在Imagen Editor 中，我们修改 Imagen，通过将图像和掩码与扩散潜在值在通道维度上连接，使其与两者有关，类似于 SR3 [38]、Palette [35] 和 GLIDE [27]。Imagen Editor 的条件图像和相应的掩模输入始终具有 1024×1024 的分辨率。基础的 64×64 模型和 64×64 到 256×256 的超分辨率模型在较小的分辨率上运行，因此需要某种形式的降采样来匹配扩散潜在分辨率（例如，64×64 或 256×256）。一种方法是使用无参数的降采样操作（例如，bicubic）；与此相反，我们应用参数化的降采样卷积（例如，带有步幅的卷积）。在初步实验中，我们发现这种参数化的降采样操作对于高保真度非常关键。简单的 bicubic 降采样导致了在最终输出图像中沿掩模边界出现明显的伪影，而切换到参数化的降采样卷积则导致更高的保真度。我们还将相应的新输入通道权重初始化为零（类似于 [27]）；这意味着在初始化时，模型与 Imagen 相同，因为它忽略了条件图像和掩模。

无分类器引导。无分类器引导（Classifier-Free Guidance，CFG）[16] 是一种偏向于特定条件（例如，文本提示）的样本的技术，以模式覆盖（mode coverage）为代价。CFG 在提升文本-图像对齐和图像保真度方面已被发现在文本-图像模型中非常有效 [9, 27, 36, 50]。我们发现 CFG 在确保生成图像与输入文本提示在文本引导的图像修复中具有强烈对齐方面仍然是至关重要的。我们遵循[15]，并使用高的引导权重以及引导振荡。在基础模型中，确保与文本的强烈对齐最为关键，我们使用一个引导权重调度，该调度在 1 和 30 之间振荡。我们观察到，高的引导权重与振荡的引导 [15] 结合起来，能在样本保真度和文本-图像对齐之间找到最佳平衡。

4. EditBench

概述。EditBench 是一个基于 240 张图像的用于文本引导的图像修复的新基准。每个图像都与一个指定要通过修复修改的图像区域的掩模配对。对于每个图像-掩模对，我们提供三个不同的文本提示，代表着不同的编辑指定方法（见图 4）。类似于 DrawBench [36] 和 PartiPrompts [50] 用于文本到图像生成的基准，EditBench 是手动定制的，以捕捉各种类别和难度。

图像收集。EditBench 包括来自现有计算机视觉数据集（Visual Genome [20] 和 Open Images [21]）的自然图像，以及由文本到图像模型（Imagen [36] 和 Parti [50]）生成的合成图像，比例为50:50。为构建 EditBench，我们首先生成一系列广泛的初始提示，以引导图像收集过程。初始提示通过列举以下类别的属性-对象-场景组合而生成：

属性：{材料、颜色、形状、大小、数量}；
对象：{常见、罕见、文本渲染}；
场景：{室内、室外、逼真、绘画}

对象（Objects）、属性（Attributes）和场景（Scenes）类别的选择灵感来自对 Reddit 上的图像编辑请求的研究。通过手动搜索与对象、属性、场景组合匹配的图像，选择自然图像，例如，对于 'a=material | o=common | s=outdoor'，可以选择由木头制成的室外露台的图像，实例化为 'a=wooden | o=patio | s=outdoor'。合成图像通过在每个类别中对对象和属性进行采样（例如，将 'a=material | o=common | s=outdoor' 实例化为 'a=metal | o=cat | s=outdoor'），编写匹配的提示（例如，在农田中间站着一只金属猫），从文本到图像模型中采样图像 batch 作为候选项，然后手动识别生成的图像，找到最匹配的提示。如图 4 所示，合成图像可以捕捉在自然情况下不太可能发生的对象-属性-场景组合，且编辑这些图像是将描述和手势结合起来的图像创建工作流程中的一个重要用例。

图像掩码（mask）。对于每个图像，我们手动注释一个自由形式的掩码，完全覆盖目标对象。我们小心不要过于密集地分割目标对象，这可能会通过其形状泄露有关下面的对象的信息。我们还包括一系列大小不同的掩码（图 5）来检查对掩码大小的不希望的敏感性 [32]。我们检查模型对于由于来自上下文的压倒性影响而覆盖小掩码的倾向的鲁棒性；我们还评估大面积修复和取消修剪，在这种情况下，挑战是不完全忽视相对较小的上下文。

创建文本提示。先前的工作（例如，GLIDE [27]）经常使用描述整个图像的提示来展示文本引导的图像修复。然而，为了修复图像中描绘复杂场景的特定组件，编写完整的图像描述对于这种用例来说是不自然的，因为图像中可能包含多个对象和字符。因此，对于每个图像-掩码对，我们创建三个文本提示，以从不同角度探测模型行为。一种类型的提示只为掩码提供基本描述（Mask-Simple），另一种提供更多细节（Mask-Rich），最后一种描述整个图像（Full，忽略掩码）。未经掩码的输入图像本身用作根据提示进行修复的参考图像。请参见图 4 进行概述。

5. 评估

我们在 EditBench 上对文本-图像对齐和图像质量进行了全面的人工评估。我们还分析了相对于自动评估指标的人工偏好。我们评估了四个模型：

Imagen Editor（IM）：我们在第 3 节中描述的完整模型；
Imagen EditorRM（IMRM）：通过使用随机掩模而不是目标掩模对 Imagen Editor 进行微调；
Stable Diffusion（SD）：基于 Rombach 等人的模型的1.5版本 [33]；
DALL-E2（DL2）：基于 Ramesh 等人的商业 Web UI [31]，于2022年10月访问。

我们将 Imagen Editor 与 Imagen EditorRM 进行比较，以量化在训练过程中使用目标掩模的好处。我们还包括对 Stable Diffusion 和 DALL-E2 的评估，以将我们的工作置于先前工作的背景中，并更广泛地分析当前技术水平的局限性。

5.1. 人工评估协议

我们进行了两种类型的人工评估：单图评估和强制选择并排图像评估。前者允许我们提出细粒度的问题，以确定是否已正确呈现提示中的每个单独对象和属性。并排评估侧重于 Imagen Editor 与其他模型之间的比较，捕捉相对模型性能。我们在两种设置中评估文本-图像对齐，并仅在并排评估中评估整体图像质量。在所有评估中，我们使用红色框来突出模型编辑的图像区域，并要求注释者特别注意它（图 6）。每个模型根据每个提示的四个抽样图像编辑进行评估。

单图评估。我们的单图评估根据每种类型的提示的给定细节级别进行了调整。对于 Full 提示（描述整个图像），注释者通过对问题 “图像是否与标题匹配？” 给出二元答案来评估通用文本-图像对齐情况。对于描述带有一个对象和一个属性的掩码区域（例如金属猫）的 Mask-Simple 提示，评估更加细化（图 6）。注释者回答了三个二元问题，评估：（1）对象（猫）是否被呈现，（2）给定的属性（金属）是否在图像中存在，以及（3）属性（金属）是否应用于正确的对象（猫）[12,50]。最后，对于 Mask-Rich 提示，我们将先前的评估扩展到多个属性-对象对。注释者回答了三组三个二元问题 - 关于属性、对象、属性绑定 - 总共进行了 9 个二元判断。与先前在图像生成中只评估通用文本-图像对齐 [1,27,53] 的评估相比，我们的细粒度评估更深入地了解语言的忠实度以及哪些类别的对象和属性最困难。总共，注释者执行了 11.5K 个单一模型评估任务（240 张图像 × 3 提示 × 4 个模型 × 4 个样本）。

并排评估。最后，对于 Mask-Rich 提示，我们将先前的评估扩展到多个属性-对象对。注释者回答了三组三个二元问题 - 关于属性、对象、属性绑定 - 总共进行了 9 个二元判断。与先前在图像生成中只评估通用文本-图像对齐 [1, 27, 53] 的评估相比，我们的细粒度评估更深入地了解语言的忠实度以及哪些类别的对象和属性最困难。总共有 18 名（美国）注释者执行了 11.5K 个单一模型评估任务（240 张图像 × 3 提示 × 4 个模型 × 4 个样本）。我们在附录中更详细地描述了人工评估过程。

5.2. 人工评估结果

总体情况。图 7 呈现了按提示类型切片的人工评分。％正确的图像-文本对齐是模型接收的正判断的比例。每个问题都是二元的 - 对于 Full，答案反映了整体印象，而对于 Mask-Simple 和 Mask-Rich，正的回答表示已编辑的图像属性与正确的对象绑定。总体而言，Imagen Editor 获得了最高的评分（比第二高的评分高 10-13％）。对于其余的模型，性能顺序是 IMRM > DL2 > SD（差异为 3-6％），除了在 Mask-Simple 的情况下，IMRM 落后4-8％。由于 Full 和 Mask-Rich 涉及的语义内容相对较多，我们推测 IMRM 和 IM 受益于性能较高的 T5 XXL 文本编码器（参见 [13]，D1）。

有趣的观察是，注释者在 Full 提示下评估模型比在 Mask-Simple 提示下更高，尽管前者涉及更多的语义内容。这可能有两个原因：a）模型是以 Full 提示而不是仅掩码为条件的 [31,33,37]；b）由于我们没有改变上下文（无掩码），Full 因为无掩码（且正确）的像素保持不变而获得正确的关联而具有优势。最后，请注意，在 Mask-Rich 中，虽然 IM 仍保持 10％以上的领先优势（请参见图 7 和图 11 中的示例），但整体性能大幅下降 - 为未来的改进留下了相当大的空间。

并排评估。在图 8 中，与其他模型 1v1 相比，IM 在文本对齐方面领先，并以相当大的边距被注释者首选，分别为 78％，77％和 68％，与 SD，DL2 和 IMRM 相比。在实现类似水平的图像质量性能（0-6％的差异）的同时实现了这些收益。

按目标分类。在图 9 中，IM 在所有对象类型中领先：在常见、罕见和文本渲染方面分别比第二高的高 10％、11％和 11％。对于其余的模型，值得注意的观察是 SD 在文本渲染方面的性能急剧下降（对于常见和罕见的分别为 59％和 44％，对于文本渲染仅为 26％）。

按属性分类。在图 10 中，IM 的评分比第二高的高 13-16％，仅在 count 方面 DL2 落后 1％。IM在此属性类型中也比 IMRM 改进最少（14％，其次是22％），这使得 count 成为未来研究的一个特别有趣的类别。总体而言，模型在 count 和 shape 方面的评分较低，而这两者恰好是更为抽象的属性。结果是直观的，但与对抽象属性的认知研究 [26] 的发现相反。在 size 与 material / count 之间的相对相似的性能略有意外 - 这是一个关系类别，理解需要适当的情境化，而对于后者，目标本身是有关其他目标或一般环境的唯一信息源。一个可能性是我们设计的简单性：我们包括了不同size 的简单比较，但没有构建表面上小/大的目标实际上是相反（一个目标的小尺寸可能仍比另一个目标的大尺寸大）的对抗案例。

5.3. 自动评估指标

尽管人工评估被广泛采用作为图像逼真度和文本-图像对齐评估的黄金标准，但自动评估指标对于迭代超参数调整和模型选择至关重要。我们将人工判断与自动指标进行比较，以确定用于模型开发的最佳指标。

度量标准。我们研究基于 CLIPScore [14] 和 CLIP-R-Prec(ision) [28] 的文本-图像对齐度量标准。CLIPScore 在对比训练的 CLIP 模型 [29] 的潜在空间中计算文本到图像（T2I）或图像到图像（I2I）的相似性。CLIP-R-Prec 是一种基于排名的方法（通常被制定为文本 R-Precision [28]），用于衡量生成的图像在 CLIP 中从一组文本扰动中检索文本提示的效果。我们使用 EditBench 中相同类型的提示的所有其他提示作为文本扰动。

与人类判断的比较。为了评估自动指标和人类分数之间的一致性，一种常见的做法是报告相关系数 [40]。然而，Spearman 的 ρ 等指标考虑了由每个 score 在所有观察对之间引起的排名，其中包括对具有不同提示的图像进行排名。我们不比较具有不同提示的图像，这对于人们来说甚至都是一个困难的判断，而是专注于两个问题：（1）对于给定的提示，自动指标是否能够选择人们更喜欢的图像？以及（2）自动指标是否能够确定具有最高人工评估的模型？

在表 1 中，我们报告了基于 CLIPScore 和人类判断的各种指标之间的一致性，当选择两个由同一文本提示生成的模型图像中的最佳图像时。我们随机采样了 10K 个图像对，每个对中的最佳图像由人工单图像评估得分确定（具有相同人工评分的图像对被排除）。使用完整图像（Full）和围绕掩码区域的裁剪边界框（Crop），计算度量标准。我们发现基于文本到图像（T2I）相似性的CLIPScore 与人类判断的一致性最高，根据提示类型的不同，在 68-76％的对中识别出最佳图像。毫不奇怪，与更复杂的提示（Mask-Rich）相比，CLIPScore 在简单提示（Mask-Simple）上与人类的一致性更高。

在表 2 中，我们报告了在整个 EditBench 上聚合的评估基础上与人类判断的一致性，以及在每个提示类型中选择最佳模型的实例。每个评估都是在 4 个可用模型中为每个提示从中随机选择一个采样图像的选择。每个混合模型的分数是通过对样本数据中相应图像的评分求平均得到的，并进行了 100K 次评估。与表 1 类似，我们发现 CLIPScore（T2I）是最可靠的度量标准（在 39-48％的实例中识别出 4 个混合模型中的最佳模型）。在两个实验中，当图像区域与提示匹配时，即完整图像（Full）描述整个图像的提示时，以及在文本提示仅描述掩膜区域时，围绕掩膜区域的裁剪边界框（Crop）时，CLIPScore 表现最佳。在表 1 和表 2 中，使用 bootstrap 重新采样计算的 95％置信区间均低于 1％。

总体结果。在表 3 中，我们报告了每个模型在所有提示上的自动指标的聚合结果，以及 EditBench参考图像的结果。对于 CLIPScore 指标，图像表示（Full 或 Crop）与提示（Full 或 Mask）相匹配。我们还报告了 NIMA [42] - 一种基于模型的感知图像质量度量标准。我们发现参考图像在 CLIP-R-Precision 上得分最高，并且 Imagen Editor 在每个指标中都排名最高。

6. 社会影响

所呈现的图像编辑模型是生成模型日益增长家族的一部分，这些模型解锁了内容创作的新能力，然而，它们也有可能创造对个人或社会有害的内容。在语言建模中，现在已经广泛认识到 [43, 45] 文本生成模型容易重复和放大其训练集中可能存在的社会偏见。放大社会危害的风险也适用于文本到图像生成和文本引导的图像修复；正如在其他地方讨论的那样，用于训练这些模型的数据同样充满风险 [4, 36, 50]。

由文本引导的图像修复揭示的一个特定风险，但在文本到图像模型中不存在的风险是修复可能使政治人物的图像的可控性扩大和简单创造真实的虚假信息。我们迄今在实验中采取的减轻此风险的两种方法是：(1) 确保每个生成的图像上都有独特的水印，以及 (2) 避免对人脸进行逼真的生成。为了扩展对抗虚假信息的保护，有助于证明图像来源的鲁棒方法，如隐写水印 [24]。此外，文本-图像训练数据集的去重可以降低模型复制训练集图像的可能性 [22]。尽管如此，需要强有力的防护措施来防止生成并暴露给用户的人物的可识别相似性。

7. 结论

我们介绍了 Imagen Editor 和 EditBench，在文本引导的图像修复及其评估方面取得了重大进展。Imagen Editor 是从 Imagen 微调的文本引导的图像修复。Imagen Editor 的关键是添加新的卷积层以实现高分辨率编辑，并使用目标掩码策略进行训练。EditBench 是一个全面系统的文本引导图像修复基准。EditBench 系统地评估了在多个维度上文本引导的图像修复：属性、对象和场景。我们发现 Imagen Editor 在 EditBench 上在人类评估和自动评估方面均优于 DALL-E2 和 Stable Diffusion。

S. 总结

S.1 主要贡献

本文提出了 Imagen Editor，这是一个是从 Imagen 微调的文本引导的图像修复的级联扩散模型。引入了新基准 EditBech，在多个维度（属性、对象和场景）评估了文本引导的图像修复。

S.2 架构和方法

Imagen Editor 的级联架构如图 2 所示，它从用户处接收三个输入：待编辑图像，指定编辑区域的二元掩码，以及文本提示。所有三个输入都用于引导输出样本。

目标掩模。创建一个掩模-提示编辑对齐的大型数据集很困难。而随机掩模通常可以仅使用图像上下文合理修复，而不太关注提示。因此本文提出的目标掩模（用现成的目标检测器来检测和定位目标，并使用这些边界框生成在训练期间使用的掩模），鼓励模型在训练期间更多地依赖于文本提示。这有助于使 Imagen Editor 更易控制，并显著改善文本-图像对齐。

EditBench 是一个基于 240 张图像的用于文本引导的图像修复的新基准。每个图像都与一个指定要通过修复修改的图像区域的掩模配对。对于每个图像-掩模对，提供三个不同的文本提示，代表着不同的编辑指定方法（见图 4）。