（2023|CVPR，LDM，接地信息，门控自注意）GLIGEN：基于开放集的文本到图像生成

最新推荐文章于 2024-10-09 09:00:12 发布

EDPJ

最新推荐文章于 2024-10-09 09:00:12 发布

阅读量1.2k

点赞数 6

分类专栏：论文笔记文章标签：计算机视觉深度学习人工智能

本文链接：https://blog.csdn.net/qq_44681809/article/details/133850440

版权

论文笔记专栏收录该内容

268 篇文章 34 订阅

订阅专栏

GLIGEN: Open-Set Grounded Text-to-Image Generation

公众号：EDPJ（添加 VX：CV_EDPJ 或直接进 Q 交流群：922230617 获取资料）

5.1. 闭集接地 Text2Img 生成

5.2. 开集接地 text2img 生成

0. 摘要

大规模的文本到图像扩散模型取得了令人惊叹的进展。然而，现状是只使用文本输入，这可能会影响可控性。在这项工作中，提出了 GLIGEN，即 Grounded-Language-to-Image Generation，这是一种新颖的方法，它在现有的预训练文本到图像扩散模型的基础上构建并扩展其功能，使其能够根据接地（grounding，可翻译为参考/对齐）输入进行条件生成。为了保留预训练模型的广泛概念知识，我们冻结了其所有权重，并通过一种门控机制将接地信息注入新的可训练层。我们的模型实现了具有标题和边界框条件输入的开放世界接地文本到图像生成，并且其接地能力在处理新的空间配置和概念时具有很强的泛化能力。GLIGEN 在 COCO 和 LVIS 数据集上的零样本性能明显优于现有的监督布局到图像生成基线方法。

1. 简介

近年来，图像生成研究取得了巨大的进展。在过去的几年里，GANs（生成对抗网络）是最先进的技术，它们的潜在空间和条件输入已经得到了深入研究，以实现可控制的操纵和生成。文本条件自回归模型和扩散模型已经展示了惊人的图像质量和概念覆盖范围，这是由于它们更稳定的学习目标和在网络图像文本配对数据上的大规模训练。这些模型已经引起了广泛的关注，甚至在普通公众中也被广泛应用（例如，艺术设计和创作等实际用途）。尽管取得了令人兴奋的进展，但现有的大规模文本到图像生成模型不能以其他输入模态为条件，因此缺乏精确定位概念、使用参考图像或其他条件输入来控制生成过程的能力。目前的输入，即仅自然语言，限制了信息表达的方式。例如，使用文本很难精确描述对象的位置，而边界框/关键点可以轻松实现这一点，如图 1 所示。虽然存在接受其他输入模态（除文本以外）的条件扩散模型和GANs，用于修复图像，布局到图像生成等，但它们很少结合这些输入来进行可控的文本到图像生成。

此外，以前的生成模型，无论生成模型家族如何，通常是在每个特定任务数据集上独立训练的。相比之下，在识别领域，长期以来的范例是建立识别模型，从大规模图像数据 [4,16,17] 或图像-文本对 [33,50,75] 的预训练模型开始。由于扩散模型已经在数十亿的图像-文本对上进行了训练，一个自然的问题是：我们是否可以在现有的预训练扩散模型的基础上构建，并赋予它们新的条件输入模态？通过这种方式，类似于识别文献，由于预训练模型具有广泛的概念知识，我们可以在其他生成任务上实现更好的性能，同时在现有的文本到图像生成模型上获取更多的可控性。

有了上述目标，我们提出了一种方法，为预训练的文本到图像扩散模型提供新的接地条件输入。如图 1 所示，我们仍然保留文本标题作为输入，但还可以使用其他输入模态，如边界框来作为接地概念、接地参考图像、接地部分关键点等。关键挑战是在学习注入新的接地信息的同时保留预训练模型的原始广泛概念知识。为防止遗忘知识，我们建议冻结原始模型的权重，并添加新的可训练的门控 Transformer 层，通过一个门控机制，将新的接地信息输入到预训练模型中。在训练过程中，我们逐渐融合新的接地信息到预训练模型中。这种设计使得在生成期间的采样过程变得更加灵活，以提高质量和可控性；例如，我们展示了在采样步骤的前半部分使用完整模型（所有层），在后半部分仅使用原始层（没有门控 Transformer 层）可以产生精确反映接地条件的生成结果，同时也具有高质量的图像。

在我们的实验中，我们主要研究基于边界框的接地文本到图像生成，受到了在 GLIP 中使用边界框的基础语言图像理解模型最近的成功启发。为了使我们的模型能够确定开放世界的词汇概念，我们使用相同的预训练文本编码器（用于编码标题）来编码与每个接地实体相关联的每个短语（即每个边界框一个短语），并将编码的标记传送到新插入的层中，同时具有编码的位置信息。由于共享的文本空间，我们发现，即使只在COCO数据集上进行了训练，我们的模型也能够推广到未见过的对象。它在 LVIS 上的泛化性能明显优于强有力的全监督基线。为了进一步提高我们模型的接地能力，我们统一了用于训练的目标检测和接地数据格式，遵循 GLIP。通过更大的训练数据，我们的模型的泛化能力得到了持续的改善。

贡献：

我们提出了一种新的文本到图像生成方法，为现有的文本到图像扩散模型提供了新的接地可控性。
通过保留预训练权重并学习逐渐集成新的定位层，我们的模型实现了基于边界框输入的开放世界接地文本到图像生成，即合成在训练中未观察到的新的定位概念。
我们的模型在布局到图像任务的零样本性能明显优于以前的最新技术，展示了在大规模预训练生成模型的基础上构建下游任务的能力。

2. 相关工作

大规模文本到图像生成模型。这一领域的最新模型通常是自回归型 [13, 52, 69, 74] 或扩散型 [45, 51, 53, 56, 81]。在自回归型模型中，DALL-E [52] 是一项突破性工作，展示了零样本能力，而Parti [74] 则展示了扩大自回归模型的可行性。扩散模型也展示出非常有希望的结果。DALL-E 2 [51] 从 CLIP [50] 图像空间生成图像，而 Imagen [56] 发现使用预训练语言模型的好处。同时期的 Muse [6] 表明，通过掩模建模可以实现具有更高推理速度的 SoTA 级生成性能。然而，所有这些模型通常只以标题作为输入，这对于传达其他信息，如物体的精确位置，可能有困难。Make-A-Scene [13] 还将语义图纳入其文本到图像生成中，通过训练一个编码器来对语义掩模进行标记化以进行条件生成。但是，它只能在封闭集（158个类别）中操作，而我们的接地实体可以是开放世界的。同时期的 eDiff-I [3] 展示了通过更改注意力图，可以生成大致遵循语义图输入的对象。然而，我们认为我们的具有边界框的接口更简单，更重要的是，我们的方法允许其他条件输入，如关键点、边缘图、推理图像等，这些很难通过注意力进行操作。

从布局生成图像。给定用物体类别标记的边界框，任务是生成相应的图像 [24, 39, 61–63, 72, 78]，这是目标检测的逆向任务。Layout2Im [78] 提出了这个问题，并结合了 VAE 目标编码器、LSTM [22] 目标融合器和图像解码器来生成图像，使用全局和目标级对抗损失 [14] 来强制实现逼真和布局对应。LostGAN [61, 62] 生成一个掩码表示，用于规范特征，灵感来自 StyleGAN [28]。LAMA [39] 改进了中间掩码质量，以获得更好的图像质量。基于 Transformer [66] 的方法 [24, 72]也已经得到探讨。需要指出的是，现有的布局到图像方法是封闭集的，即它们只能生成在训练集中观察到的有限的局部视觉概念，如 COCO 中的 80 个类别。相比之下，我们的方法代表了第一个开放式接地图像生成的工作。与此同时，同时进行的工作 ReCo [73] 也通过建立在预训练的 Stable Diffusion 模型 [53] 的基础上，展示了开放式能力。然而，它微调了原始模型的权重，这有可能导致遗忘知识。此外，它只展示了有关边界框的接地结果，而我们在图 1 中展示了更多的输入模态。

其他条件图像生成。对于 GAN，已经探索了各种不同的条件信息，例如文本 [65, 70, 80]、边界框 [61, 62, 78]、语义掩码 [36, 47]、图像 [8, 38, 83] 等。对于扩散模型，LDM [53] 通过交叉注意力层注入条件，提出了一种统一的条件生成方法。Palette [55] 使用扩散模型执行图像到图像的任务。这些模型通常是独立地从头开始训练的。在我们的工作中，我们研究如何构建在大规模网络数据上预训练的现有模型，以一种经济高效的方式实现新的开放式接地图像生成能力。

3. 潜在扩散模型的预备知识

（2022|CVPR，LDM）使用潜在扩散模型进行高分辨率图像合成-CSDN博客

4. 开放集接地图像生成

4.1. 接地指令输入

对于接地文本到图像生成，有各种方法可以通过附加条件来接地生成过程。我们将接地实体的语义信息表示为 e，可以通过文本或示例图像进行描述；将接地的空间配置表示为 l，可以通过边界框、一组关键点、边缘图等进行描述。需要注意的是，在某些情况下，语义和空间信息可以单独用 l 来表示（例如，边缘图），其中一个单一的图可以表示图像中可能存在的对象以及它们的位置。我们将接地文本到图像模型的指令定义为标题和接地实体的组合：

其中 L 是标题长度，N 是要接地的实体数量。在这项工作中，我们主要研究使用边界框作为接地的空间配置 l，因为它易于获得并且对用户来说易于注释。对于接地实体 e，我们主要关注使用文本作为其表示，因为它更为简单。我们将标题和接地实体都处理为扩散模型的输入标记，如下所述。

标题标记。标题 c 的处理方式与 LDM 中相同。具体而言，我们使用 h^c = [(h^c)_1, · · · , (h^c)_L] = f_text(c) 获取标题特征序列（图 2 中的黄色标记），其中 (h^c)_ℓ 是标题中第 ℓ 个单词的上下文文本特征。

接地标记。对于每个用边界框表示的接地文本实体，我们使用位置信息 l = [α_min, β_min, α_max, β_max]，其中包括其左上角和右下角的坐标。对于文本实体 e，我们使用相同的预训练文本编码器获取其文本特征 f_text(e)（图 2 中的浅绿色标记），然后将其与边界框信息融合以生成接地标记（图 2 中的深绿色标记）：

其中，Fourier 是 Fourier 嵌入 [44]，而 MLP(·, ·) 是一个多层感知器，首先在特征维度上连接这两个输入。接地标记序列表示为 h^e = [(h^e)_1, · · · , (h^e)_N]

从封闭集到开放集。请注意，现有的布局到图像方法只处理封闭集设置（例如，COCO 类别），因为它们通常会为每个实体学习一个向量嵌入 u，以替代公式（5）中的 f_text(e)。对于具有 K 个概念的封闭集设置，会学习一个具有 K 个嵌入的字典，U = [u_1, · · · , u_K]。尽管这种非参数化表示在封闭集设置中效果良好，但存在两个缺点：(1) 条件设置在评估阶段是作为 U 上的字典查找来实现的，因此模型只能将已观察到的实体接地到生成的图像中，缺乏通用性以接地新的实体；(2) 模型中从未使用过单词/短语，缺少底层语言指令的语义结构 [23]。相比之下，在我们的开放式设计中，由于名词实体由编码标题的相同文本编码器处理，我们发现即使限制了定位信息为接地训练数据集中的概念，我们的模型仍然可以推广到其他概念，正如我们将在实验中展示的那样。

其他接地条件的扩展。请注意，公式（4）中提出的接地指令是一种通用形式，尽管到目前为止，我们的描述主要集中在使用文本作为实体 e 和边界框作为 l 的情况上（本文的主要设置）。为了展示 GLIGEN 框架的灵活性，我们还研究了扩展公式（4）使用场景的其他代表性情况。

图像提示。尽管语言允许用户以开放词汇的方式描述丰富的实体，但有时更抽象和细粒度的概念可以更好地通过示例图像来描述。为此，可以使用图像来描述实体 e，而不是语言。我们使用图像编码器来获取特征 f_image(e)，当 e 是图像时，它替代了公式（5）中的 f_text(e)。
关键点。作为一种用于指定实体的空间配置的简单参数化方法，边界框通过仅提供对象布局的高度和宽度来简化用户与机器的交互界面。GLIGEN 可以考虑更丰富的空间配置，例如使用关键点，通过使用一组关键点坐标参数化公式（4）中的 l。与编码边界框类似，可以将 Fourier嵌入 [44] 应用于每个关键点位置 l = [x, y]。
空间对齐的条件。为了实现更精细的可控性，可以使用与空间对齐的条件图，例如边缘图、深度图、法线图和语义图。在这些情况下，语义信息 e 已经包含在每个条件图的空间坐标 l 中。可以使用网络（例如卷积层）将 l 编码为 h×w 的接地标记。我们还注意到，将 l 额外馈送到 UNet 的第一个卷积层可以加速训练。具体而言，UNet 的输入是 CONCAT(f_l(l), z_t)，其中 f_l 是一个简单的下采样网络，将 l 减小到与 z_t 相同的空间分辨率。在这种情况下，UNet 的第一个卷积层需要是可训练的。

图 1 显示了这些其他接地条件的生成示例。请参考附录以获取更多详细信息。

4.2. 接地生成的持续学习

我们的目标是为现有的大规模语言到图像生成模型提供新的空间接地能力。大型扩散模型已经在网络规模的图像文本上进行了预训练，以获取合成基于多样和复杂语言指令的逼真图像所需的知识。由于预训练成本高昂且性能优越，因此在扩展新功能的同时保留模型权重中的此类知识非常重要。因此，我们考虑锁定原始模型权重，并逐渐通过调整新模块来调整模型。

门控自注意。我们将 v = [v_1，· · ·，v_M] 表示为图像的视觉特征标记。LDM 的原始 Transformer 块包括两个注意层：视觉标记上的自注意力，其后是来自标题标记的交叉注意力。通过考虑残差连接，可以将这两层写为：

我们冻结这两个注意力层并添加一个新的门控自注意力层，以实现空间接地能力；请参见图 3。具体来说，注意力是在视觉和接地标记 [v,h^e] 的串联上执行的：

其中 TS(·) 是一个仅考虑视觉标记的标记选择操作，γ 是一个可学习的标量，初始化为 0。β 在整个训练过程中设置为 1，并且仅在推理过程中因时间表采样而变化（下面介绍）以提高质量和可控性。请注意，（8）插入在（6）和（7）之间。直观地说，（8）中的门控自注意力允许视觉特征利用条件信息，并将产生的接地特征视为残差，其门控最初设置为 0（因为 γ 初始化为 0）。这也使训练更加稳定。请注意，类似的思想在 Flamingo [1] 中使用，但它使用了门控的交叉注意力，这在我们的消融研究中导致较差性能。

学习过程。我们调整预训练模型，以便注入接地信息，同时保持所有原始组件不变。通过将所有新参数表示为 θ′，包括（8）中的所有门控自注意力层和（5）中的 MLP，我们基于接地指令输入 y 使用潜在扩散模型（LDM）中相同的原始去噪目标进行模型的持续学习：

模型为什么要尝试使用新的接地信息呢？直观地说，在反向扩散过程中，如果模型可以利用外部知识（例如，每个对象的位置），那么预测添加到训练图像中的噪声将更容易。因此，通过这种方式，模型在保留预训练的概念知识的同时学会使用附加信息。

推理中的时间表采样。GLIGEN 的标准推理方案是在（8）中设置 β = 1，并且整个扩散过程受到接地标记的影响。这种恒定的 β 采样方案在生成和接地方面提供了总体上良好的性能，但有时会生成比原始文本到图像模型质量较低的图像（例如，当 Stable Diffusion 在高审美评分图像上进行了微调时）。为了在生成和接地之间取得更好的平衡，我们提出了一个时间表采样方案。由于我们冻结了原始模型的权重并添加了新的层以在训练中注入新的接地信息，所以在推理期间有灵活性，可以根据需要在任何时候安排扩散过程，要么同时使用接地和语言标记，要么仅使用原始模型的语言标记，方法是在（8）中设置不同的 β 值。具体来说，我们考虑一个两阶段的推理过程，由 τ ∈ [0, 1] 划分。对于具有 T 步的扩散过程，可以在前 τ∗T 步中将 β 设置为 1，然后在剩余的 (1−τ)∗T 步中将 β 设置为 0：

时间表采样的主要好处是在早期决定大致的概念位置和轮廓，然后在后期处理细节，从而提高了视觉质量。它还允许我们将在一个领域（人类关键点）中训练的模型扩展到其他领域（猴子、卡通角色），如图 1 所示。

5. 实验

我们在封闭集和开放集设置下评估我们的模型的文本到图像生成，还展示了其他接地模态的扩展。我们进行了主要的定量实验，基于预训练的 LDM 在 LAION 上进行，除非另有说明。

5.1. 闭集接地 Text2Img 生成

首先，我们在封闭集设置中评估模型的生成质量和接地准确性。为此，我们在 COCO2014 数据集上进行训练和评估，这是文本到图像文献中使用的标准基准 [51, 56, 65, 70, 82]，并评估不同类型的接地指令对我们模型性能的影响。

接地指令。我们使用以下接地指令来训练我们的模型：1) COCO2014D：检测数据。没有标题注释，所以我们使用空标题输入 [21]。检测注释用作名词实体。2) COCO2014CD：检测 + 标题数据。同时使用标题和检测注释。请注意，名词实体可能并不总是存在于标题中。3) COCO2014G：接地数据。在给定标题注释的情况下，我们使用 GLIP [34]，它检测图像中标题的名词实体，以获取伪框标签。有关这三种数据类型的更多详细信息，请参考附录。

基线。基线模型列在表 1 中。在这些模型中，我们还对在 LAION 400M [57] 上进行预训练的 LDM [53] 进行微调，使用 COCO2014 的标题注释进行微调，我们将其表示为 LDM*。

文本到图像的基线模型，由于无法以框输入为条件，因此在 COCO2014C 标题数据上进行评估。

评估指标。我们使用 30K 随机抽样的图像的标题和/或框注释生成 30K 图像进行评估。我们使用FID [20] 来评估图像质量。为了评估接地准确性（即输入边界框和生成实体之间的对应关系），我们使用 YOLO 分数 [40]。具体来说，我们使用预训练的 YOLO-v4 [5] 来检测生成图像上的边界框，并使用平均精度（AP）将它们与地面实况框进行比较。由于先前的文本到图像方法不支持以框注释作为输入，因此在此指标上与它们进行比较是不公平的。因此，我们仅报告 LDM* 的参考数据。

结果。表 1 显示了结果。首先，我们可以看到我们的方法的图像合成质量，根据 FID 衡量，由于在预训练阶段学到的丰富的视觉知识，比大多数最先进的基线模型都要好。接下来，我们发现三种接地指令导致与 LDM* 基线（在 COCO2014 上进行字幕注释微调）相当的 FID。我们使用检测注释指令（COCO2014D）训练的模型具有最佳性能。然而，当我们使用 COCO2014CD 指令评估该模型时，我们发现其性能较差（FID：8.2）-其理解真实标题的能力可能受限，因为它只是使用空标题进行训练。对于使用 GLIP 接地指令（COCO2014G）训练的模型，我们实际上使用COCO2014CD 指令进行评估，因为我们需要计算 YOLO 分数，这需要使用地面实况检测注释。其略差的 FID 可能归因于其从 GLIP 伪标签中学到的知识。同样的原因可以解释其较低的 YOLO 分数（即，该模型在训练过程中没有看到任何地面实况检测注释）。

总体而言，这个实验表明：1）我们的模型可以成功地以框作为附加条件，同时保持图像生成质量。2）所有接地指令类型都是有用的，这表明将它们的数据组合在一起可以带来互补的好处。

与 Layout2Img 生成方法的比较。到目前为止，我们已经看到我们的模型正确地学会使用接地条件。但与专门设计用于 Layout2Img 生成的方法相比，它有多准确呢？为了回答这个问题，我们在COCO2017D 上训练我们的模型，该数据集只有检测注释。我们使用 2017 年的拆分（而不是之前的 2014 年），因为它是 Layout2Img 文献中的标准基准。在这个实验中，我们使用与所有 Layout2Img 基线相同的注释。

表 2 显示，我们在图像质量和接地准确性方面实现了最先进的性能。我们认为核心原因是以前的方法是从头开始训练他们的模型，而我们是建立在一个具有丰富视觉语义的大规模预训练生成模型之上。定性比较在补充材料中。我们还扩大了我们的训练数据（稍后会讨论），并在该数据集上进行了预训练。图 5 左显示了该模型的零样本和微调结果。

5.2. 开集接地 text2img 生成

COCO训练模型。我们首先使用仅在 COCO 的接地注释（COCO2014CD）上训练的 GLIGEN 模型，评估它是否能生成超出 COCO 类别的接地实体。图 4 显示了定性结果，GLIGEN 可以接地新概念，例如 “蓝松鸟”、“羊角面包”，或接地物体属性，例如 “棕色木桌”，超出了训练类别。我们假设这是因为 GLIGEN 的门控自注意力学习将与标题中的接地实体对应的视觉特征重新定位到随后的交叉注意层，由于这两个层中的文本空间是共享的，因此获得了泛化能力。

我们还在 LVIS [15] 上定量评估我们模型的零样本生成性能，其中包含 1203 个长尾对象类别。我们使用 GLIP 从生成的图像中预测边界框并计算 AP，因此我们将其称为 GLIP 分数。我们将其与专为 layout2img 任务设计的最先进模型 LAMA [40] 进行比较。我们使用 LVIS 训练集上的官方代码在全监督设置下训练 LAMA，而我们直接在零样本任务转移方式下评估我们的模型，通过在没有看到任何LVIS标签的情况下在 LVIS 验证集上进行推断。表 3（前 4 行）显示了结果。令人惊讶的是，尽管我们的模型仅在 COCO 注释上进行了训练，但它在性能上远远超过了监督基线。这是因为基线是从头开始训练的，难以从有限的注释中学习（LVIS 中的许多稀有类别的训练样本少于五个）。相反，我们的模型可以利用预训练模型的广泛概念知识。

扩大训练数据规模。接下来，我们将研究在更大的训练数据上，我们的模型的开放集能力。具体来说，我们遵循 GLIP [34]，在 Object365 [58]、GoldG [34] 上进行训练，这两个数据集汇集了两个接地数据集：Flickr [49] 和 VG [31]。我们还使用带有由 GLIP 生成的接地伪标签的 CC3M [59] 和SBU [46]。表 3 显示了数据扩展的结果。随着训练数据的扩大，我们的模型的零样本性能增加，特别是对于罕见的概念。我们还尝试在我们最大的数据集上对预训练的模型进行微调，然后在图 5 右侧展示其性能。为了展示我们方法的通用性，我们还基于最大数据集使用了 Stable Diffusion 模型的检查点来训练我们的模型。我们使用了一些定性示例，如图 6 所示，使用这个模型。与普通的 Stable Diffusion 相比，我们的模型获得了接地能力。我们注意到 Stable Diffusion 模型可能会忽略某些对象（第二个示例中的 “伞”），因为它使用 CLIP 文本编码器，该编码器倾向于关注全局场景属性，可能忽略对象级别的细节 [3]。它还难以生成在空间上与事实相反的概念。通过基于接地标记明确注入实体信息，我们的模型可以改善接地能力的两个方面：提及的对象更有可能出现在生成的图像中，并且对象位于指定的空间位置。

5.3. 超越文本模态接地

基于图像的生成。可以使用参考图像来表示接地实体，如前面讨论过的。图 1（b）显示了定性结果，展示了视觉特征可以补充难以用语言描述的细节。

文本和图像的生成。除了使用文本或图像来表示接地实体之外，还可以在一个模型中保留两种表示以进行更有创造性的生成。图 1（c）展示了文本接地生成与风格/基调迁移。对于风格参考图像，我们发现将其接地到图像的角或边缘是足够的。由于模型需要为整个图像生成和谐的风格，我们假设自我注意层可以将这些信息广播到所有像素，从而导致整个图像的一致风格。

关键点接地生成。我们还演示了使用关键点来进行关节对象控制的 GLIGEN，如图 1（d）所示。请注意，该模型仅使用人体关键点注释进行训练；但由于我们提出的时间表采样技术，它可以推广到其他类似的对象。我们还在附录中对这种接地条件进行了定量研究。基于空间对齐条件映射的生成。图 1（e-h）展示了深度图、边缘图、法线图和语义图接地生成的结果。这些类型的条件允许用户更精细地控制生成过程。有关更多定性结果，请参阅附录。

5.4. 时间表采样

如等式（8）和等式.（10）所述，我们可以通过将 β 设置为 1（使用额外的接地信息）或 0（还原到原始预训练扩散模型）来调度推断时采样。这可以使我们的模型在不同阶段利用不同的知识。图 7 通过将 τ 设置为 0.2 定性地展示了我们的定时抽样的好处。同一行中的图像共享相同的噪声和条件输入。第一行显示了时间表采样可以用于提高图像质量，因为原始的 Stable Diffusion 模型是在高质量图像上训练的。第二行显示了使用 COCO 人类关键点注释训练的我们的模型的生成示例。由于这个模型纯粹是用人体关键点进行训练的，最终的结果倾向于生成人类，即使在标题中指定了不同的对象（即机器人）。然而，通过使用定时抽样，我们可以扩展这个模型，以生成具有类似人类形状的其他对象。

6. 结论

我们提出了 GLIGEN，用于扩展预训练的文本到图像扩散模型的接地能力，并演示了如何使用边界框作为接地条件进行开放世界泛化。我们的方法简单而有效，可以轻松扩展到其他条件，如关键点、参考图像、空间对齐条件（例如边缘图、深度图等）。GLIGEN 的多功能性使其成为推进文本到图像合成领域的有前途的方向，并在各种应用中扩展预训练模型的能力。

附录

F. 对 GLIGEN 的分析

为了更好地理解 GLIGEN，我们选择研究基于边界框的模型。具体来说，我们试图可视化门控自注意力层内的注意力图，并了解等式 8 中可学习的 γ 在训练过程中的变化。

在图 14 中，我们首先展示了使用两个接地标记（teddy bear；bird）的生成结果。接着，我们可视化了我们添加的层之间的注意力图，这些层位于视觉特征和两个接地标记之间，其中包括 8 个头和 UNet 中间层。即使在第一个采样步骤（输入是高斯噪声）中，视觉特征开始关注具有正确空间对应关系的接地标记。这种对应关系在后续采样步骤中逐渐消失（与我们的 “时间表采样技术” 一致，我们发现在早期采样步骤中决定了粗略布局）。

我们还发现 UNet 的起始层在所有采样步骤中的注意力图较难解释。我们猜测这是因为对于视觉标记，缺少位置嵌入，而通过 Conv 层的零填充可以将位置信息泄漏到后来的层。这可能表明，在扩散模型的预训练（例如，Stable Diffusion 模型训练）中添加位置嵌入可以有益于下游适应。

图 15 显示了这一层中学到的 γ（等式 8）在训练过程中的变化。我们经验性地发现，在约 60-70k 次迭代之后（在图中的峰值附近），模型开始学习对应关系。我们猜测，模型试图在训练开始时专注于学习空间对应关系，然后尝试微调和抑制新层的贡献，以便它可以专注于图像质量和细节，因为原始权重已经固定。

S. 总结

S.1 主要贡献

本文提出了 GLIGEN，即 Grounded-Language-to-Image Generation，除了以文本为条件外，它还能够根据接地（grounding，可翻译为参考/对齐）输入来控制条件生成。为了保留预训练模型的广泛概念知识，冻结了其所有权重，并通过一种门控机制将接地信息注入新的可训练层。

S.2 架构和方法

接地指令输入。

可用的接地条件包括：边界框、关键点、参考图像、深度图、边缘图、法线图、语义图等。
本文以边界框（接地信息）为例，接地标记的生成实例如图 2 所示。对于文本实体，使用与生成标题标记相同的预训练文本编码器获取其文本特征（图 2 中的浅绿色标记），然后将其与边界框信息融合以生成接地标记（图 2 中的深绿色标记）。

接地生成。架构如图 3 所示。