《SSMG: Spatial-Semantic Map Guided Diffusion Model for Free-form Layout-to-Image Generation》AAAI2024-CSDN博客

本文链接：https://blog.csdn.net/qq_46981910/article/details/144745825

摘要

这篇论文介绍了一种名为SSMG（Spatial-Semantic Map Guided Diffusion Model）的新型扩散模型，旨在解决从用户指定的布局生成真实和复杂场景图像的问题。尽管文本到图像（T2I）生成模型取得了显著进展，但即使是长而复杂的文本描述也难以传达详细的控制。相比之下，布局到图像（L2I）生成因其细粒度控制而受到关注。现有方法将布局信息转换为标记或RGB图像以进行条件控制，导致对各个实例的空间和语义控制不足。SSMG模型通过采用从布局派生出的特征图作为指导，实现了与以前工作相比具有更好空间和语义控制性的生成质量。此外，论文还提出了关系敏感注意力（RSA）和位置敏感注意力（LSA）机制，以增强模型对场景中多个对象间关系和空间信息的敏感性。广泛的实验表明，SSMG在一系列指标上取得了高度有希望的结果，包括保真度、多样性和可控性。

Introduction

现有的问题：

文本引导：没有布局提示，容易产生布局错乱。
Token引导：通过将布局的空间和语义信息转化为嵌入，利用文本编码器（如CLIP）和各种标记化方法进行生成。这种方法在像素级别的精细空间控制上存在不足，可能导致对象边界不清晰和对象丢失。
图像引导：通过将视觉条件（如布局框）融入冻结的T2I扩散模型来提供额外的条件信号。这种方法在空间控制上表现较好，但在语义控制方面主要依赖全局图像描述，缺乏对个别实例的详细语义控制。

SSMG方法的优势：

SSMG方法通过使用空间语义图作为指导，能够更好地控制生成图像中的空间布局和语义细节。
SSMG方法不仅保留了布局的2D空间结构，还提供了比RGB图像指导更丰富的语义维度，使得每个空间像素的内容表示更加详细。

创新之处：

空间语义图引导：采用从布局派生出的特征图作为生成过程的指导，保留了布局的空间结构，并提供了丰富的语义维度。
关系敏感注意力（RSA）：通过建模场景中多个对象之间的关系，增强了模型对场景上下文的理解。
位置敏感注意力（LSA）：提高了模型对嵌入在指导中的空间信息的敏感性，增强了对生成图像的语义和空间控制。

Method

空间语义映射引导(SSMG)扩散模型三个主要部分:(a)初始化基于给定位置信息和文本描述的空间语义映射。(b) 关系敏感注意 (RSA) 模块，它通过对不同实例和整个场景之间的关系进行建模来增强初始空间语义图。(c) 位置敏感注意 (LSA) 模块，该模块能够根据设计的空间语义图生成条件，实现布局信息的充分集成，同时努力保留大规模预训练 T2I 模型的能力。

3.1 初始化控件语义图

目标是生成一个既包含语义信息又包含空间位置信息的2D特征图，作为引导信号。

每一个实例根据对文本描述进行编码来捕获语义信息，得到文本嵌入，再将文本嵌入根据布局与像素进行关联。

3.2 关系敏感注意力（RSA）

初始空间语义图独立处理每个实例的语义和空间信息，忽略了场景中实例之间的关系以及每个实例与整体场景的关系。为了克服这个限制，我们提出了RSA模块。这个模块允许每个实例的空间和语义信息与其他所有实例或场景信息进行交叉引用，从而将上下文信息整合到每个实例的特征表示中。

首先引入一个辅助场景Token g 来表示全局场景信息。然后，修改了传统的自注意力机制，引入关系矩阵 M：

其中◦索引元素乘积，d是查询和键的维度。

[F,g]：扁平特征图F空间维度concat上全局场景token g。对[F,g]进行线性投影得到Q、K和V。

以两种方式构建关系矩阵 M，即实例实例 $R_{inst}$ 和实例场景 $R_{scene}$ ：

实例-实例关系 $R_{inst}$ ：如果两个像素（或标记）属于不同的实体，则它们被分类为实例-实例相对关系。在重叠的情况下，我们优先考虑将它们视为属于不同的实体，从而强调实例之间的区别和关系。
实例-场景关系 $R_{scene}$ ：当一个标记对应于场景标记，另一个与实例实体相关联时，这两个像素（或标记）被定义为实例-场景相对关系。

关系矩阵 M 的构建确保了实例之间的关系以及它们与整体场景的关系被充分考虑。在执行注意力操作后，场景Token g 被丢弃，特征图恢复到其原始形状。