文章链接:https://arxiv.org/pdf/2409.08240
项目链接:https://ifadapter.github.io/
亮点直击
提出了实例特征生成任务,旨在解决扩散模型在多实例生成中面临的定位和特征准确性问题。此外,引入了COCO IFG基准和验证pipeline,用于评估和比较模型性能。
提出了IFAdapter,该模块利用新的外观tokens和实例语义图来增强扩散模型对实例的描绘,从而实现高保真度的实例特征生成。
全面的实验结果表明,本模型在定量和定性评估中均优于基线模型。
IFAdapter 设计为即插即用的组件,能够无缝增强各种社区模型的布局控制能力,无需重新训练。
总结速览
解决的问题:
传统的文本生成图像 (T2I) 扩散模型在生成单个实例时效果很好,但在多个实例的特征生成和准确定位上存在挑战。尽管布局生成图像 (L2I) 任务通过使用边界框提供空间控制来解决定位问题,但在实例特征的精确生成上仍然不足。
提出的方案:
为了解决这一问题,提出了实例特征生成 (IFG) 任务,旨在同时确保生成实例的准确定位和特征保真度。为此,引入了实例特征适配器 (IFAdapter) ,作为一种模块,能够在不同模型中灵活应用。该模块通过额外的外观tokens和实例语义图对齐实例特征与空间位置,从而增强特征表现。
应用的技术:
IFAdapter 利用了外观tokens来增强特征生成,并通过实例语义图将实例特征与空间位置对齐。这种方法可作为扩散过程中的模块,适配不同的社区模型。
达到的效果:
实验结果表明,IFAdapter 在定量和定性评估中均优于其他模型,有效提升了实例的定位准确性和特征保真度。同时,为此任务贡献了IFG 基准,并开发了验证pipeline,客观比较不同模型生成实例的能力。
方法
问题定义
在实例特征生成任务中,LDM需要额外依赖一组局部描述符进行条件生成,记为 。其中, 代表第 个实例的生成位置,格式为 ; 是描述第 个实例特征的对应短语。与其他方法不同,本文的方法中 包含更详细的扩展描述,例如混合颜色、复杂纹理等。在 作为辅助条件的情况下,LDM 应能够生成在位置和特征上都具有高保真度的实例。
IFAdapter
在本工作中,IFAdapter 旨在控制实例特征和位置的生成。使用开源的Stable Diffusion 作为基础模型。为了解决实例特征丢失的问题,引入了外观tokens,作为高频信息的补充。此外,为了引入更强的空间先验,确保对位置和特征的准确控制,利用外观tokens构建了实例语义图,以引导生成过程。
外观tokens
L2I Stable Diffusion 通过引入局部描述和位置作为附加条件,具有丰富特征的实例。现有的方法通常使用预训练的 CLIP 文本编码器生成的上下文化token(即文本结束token,EoT token)来引导实例特征的生成。尽管 EoT token 在前景生成中起着关键作用,但主要用于生成粗略的结构内容,因此需要额外的标记来补充高频细节。因此,现有的 L2I 方法若丢弃其他所有标记,则无法生成详细的实例特征。
一种简单的缓解方法是使用 CLIP 文本编码器生成的所有 77 个 tokens作为实例级条件。然而,这种方法在推理和训练过程中都会显著增加内存需求。此外,这 77 个 tokens中包含大量的填充token,它们对生成没有贡献。虽然移除填充 token可以降低计算成本,但由于描述长度的不同,这种策略无法与批量训练兼容。为了解决这一问题,本文提出将特征信息压缩到一小组外观tokens中,并利用这些tokens来补充 EoT token。
受到 Perceiver 设计的启发,本文使用一组可学习的外观查询,通过交叉注意力与实例描述embeddings进行交互,从而提取特征信息并生成外观tokens,如下图 2(a) 所示。值得注意的是,外观查询仅与word tokens 交互,从而将任意长度的描述转换为固定长度的外观tokens。此外,为了获取不同复杂度的文本特征,查询tokens还会与文本编码器浅层的文本特征交互。通过将实例的外观tokens与其对应的位置嵌入结合,可以从第 层生成外观tokens ,其中 表示外观tokens的数量。这个过程可以通过以下公式表示:
为了更清楚地说明问题,以单个实例的外观tokens生成为例。Resampler 是从 Perceiver 适配而来,由多个 transformer 块组成。 代表外观查询,而 和 则通过投影从文本编码器的第 层提取的文本特征中获得。Fourier 是傅里叶embedding,并结合 MLP 将 投影到特征维度。最后,在 个不同粒度上生成的外观tokens被连接成 ,作为每个实例的生成引导。
实例语义图引导生成
除了确保生成详细的实例特征外,IFG 任务还要求在指定位置生成实例。先前的方法使用顺序锚定标记作为条件,这种方法缺乏强健的空间对应性,可能会导致特征错位或泄漏等问题。因此,引入了一种名为实例语义图 (ISM) 的地图,作为更强的引导信号。由于所有实例的生成都由 ISM 引导,在构建该语义图时必须考虑两个主要问题:
-
为每个实例生成详细且准确的特征,同时避免特征泄漏;
-
处理多个实例存在的重叠区域。
为了解决这些问题,首先独立生成每个实例,然后在重叠区域进行聚合。以下部分将详细解释这些过程。
单实例特征生成
避免外部特征的干扰对于精确生成高质量的实例细节至关重要。为实现这一目标,首先为每个实例单独生成语义图。具体而言,对于第 个实例,将其对应的位置 转换为以下的mask :
其中, 代表由 指定区域内的坐标。通过使用公式 (2),我们可以获得第 个实例的语义图 :
其中, 表示通过公式 (3) 获得的第 个实例的外观tokens。
门控语义融合
在获得每个实例的语义图后,下一步是将这些图融合,得出最终的 ISM,如图 2(b) 所示。在地图融合过程中需要考虑的一个关键问题是,当一个潜在像素与多个实例相关联时,如何表示该像素的特征。先前的方法对多个实例的特征进行平均。虽然这种方法简单,但可能会导致不同实例之间的特征冲突。直观地说,在多个实例重叠的区域中,视觉特征应由距离观察者最近的实例主导(即深度最小的实例)。因此,在重叠区域内,不同实例的权重应有所不同。为了清楚起见,以像素位置 处的特征融合为例。首先,通过一个可训练的轻量网络 将每个实例的特征投影为一个标量,表示其重要性。然后,使用 Softmax 操作在不同实例之间对重要性进行归一化,得到各自的权重。这个过程可以用以下公式表示:
其中, 表示实例 在位置 处的权重。除了实例特征外,实例的大小也会影响其权重。该设计的动机来自以下考虑:当一个小实例的区域完全被一个较大的实例覆盖时,需要防止由于包含过多无关特征而导致小实例被“同化”。因此,还考虑了实例在前景中所占区域的比例,较小的实例会被赋予更大的权重。利用实例特征及其各自的权重,潜在像素位置 的最终表示通过以下公式获得:
其中, 表示实例 占据的面积。经过上述步骤后,ISM 被构建完成。最后,ISM 通过以下重复的交叉注意力层与生成过程进行交互,以指导显著区域的生成:
其中, 是一个二值mask,背景区域设置为 1, 是一个可训练的参数,初始化为 0,以防止在初始训练阶段出现模式崩溃。
学习过程
在训练过程中,冻结了 SD 的参数,仅训练 IFAdapter。用于训练的损失函数是包含实例级条件的 LDM 损失:
为了使本文的方法在推理阶段执行无分类器引导 (CFG),在训练期间将全局条件 和局部条件 随机设置为 0。
实验
实施细节
训练数据集。使用 COCO2014数据集和 LAION 5B 的 100 万子集作为数据来源。利用 Grounding-DINO和 RAM对图像中的实例位置进行标注。然后,我们使用最先进的视觉语言模型 (VLMs) QWen和 InternVL为图像和单个实例生成标题。
训练细节。使用 SDXL,因其强大的细节生成能力,作为我们的基础模型。IFAdapter 应用于 SDXL 的中层和解码器层的子集,这些层对前景生成贡献显著。使用 AdamW优化器,以学习率 0.0001 训练 IFAdapter 100,000 步,批量大小为 160。在训练过程中,有 15% 的概率丢弃局部描述,30% 的概率丢弃全局标题。
在推理阶段,使用 EulerDiscreteScheduler进行 30 次采样步骤,并将无分类器引导 (CFG) 比例设置为 7.5。
实验设置
Baselines
将本文的方法与先前的 SOTA L2I 方法进行了比较,包括基于训练的方法 InstanceDiffusion、MIGC和 GLIGEN,以及无训练方法 DenseDiffusion和 MultiDiffusion。
评估数据集
按照先前的设置(Li et al., 2023; Zhou et al., 2024b; Wang et al., 2024c),在标准的 COCO2014 数据集上构建了 COCO IFG 基准。具体而言,使用与训练数据相同的方法对验证集中的位置和局部描述进行标注。每种方法都需要生成 1,000 张图像进行验证。
评估指标
对于 IFG 任务的验证,模型必须生成具有准确特征的实例,并在适当的位置生成。
-
实例特征成功率 为验证空间准确性和描述-实例一致性,提出了实例特征成功率 (IFS) 作为评估指标。IFS 率的计算包括两个步骤。步骤 1,空间准确性验证:首先使用 GroundingDINO 检测每个实例的位置。接着,我们计算检测位置与 Ground Truth (GT) 位置之间的交并比 (IoU),选择 IoU 最高的 GT 作为该实例的对应匹配。如果最高 IoU 小于 0.5,则实例生成被认为不成功。步骤 2,局部特征准确性验证:先前的方法(Avrahami et al., 2023; Zhou et al., 2024b)主要使用局部 CLIP 来验证局部特征。然而,CLIP 关注的是整体语义,不适合捕捉细致的视觉细节。因此,本文结合 VLMs 和提示工程技术来实现更精确的局部细节验证。对于步骤 1 中识别的每个局部区域,提示 VLMs 确定裁剪区域内的内容是否与相应的描述一致。如果 VLM 确认内容与提示匹配,则实例标记为成功。然后,实例前景成功率 (IFS) 作为成功实例与总实例数的比率进行计算。此外,报告了 Grounding-DINO 的平均精度 (AP) 分数,以独立验证实例位置生成的空间准确性。
-
Frechet Inception Distance (FID) FID通过计算生成图像与真实图像之间的特征相似性来衡量图像质量。我们使用 COCO2017 的验证集来计算 FID。
-
全局 CLIP 分数 图像的全局标题主要描述图像的整体语义。因此,使用 CLIP 分数来评估图像-标题一致性。
比较
定量分析
下表 1 展示了在 IFG 基准上的定性结果,包括 IFS 率、空间准确性和图像质量的指标。
IFS 率
为了计算 IFS 率,我们利用了三个最先进的视觉-语言模型 (VLMs):QWenVL、InternVL 和 CogVL。这种多模型方法确保了更全面和严格的验证。如上表 1 所示,本文的模型在所有三个 IFS 率指标上均优于基线模型。引入外观tokens和在训练中纳入密集实例描述显著提升了我们模型生成准确实例细节的能力。值得注意的是,InstanceDiffusion 在 IFS 率上表现优于其他基线模型。这可能是因为其训练数据集也包含了密集的实例级描述。这一观察进一步强调了高质量实例级标注的必要性。
空间准确性
如上表 1 所示,IFAdapter 在 GroundingDINO AP 中取得了最佳结果。这一成功归因于地图引导生成设计,该设计结合了额外的空间先验,从而实现了更准确的实例位置生成。
图像质量
如前面表 1 所示,本文的方法在 CLIP 评分上表现更高,表明增强局部细节有助于图像与标题一致性的同时提高。此外,本文的方法实现了更低的 FID,说明本文的方法生成的图像质量高于基线模型。将这一改善归因于本文模型的适配器设计,该设计使得在不显著妨碍图像质量的情况下实现空间控制。
定性分析
在下图 1(a) 中,我们展示了生成的具有多个复杂实例的场景结果。研究者们进一步在下图 3 中评估了模型生成多样化特征实例的能力。如所示,本文的方法在各种实例细节的保真度方面表现最佳。
用户研究
尽管 VLMs 可以在一定程度上验证实例细节,但与人类感知相比仍存在差距。因此,邀请了专业标注员进行进一步验证。
设置
进行了一个包含 270 个问题的研究,每个问题都关联到一个随机抽样的生成图像。评估者被要求对图像质量、实例位置准确性和实例细节进行评分。总共收集了 30 个有效响应,产生了 7,290 个评分。
结果
如下表 2 所示,本文的方法在所有三个维度上都达到了最高的分数和用户偏好率。值得注意的是,这些维度的趋势与表 1 中的结果一致,进一步证明了 VLM 验证的有效性。
与社区模型的集成
由于 IFAdapter 的即插即用设计,它可以对预训练的扩散模型施加空间控制,而不会显著影响生成图像的风格或质量。这使得 IFAdapter 能够有效地与各种社区扩散模型和 LoRAs集成。如下图 4 所示,将 IFAdapter 应用到几个社区模型,包括 PixlArt、LeLo-LEGO、Claymation和 BluePencil。生成的图像不仅符合指定的布局,而且准确反映了各自的风格。
消融研究
本文引入外观tokens以解决 EoT tokens在生成高频细节方面的不足。这个消融研究主要探讨了这两种标记类型在实例生成中的作用。
appearance tokens. 如下表 3 所示,去除外观tokens会导致模型的 IFS 率和 FID 下降,表明详细特征的丢失。此外,如下图 5 所示,没有外观tokens生成的图像表现出实例特征的不匹配,进一步证明了外观tokens主要负责生成高频外观特征。
EoT token. 在没有 EoT token的情况下生成图像时,IFS 率显著下降。这主要是因为 EoT token负责生成实例的粗略语义。此外,上图 5 指出,去除 EoT token会导致语义级别的问题,如实例类别错误和实例遗漏。
结论
本文提出了 IFAdapter,以对预训练的 Stable Diffusion 模型进行细粒度的实例级控制。通过引入外观tokens,增强了模型生成详细实例特征的能力。利用外观tokens构建实例语义图,将实例级特征与空间位置对齐,从而实现了强大的空间控制。定性和定量结果都表明本文的方法在生成详细实例特征方面表现出色。此外,由于其即插即用的特性,IFAdapter 可以作为插件无缝集成到社区模型中,而无需重新训练。
参考文献
[1]IFADAPTER: INSTANCE FEATURE CONTROL FOR GROUNDED TEXT-TO-IMAGE GENERATION
更多精彩内容,请关注公众号:AI生成未来