Gen4Gen:数据驱动多概念个性化图像生成新方法(马毅教授团队新作)

Gen4Gen:数据驱动个性化图像生成新方法(马毅教授团队新作)

最近的文本到图像扩散模型能够学习并合成包含新颖、个性化概念的图像(例如,自己的宠物或特定物品),且仅需少量样本进行训练。本文解决了个性化文本到图像扩散模型领域中的两个相互关联的问题。

首先,当前的个性化技术未能可靠地扩展到多个概念——假设这是由于预训练数据集中复杂场景与简单文本描述之间的不匹配(例如,LAION)。

其次,针对包含多个个性化概念的图像,缺乏一个全面的度量标准来评估性能,该标准不仅评估个性化概念的相似程度,还评估图像中是否包含所有概念,并且图像是否准确反映了整体文本描述。

为了解决这些问题,本文引入了Gen4Gen,这是一个半自动化的数据集创建pipeline,利用生成模型将个性化概念结合文本描述,组合成复杂的构图。利用这一pipeline,创建了一个名为MyCanvas的数据集,可用于对多概念个性化任务进行基准测试。此外,还设计了一个包含两个分数(CP-CLIP和TI-CLIP)的综合度量标准,以更好地量化多概念个性化文本到图像扩散方法的性能。

本文提供了一个简单的基线模型,该模型基于Custom Diffusion,并采用经验性提示策略,供未来研究人员在MyCanvas上进行评估。展示了通过提高数据质量和提示策略,可以显著提高多概念个性化图像生成的质量,而无需对模型架构或训练算法进行任何修改。证明了通过链接强大的基础模型可能是一个有希望的方向,用于生成针对计算机视觉社区各种具有挑战性任务的高质量数据集。

项目链接:https://danielchyeh.github.io/Gen4Gen/

介绍

从逼真的肖像到幻想生物的绘画,过去一年见证了文本到图像扩散模型能力的显著飞跃。一些最近的工作集中在这些生成模型的“个性化”上,即通过向预训练的文本到图像扩散模型增加一组最小的用户提供的概念图像(例如,他们的宠物或最近购买的盆栽),以生成新的场景,这些场景包含这些个人概念(例如,他们的宠物在时代广场的夜景中,如下图1所示)。该领域的重要工作 [1, 17, 19, 24, 35] 是重要的里程碑,因为它们增加了用户对生成过程的控制,带来了各种定制应用。

然而,同时对多个概念进行个性化并控制图像生成以准确遵循给定的文本描述可能是具有挑战性的。此外,[19] 指出,即使在一般情况下,Stable Diffusion在潜在空间相似的情况下(例如,狗和猫)也无法将多个概念分离并呈现在同一图像中。

这个问题通常会被继承到随后经过微调的个性化模型中。推测这种行为是预训练数据集中文本-图像配对之间不匹配的结果(例如,LAION])。LAION 中的许多图像通常以单个目标为中心,随附的标题提供了对场景的广泛概述,而不是提供个别概念的详细描述。文本与复杂图像构图之间的不匹配造成了在生成多个概念时的挑战,特别是当概念在语义上相似时。

为了验证这个假设,即更好的数据质量将导致更好的多概念个性化,决定采取与先前的模型驱动技术相反的不同途径,通过构建一个概念验证数据集来解决这个问题,该数据集用于多概念中心图像和文本描述的个性化。

为此,利用了最近在高度准确的基础模型方面的进展,并引入了一个半自动化的生成数据pipeline,用于合成多个个性化概念;因此,将方法称为 Gen4Gen。这个数据集创建pipeline利用了图像前景提取、大语言模型 (LLMs) 、图像修复和多模态大语言模型 (MLLMs)的最新进展,将用户提供的照片重新组合成具有密集对应文本描述的逼真、个性化的多概念图像。

此外,本文深入探讨了提示工程领域,以在训练时进一步改善标题质量,以实现更好的图像-文本对齐。本文生成并筛选了超过1万张图像,并创建了最终的基准数据集 MyCanvas。

在创建更好的基准过程中,也意识到了一个合理的评估指标的重要性,该指标可以应用于所有个性化微调方法,鉴于大多数基准 [3, 17–19, 35] 聚焦于更一般的泛化情况,或者仅评估高达三个个性化概念,并且大量的比较依赖于用户调查。

因此,本文从 [3, 10, 13, 18, 28, 36] 的分类法中汲取灵感,并提出了一个构图-个性化-CLIP分数(CP-CLIP)和一个文本-图像对齐CLIP分数(TI-CLIP)。这两个分数作为一个简单而全面的指标,同时考虑了构图和个性化的准确性以及泛化到各种场景的能力。

本文展示了先前的方法 [19, 35] ,结合像 MyCanvas 这样的增强数据集和我们的提示策略,可以在生成具有不同背景的逼真多概念图像时取得显著改进,同时保持个性化概念的身份。在非常复杂的构图、具有挑战性的指导(相对位置)和多个语义相似的概念(例如,同一图像中的两个狗)下,这些改进更加明显。通过半自动化数据创建方法改善数据集质量所获得的有希望的结果,是激发未来利用AI基础模型链式创建大规模高质量数据集的机会的动力。

总的来说,本文提出了三个重要发现:

  1. 整合AI基础模型至关重要:半自动化数据集创建pipeline Gen4Gen 引入了使用级联AI基础模型生成高质量数据集的可能性,并有望惠及广泛的任务。

  2. 数据集质量至关重要:我们的概念验证数据集 MyCanvas 反映了简单地组合良好对齐的图像和文本描述对于多概念个性化任务的显著改善。

  3. 需要一个多概念个性化基准:我们的综合评估基准考虑了个性化准确性、构图正确性以及文本-图像对齐在多概念个性化任务中的作用。希望MyCanvas 数据集以及 CP-CLIP 和 TI-CLIP 分数作为更好的度量标准来解决这一目标。

相关工作

个性化文本到图像生成。给定一个预训练的文本到图像扩散模型和很少的用户提供的代表特定概念的图像,个性化的目标是微调模型并找到一个特殊的标识符映射到该概念。然后,该标识符被用于生成新的场景,其中包含了特定的概念。Textual Inversion和 DreamBooth是最早处理这一任务的几个方法。前者学习一个标注embedding来创建映射而不改变模型,而后者在确保泛化能力仍然存在的情况下微调整个模型。很快就有许多工作紧随其后,重点关注目标的保真度和身份保留性,并扩展到多概念个性化。

具体而言,这些方法着重于使用规范化微调来改进由于数据稀缺性而导致的泛化,例如,Custom Diffusion 仅微调 K 和 V 的交叉注意力层,这可能导致过拟合较少,SVDiff优化权重的奇异值,Cones2学习一个残差embedding,将一般概念转变为个性化概念。另一方面,我们的目标是通过以数据为中心的方法解决同样的问题,表明仅仅改进数据集就可以在多概念个性化方面取得显著的性能提升。

文本到图像数据集和基准。扩散模型成功背后的主要推动力在于它们庞大的数据量。文本编码器和随后的扩散模型本身通常建立在数十亿的数据集上。不可避免地,数据集中有很多数据质量较差,特别是在文本和图像之间的对齐方面,复杂场景可能只能用几个词描述。同时进行的工作,如 DALL-E 3和 RECAP也观察到了这一类似现象。

本文的工作旨在表明,一个概念验证数据集,其中包含了同一场景中的多个概念和良好对齐的文本描述,即使数据量很少,也可以改进微调过程。对于这些生成模型来说,另一个开放性挑战是如何全面评估它们。最近的工作,如 DrawBench、T2I-CompBench和 HRS提供了一种更全面的方法来评估这些文本到图像扩散模型。我们从中汲取灵感,提出了评估特定的多概念个性化任务的第一个全面基准。

Gen4Gen:一种数据驱动的多概念个性化方法

给定一组捕获多个概念的用户提供的照片(例如,狗和盆栽),多概念个性化的目标是学习每个概念的身份,以便可以合成包含其中多个概念的新图像,这些图像具有不同的背景和构图。正如以前的方法 [19]所示,随着我们打算将个性化概念注入到图像中的数量增加,问题的难度显著增加。 虽然先前的工作 [16, 17, 19, 23, 40, 42] 侧重于优化训练策略,但本文证明了在整个训练过程中提高数据质量可以增强多概念个性化图像的生成质量。

数据集设计原则

从 LAION 数据集中最具美感的子集(LAION-2B-en改进美学)中,可以清楚地看到图像的复杂性与简单描述之间存在不匹配。由于数据集主要是从网络中检索得到的,可能会出现差异。例如,图像可能存在不准确且丰富的文本描述,以及包含多个目标的图像的低分辨率。

从这些差异中汲取灵感,并提供了三个关键的设计原则。

详细的文本描述和图像配对: 文本必须与其对应的图像完全对齐,为前景和背景目标提供信息。

合理的目标布局和背景生成: 为了避免图像看起来像人工 Cut-Mix,并利用 LAION 数据集的现有信息,必须确保目标仅在可能在现实生活中捕获它们的情况下存在于图像中,并且它们在图像中的位置是有意义的。

高分辨率: 这将确保数据集符合我们生成高质量、多概念个性化图像的最终目标。

Gen4Gen pipeline

下图2展示了Gen4Gen创建pipeline。

它包括三个主要阶段:

i) 目标关联和前景分割;

ii) LLM引导的目标合成;

iii) 背景重新绘制和图像重新描述。

虽然完全自动化整个数据生成过程将是最理想的,但当前最先进的模型 [20, 29, 30] 在每个步骤中仍然包含瑕疵。由于我们的主要目标是在理解当前模型在复杂图像生成下的能力方面提供一个全面的基准,因此数据集的准备需要人为参与中间和最终的清理过程。

目标关联和前景分割

我们的数据集始于一组 k 个目标 O = ,其中每个目标 由一组 n 个图像表示 。这些集合是从 DreamBooth、Custom Diffusion 和在线免费版权来源的数据集中获取的。首先找到一个目标组合的子集 ,O' ∈ O,这些目标组合在自然场景中直观地可能共存(例如,如前面图2所示的狗、猫和盆栽)。

然后,从表示 O' 内的目标的每个源图像集中抓取一张图像,形成图像集合 ,并对每个图像应用DIS来获取前景。将这些图像称为 D(X'),它们对应的mask称为 M(D(X'))。需要注意的是,DIS 是一个无类别的显著性目标检测器,因此对我们使用的目标集合不加区分。有趣的是,许多这些经常共存的目标也是在 Custom Diffusion 和甚至Stable Diffusion中失败的目标,因为它们的潜在空间相似性。这使得我们的数据集更具挑战性,因此可以作为这一任务的更好基准。

LLM引导的目标合成

利用LLM的零样本能力,并根据这些目标集合询问一组可能的边界框。具体来说,向ChatGPT展示了很少的样本,解释了在COCO数据集中给出目标边界框的情况下提供边界框点的任务 [21](在附录中提供了模板),然后询问ChatGPT给出给定O'的边界框集合。然后,根据边界框的位置和给定的大小将D(X')中的各个图像放置在其中,以获得一个准备好进行修补的前景图像。将这个合成的前景图像及其对应的mask称为 和 。还获得一组描述可能场景的提示 P,通过验证其针对相同的LLM模型的有效性(例如,“在花园里”是对于狗、猫和盆栽的一个有效的提示)。

上述描述的方法偶尔会导致缩放问题,其中一些目标比其他目标不现实地大(例如,羊比汽车大)。为了缓解这个问题,利用 GPT-4提供的逻辑增强功能,并要求每个边界框的比例是现实的。具体来说,使用以下提示向 GPT-4 提问:[给定一组目标名称,任务是生成这些目标在现实世界中的合理比例,其中最大目标的比例设为1.0]。然后,这些比例被用来调整生成的布局,以正确反映真实世界的比例。

背景重绘和图像重新描述

从D(X')和M(D(X'))生成背景的最直接方式是应用最先进的文本到图像扩散模型来修补背景。然而,意识到强制模型根据一个非常模糊的文本提示来生成一个合理的背景(即,目标看起来不像剪切和粘贴)往往会导致不可预测的结果。为了简化问题设置,意识到使用一个反映提示的高分辨率图像,然后从中“重绘”会显著提高生成质量(详细的定性消融在附录中)。因此,给定一个文本到图像扩散修补模型f(我们使用 Stable-Diffusion-XL [29]),从免费版权来源中找到一个初始背景图像,具有要绘制的提示p∈P,然后获得最终图像:IO' = f(, M(), )。需要注意的是,在重绘阶段,观察到利用平滑的软mask相比于二进制的硬mask可以增强前景目标与背景的整合,因此对M(Ifg)进行5×5窗口的平均平滑。IO'的相应提示现在是一个列出O'中每个目标并结合p的提示。

为了构建一个全面的基准数据集,我们丰富了文本描述的多样性,并确保即使在长度较长的情况下,文本也紧密跟随图像。因此,鉴于多模态大语言模型(MLLMs)的最新成就,我们将一些最终图像输入LLaVA-1.5进行自动字幕生成,使用特定指令:“详细描述您在这张图像中看到的内容。词数限制为30个”。我们限制了词数限制以适应CLIP的上下文约束,允许最多77个标注。我们强调,我们的重新描述应用于MyCanvas数据集中的十个目标组合O'。我们重复步骤1)到3),以获得每个组合O'的一组图像和文本描述,并将其包含在我们最终的MyCanvas数据集中。示例见下图3。

数据集统计

对于MyCanvas数据集,收集了150个目标(一些具有单个图像,其他具有多个图像),并创建了41个可能的组合(即,将组合称为一组O'),以及超过1万张图像,然后手动筛选出了质量最好的2684张图像,这些图像在重新绘制结果方面质量最佳。

下图4展示了MyCanvas的统计信息。

a) 表示每个标题中单词数量的组成情况(不包括要学习的稀有标注和前面列出的额外提示策略)。平均单词长度为17.7,大约30%的长度超过20个单词,其中每个单词都是具体的,量身定制的。

b) 表示数据集中呈现的各种目标的广泛范围,超过了CustomConcept101和DreamBooth数据集。还表示我们在使用过程中使用的各种目标和背景提示c)训练和d)推理过程中使用的各种目标和背景提示。与DreamBooth和Custom Diffusion等之前的基准相比,我们的数据集涵盖了更多种类的目标,具有多概念组合,因此是用于衡量个性化任务的更全面的数据集。

改善训练时文本提示

除了设计与数据集中的图像相匹配的良好提示之外,还进一步探索了在训练过程中最佳提示设计是什么。我们分享一些经验性发现及其直觉如下:

全局组合标注。 以前的研究,如DreamBooth,已经表明它们可以学习将新标注映射到非常困难的、具有挑战性的概念(例如,像莫奈艺术这样的抽象风格)。将这个概念应用于复杂的组合。通过引入一个全局标注以及每个目标的单独标注,我们的模型在描述详细的场景安排方面获得了增强的能力,从而导致更加逼真和连贯的图像生成。

在训练期间重复概念标注提示。 注意到,在许多情况下,涉及多个概念的复杂组合往往会导致一个或两个概念缺失。这可能是由于模型有时会忘记给定一个非常长的提示的细节。因此,采用了在训练期间重复概念标注提示的策略。这鼓励模型确保在生成的图像中存在每个指定的概念,增强了整体目标的持久性和完整性。

融合背景提示。 观察到一个问题,即背景在token特征空间中不经意地与目标身份一起学习。为了努力解开背景和概念组合之间的联系,我们确保背景必须在训练提示中进行说明,以鼓励概念标注仅学习目标身份。

个性化组合度量

随着增加目标数量,增加了个性化挑战的难度,意识到模型在学习如何生成关键细节和过拟合丧失生成新背景的能力之间存在固有的权衡。这种权衡的问题在先前使用的基准中并没有体现出来,因为

1)没有像MyCanvas这样的复杂数据集用于评估;

2)可以完全过拟合到训练集并获得高质量的结果。

为了克服这一问题,从[3, 18]中汲取灵感,并提出了两个指标。第一个指标是组合-个性化-CLIP分数(CP-CLIP),评估组合和个性化的准确性。第二个指标是文本-图像对齐CLIP分数(TI-CLIP),通过评估模型在各种文本背景下的泛化质量,作为潜在过拟合的指标。

场景组合和个性化准确性。与现有基准和指标主要关注一般概念的组合[3, 18]不同,我们的指标解决了两个关键问题:

1)在图像生成过程中,文本中是否反映了每个个性化概念?(组合准确性);

2)生成的个性化概念是否与其源对应部分相似?(保真度)

为了自动化完整的评估框架,从最先进的开放词汇目标检测模型OWL-ViT开始。开放词汇的选择允许捕获MyCanvas数据集中的任何目标。具体来说,给定一个旨在包含O'中所有目标的生成图像Igen,获得了一组由预测的边界框指定的任意裁剪图像:

其中是O'中的各个标签,将其用作OWL-ViT的目标词汇。 对于从公式1中获得的每个裁剪图像,计算其与图像集,的平均clip分数Si,j如下:

这里的C(·)计算两个归一化图像特征之间的点积。然后,的最终个性化clip分数为:

如果有多个边界框对应于相同的,将除了得分最高的之外的所有边界框从中移除,以便大小||正确反映出由文本提示生成的个性化目标的数量在生成的图像中反映出来。 最后,我们得到每个图像的总体CP-CLIP分数:

请注意,分母是O'中的目标数量,而不是边界框的数量;当特定的个性化目标未反映在图像中时,这充当了一种惩罚。当存在比预期更多的边界框时,我们不会进行惩罚,因为生成模型应该能够自由生成更多的目标,只要它遵循文本引导。

文本-图像对齐。为了定量地衡量过拟合程度,计算TI-CLIP,作为与用于生成的提示之间的CLIP分数。请注意,虽然TI-CLIP的制定与CP-CLIP非常相似(即可以将TI-CLIP视为个性化剪辑分数的一个特殊情况,其中整个图像的边界框和个性化的目标是文本),但它评估了模型泛化质量的一个正交概念,因此应该作为一个单独的度量进行衡量。

从高层次来看,TI-CLIP衡量了背景提示(不包括目标)与整个生成图像之间的匹配程度;没有理由相信在个性化过程中背景会改善,因此当增加CP-CLIP分数时,TI-CLIP应该保持不变。这表明模型没有过度拟合训练集的背景。

分数可解释性。在实践中意识到CP-CLIP中的一个良好分数约为0.5,而TI-CLIP应该是一个保持不变而不是增加的分数。在附录中详细介绍了分数的可解释性。

实验

基线和实现细节

从Custom Diffusion实现开始,测量了以下三种方法的定量和定性表现:

1)使用单独的源概念图像的Custom Diffusion

2)使用组合的MyCanvas的Custom Diffusion,

3)基于Custom Diffusion的MyCanvas的提示策略。选择了Custom Diffusion作为基线,因为它具有可重现的代码基础,并且已经与先前的方法进行了广泛的比较。对于每个组合,针对每种上述方法训练了一个模型(训练细节见附录)。对于评估,使用每个组合的最佳checkpoints。我们为每个组合选择了一个与训练中使用的提示明显不同的提示。这样可以更好地分析每个模型的泛化能力,因为所有数据的背景描述都是未见过的。使用ViT-B-32作为OWL-ViT边界框提取和计算两个基于CLIP的分数CP-CLIP和TI-CLIP的骨干网络。

定量分析

下表1展示了按目标数量组织的所有组合的结果。使用了41个文本提示,每个组合的每个提示有6个样本,共生成了246张图像。显然,当学习原始源图像时,Custom Diffusion的性能下降了50%。与使用我们组合的MyCanvas数据集相比。通过将我们的提示策略应用于Custom Diffusion,可以进一步增强CP-CLIP分数。值得注意的是,我们的TI-CLIP分数,表征背景泛化,对所有方法都保持了一致性,确保了组合精度的增加不是过拟合的结果。

定性比较

在下图5中,专注于在推理过程中针对具有挑战性和详细提示的定性结果。

这些提示经过精心设计,以测试模型在与训练场景不同的新场景中生成概念的能力,将概念与其他已知目标组合(例如,在独木舟上的猫,浮冰上的狮子),并描述概念的相对位置(例如,并排,背景中)。在三种设置下比较了定性结果:

1)使用原始源图像的Custom Diffusion

2)使用MyCanvas,从源组合而成的数据集的Custom Diffusion

3)基于Custom Diffusion的MyCanvas的提示策略。如图5所示,即使在背景描述非常具有挑战性的情况下,我们的组合策略也成功地解开了在潜在空间中相似的目标(例如,狮子和猫,两个拖拉机),这在Stable Diffusion中经常是失败的案例。此外,随着组合难度的增加(即,降低每行增加组合中目标的数量),我们的提示方法确保在生成过程中没有概念被遗漏。值得注意的是,展示了通过使用MyCanvas数据集,现有的个性化模型(例如,Custom Diffusion)的生成质量可以得到显着提升(其他方法的结果可以在附录中找到)。

消融研究

MyCanvas生成质量评估。我们开发了一个过滤工具(详见附录),用于评估由我们的Gen4Gen pipeline生成的800张图像的质量。根据以下方面对每张图像进行评估:1)个性化概念的包含,2)它们的适当放置,以及3)排除视觉伪影,将它们从1到5进行排名。

随后,汇总这些排名以分析分数分布。只有被评为4/5的图像才被添加到MyCanvas数据集中。在表2中的发现表明,生成高质量图像在涉及少于四个概念时变得更为可行。

训练数据量与概念数量之间的关系。提供了下图6中的分析,使用不同数量的图像进行训练(1到100张)。当训练≤3个概念的组合时,使用非常少量的图像就足够了,但是当概念数量超过4个时,训练在10到50张图像之间稳定下来。这表明我们的数据集大小已经足够获取稳定的性能。

结论

本文提出了MyCanvas,这是一个图像和文本描述对齐的数据集,可作为多概念个性化的基准。对数据集进行了广泛的研究,同时对训练提示进行了一些修正,并提出了一个整体度量标准,以显示改善数据质量可以显著改善复杂组合的图像生成质量。希望我们的贡献能够展示个性化文本到图像生成和自动数据集创建的可能性。

局限性。正如下图7所示,当前的数据创建流程仍然存在缺陷,特别是在挑战性场景中。这些挑战源于LLM在目标位置上提供不切实际的指导,以及扩散填充在处理目标时引入的伪影。目前,采用半自动化的筛选过程来解决这些问题。未来的工作可以重点放在自动化过滤过程和评估数据集质量上。此外,随着新的MLLM具有丰富的多模态理解能力,可以包含额外的视觉指导,以获得更好的边界框生成。

参考文献

[1] Gen4Gen: Generative Data Pipeline for Generative Multi-Concept Composition

文章链接:https://arxiv.org/pdf/2402.15504

 更多精彩内容,请关注公众号:AI生成未来

欢迎加群交流AIGC技术

  • 27
    点赞
  • 24
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值