ECCV`24|T2I与StlyeGAN2首次联手!PreciseControl:单肖像生成精细个性化图像!

论文链接:https://arxiv.org/pdf/2408.05083
工程主页:https://rishubhpar.github.io/PreciseControl.home/
git链接:https://github.com/rishubhpar/PreciseControl

亮点直击

  • 首次提出将大型文本到图像(T2I)模型与StyleGAN2结合的方法,通过将T2I模型条件化在丰富的潜在空间上实现。

  • 使用单张肖像图像进行有效个性化的方法,使得在空间中进行细粒度的属性编辑,并通过文本提示实现粗略编辑。

  • 引入了一种通过链式扩散过程融合多个个性化模型的新方法,用于多人合成。

最近,大家看到了一波针对文本到图像(T2I)扩散模型的个性化方法的兴起,这些方法通过少量图像来学习一个概念。现有的方法在用于人脸个性化时,难以实现具有身份保留的令人信服的反演,并依赖于对生成的人脸进行语义文本编辑。然而,人们希望对面部属性进行更细粒度的控制,这仅靠文本提示是难以实现的。

相比之下,StyleGAN模型学习了丰富的人脸先验,并通过潜在空间的操控实现了对细粒度属性编辑的平滑控制。本文利用了StyleGANs的解耦的空间来对T2I模型进行条件化。这种方法使我们能够精确地操控面部属性,例如平滑地引入微笑,同时保留T2I模型中固有的粗粒度文本控制。为了使T2I模型能够在空间上进行条件化,本文训练了一个潜在映射器,将中的潜在编码翻译到T2I模型的token embedding空间。所提出的方法在实现面部图像的精确反演和属性保留方面表现出色,并促进了对细粒度属性编辑的连续控制。此外,本文的方法可以很容易地扩展到生成涉及多个个体的合成图像。本文进行了广泛的实验,以验证本文的方法在面部个性化和细粒度属性编辑方面的有效性。

方法

提要

文本到图像扩散模型。 本研究使用StableDiffusion-v2.1作为代表性的文本到图像(T2I)扩散模型。Stable Diffusion 基于潜在扩散模型,它在潜在空间中应用扩散过程。其训练包括两个阶段:a)训练一个VAE或VQ-VAE自编码器,将图像映射到压缩的潜在空间;b)在潜在空间中训练一个扩散模型,以文本为条件引导生成。这个框架将自编码器中细粒度细节的学习与扩散模型中的语义特征学习分离开来,从而使得扩展更加容易。

基于风格的GAN, [6, 17, 18]已经被广泛应用于生成逼真的特定对象图像,如人脸。此外,这些模型具有解耦的潜在空间,使得图像之间的平滑插值和细粒度属性编辑成为可能。这些特性是通过将高斯潜在空间映射到一个学习的潜在空间 并使用映射网络实现的。此外,GAN编码器模型可以对真实图像进行编码和编辑,将给定图像反演到 空间,从而允许对真实图像进行细粒度编辑。

概览

虽然文本到图像(T2I)模型在生成多样性和属性丰富的潜在空间之间进行权衡,但本文的目标是使用来自StyleGAN2的属性丰富的空间来对T2I模型进行条件化,从而在生成的图像中实现对面部属性的解耦和精细控制。为了在上对T2I模型进行条件化,本文为T2I模型增加了一个可学习的潜在适配器网络,它将潜在代码投影到文本 embedding空间中。为了 embedding一个新主体,本文通过预训练的StyleGAN2编码器获得潜在代码,然后将其通过以获得相应的文本 embedding,如下图2a所示。在上进行条件化通过潜在操控实现了生成图像中属性的精细控制。在接下来的部分中,本文将讨论所提出的潜在适配器、模型训练以及精细属性编辑的细节。

潜在适配器 M

本文实现了潜在适配器 ,作为一个浅层的多层感知器(MLP)网络,将来自StyleGAN的潜在代码 映射到文本到图像(T2I)模型的token embedding空间,以任何人脸图像作为输入。本文学习了两个token embedding()来表示一个人类对象,因为已知这可以提高 embedding的质量。为了从潜在代码 中提取时间步长特定的语义信息,本文将 条件化在扩散时间步长 上,因为扩散模型以时间步长的方式表示语义层次结构。 的输出是一组 embedding向量对 ,每个时间步长 对应一对 embedding。时间相关的token embedding允许更丰富的表示空间,并改善身份保持(如下图12所示)。 的完整架构如图2b所示。输入 首先通过位置编码 ,而展平的 潜在代码通过自注意力层以获取相关特征。编码后的表示在传递通过一组线性层之前被连接。获得的 embedding对 表示该人,并在第 个去噪时间步长传递到U-Net中进行生成。

训练

本文进行两阶段训练,首先在面部数据集上对潜在适配器 进行预训练,然后对 和扩散 U-Net 进行几次特定主体的训练,使用低秩更新来改善身份识别,具体如下所述。

预训练:映射器 使用配对数据集 进行预训练,该数据集由 对组成,其中 是人像面部图像, 是通过 获得的对应潜在代码。在训练过程中,本文采样一个对 和一个去噪时间步 ,并将其通过 ,以获得对应于输入主体的token embedding对 。本文将采样的token与中性提示一起放置——,并通过文本编码器以获得最终的文本 embedding 。本文在时间步 将噪声计划中的噪声添加到图像 上,并结合额外的正则化损失(如公式 1 所示)来训练扩散损失以训练 。在这一训练阶段,所有模块——、文本编码器和 U-Net 都被冻结,只有 是一个浅层的 MLP,使得训练计算效率高。

特定主体训练:在第二阶段,本文对编码器 和 U-Net 进行微调,使用单个输入图像进行几次迭代。具体来说,本文在 U-Net 投影矩阵上执行低秩权重更新(LoRA),并使用公式 1 中的组合损失微调 。在 LoRA 训练中,模型权重更新为 ,其中 是学习到的低秩残差权重。超参数 控制微调的程度,并允许在身份保留和文本可编辑性之间进行权衡。第二阶段的低秩调优在不影响文本可编辑性的情况下改善了主体的身份(如上图 12 所示)。

损失函数。 本文使用去噪扩散损失 和正则化损失 的组合来训练潜在适配器,遵循文献[11]的方法。扩散损失确保文本到图像的一致性,而正则化损失确保预测的token embedding接近于超类 (如人脸)的token embedding。此外,本文添加了身份损失 ,定义为来自文献[9]的人脸识别 embedding之间的均方误差(MSE),以在反演过程中保留身份。最终损失被计算为这些损失的线性组合:

其中, 和 是超参数, 是预训练的人脸识别模型。为了在中间去噪步骤中计算身份损失 ,本文使用 DDIM近似得到的干净图像 ,并将其传递给人脸检测器。

推理

在推理过程中,给定一张图像 ,本文在所有时间步长 上通过公式 获得其token embedding。这些 embedding可以与文本提示结合,以生成所学习主体的新组合。扩散模型中的图像生成过程遵循分层结构,前几个步骤形成布局,随后形成对象的形状和外观。由于本文的主要目标是 embedding主体的身份,本文仅在时间阈值 之后注入获得的token embedding,以避免影响初始时间步长生成的布局。

在初始去噪时间步长 中,本文在提示中使用名人姓名作为占位符,例如“一个布拉德·皮特扮演星球大战角色的照片”,因为在提示中使用知名主体时,模型会生成更好的图像布局。经验上,本文观察到生成结果对使用的名人姓名不敏感,它仅作为占位符,所以本文固定使用一个名人姓名,并且与用于评估的数据集没有身份重叠。这种延迟注入学习到的 embedding可以改善文本对齐,而将预测的token embedding传递给所有时间步长会导致较差的组合,模型输出为裁剪的人脸,如下图3所示。

人脸属性的细粒度控制

在训练完成后,潜在适配器 搭建了解耦且平滑的 潜在空间与扩散模型的文本条件之间的桥梁。这使得在 StyleGANs 的 空间中运行的潜在属性编辑方法能够转移到扩散模型中。具体来说,对于给定的源图像 ,本文首先使用 EGAN 获得其对应的 潜在代码。接下来,通过添加一个带有标量权重 的全局线性属性编辑方向 来编辑潜在代码 ,从而得到 。注意,相同的全局编辑方向 可以在 空间中的所有身份上进行泛化。经过编辑的潜在代码 然后通过 处理,以获得编辑后的token embedding 。

值得注意的是,可以通过改变标量 来精确控制属性编辑的强度,如下图 9 所示。为了在编辑过程中保持场景布局,本文使用相同的起始噪声,并复制生成未编辑的 时获得的自注意力图,类似于 [29]。此外,由于 的线性特性,可以通过对各个属性编辑进行加权组合,轻松结合多个编辑方向(如下图 10 所示)。

多人组成

本文的方法可以扩展到在单个场景中组合多个主体身份。简单地在文本提示中 embedding多个token embedding(每个主体一个),而不进行主体特定的调整,会导致身份失真(如下图5a所示)。联合进行主体特定调整可以改善身份识别,但会出现属性混合的问题,即一个主体的面部属性被转移到另一个主体上,如下图5b中的年龄和头发。这是文本到图像(T2I)生成中的一个常见问题,模型在处理场景中的多个对象时,容易绑定错误的属性。本文采用了一种不同的方法,灵感来自于MultiDiffusion,在这个方法中,本文运行多个串联的扩散过程,每个主体和背景各一个。在每一步的去噪过程中,将这些过程的输出进行组合。

本文使用实例分割mask来进行处理。对于每个主体,本文通过其对应的主体特定微调模型运行扩散过程。这种方法能够保留每个微调模型学习到的主体细节,并实现多个人物的高保真组合,而不会出现属性混合的问题。为了获得实例分割mask,本文使用包含两个人物的提示运行单个扩散过程,并在生成的图像上应用现成的分割模型SAM。此外,本文可以在W+空间中通过潜在变量操控对单个主体进行细粒度的属性编辑,同时保留其他主体的完整性,如上图1所示。

实验

本文在StableDiffusion-v2.1上进行所有实验,将其作为代表性的文本到图像(T2I)模型。对于反演,本文使用在面部数据集上训练的预训练StyleGAN2 e4e编码器,将图像映射到空间。在接下来的章节中,本文首先讨论数据集和指标,然后是单主体和多主体个性化的结果、细粒度属性编辑以及消融研究。

数据集 & 评估指标

数据集:潜在适配器的训练使用了由StyleGAN2生成的合成图像和来自FFHQ数据集的真实图像的组合。数据集包含了70,000张图像及其对应的通过e4e获得的w潜在代码。本文收集了一个包含30个主体的评估数据集,其中包括科学家、名人、运动员和科技高管。本文还在补充材料中对“非名人”身份和合成面孔进行了评估。本文使用了一组25种多样化的文本提示,包括用于风格化、背景更改和执行特定动作的文本。

评估指标:本文使用两个广泛使用的指标来评估个性化性能:提示相似性(Prompt similarity)——使用CLIP来测量提示与生成图像的对齐程度;身份相似性(Identity similarity, CS)——通过计算来自面部 embedding的余弦相似度来测量输入图像与生成图像之间的身份相似性。为了评估细粒度属性编辑,本文计算属性提示(例如,“一个微笑的人”)编辑前后的提示相似性变化(∆ CLIP)。此外,本文使用LPIPS和身份相似性来测量编辑过程中图像的变化。对于理想的细粒度属性编辑,较高的∆ CLIP表示有意义的编辑,而较低的LPIPS和较高的身份相似性表示源身份的保留。

与个性化方法的比较。

单主体个性化。 本文在评估集中使用多样化的文本提示进行单图像个性化,如下图7、13所示。本文与以下基于微调的个性化方法进行比较:Custom Diffusion、Dreambooth、Dreambooth+LoRA(即通过低秩更新来避免过拟合的Dreambooth)、Textual Inversion 和 Celeb Basis。除了Celeb Basis和本文的方法外,所有方法都使用每个主体的5张图像进行训练,而Celeb Basis和本文的方法仅使用单张输入图像。关于竞争方法的超参数细节在补充材料中提供。

Custom Diffusion能够 embedding主体并保持其身份;然而,它主要生成特写面孔,并且不根据文本提示对主体进行风格化或使其执行动作。Dreambooth无法忠实地 embedding主体的身份,而通过LoRA训练,身份保留得到改善,同时文本对齐性提高,这有助于避免过拟合。Textual Inversion和Celeb Basis的身份保留效果较差,因为它们仅微调token embedding而不是U-Net。

这段文字讨论了Celeb Basis方法在文本对齐方面的表现。由于Celeb Basis方法在跨越名人姓名的基础上施加了强有力的正则化,因此在文本对齐上表现最佳。本文的方法在文本对齐和身份保留之间找到了完美的平衡。需要注意的是,本文的方法和Celeb Basis都只使用1张输入图像,这在一定程度上会影响身份识别,而Custom-diffusion方法需要5张图像。本文还在补充材料中提供了与基于编码器的模型以及最近的IP-adaptor方法的额外比较。

这段文字讨论了多主体个性化的生成结果。本文在下图8、14中展示了 embedding多人物组合的结果,具体来说,本文在生成过程中结合了主体特定调优模型的中间输出。本文与多概念个性化方法、Textual Inversion、Custom Diffusion和Celeb Basis进行了比较。

对于Textual Inversion和Celeb Basis,本文为每个主体分别学习了两个不同的token embedding。对于Custom Diffusion,本文对两个主体的投影矩阵进行了联合微调。Textual Inversion无法在场景中生成两个主体。Celeb Basis和Custom Diffusion能够生成两个主体,但存在属性混合的问题(例如,v4的眼镜被转移到了v3上)。如前所述,Celeb Basis大多数情况下会生成卡通化的面孔。

本文的方法通过运行多个主体特定的扩散过程解决了属性混合问题,并生成了高度逼真的组合。

通过潜在操纵进行细粒度控制

提出的方法将StyleGAN的解耦W+潜空间与T2I模型的token embedding空间匹配,通过潜空间操作实现对图像属性的连续控制。本文展示了由StyleGAN解耦潜空间驱动的两个重要图像编辑应用:1)细粒度属性编辑和2)平滑身份插值。此外,本文的模型还可以恢复受损的人脸图像,如低分辨率或修复被遮盖的面部特征。

细粒度属性编辑。本文通过在输入图像的编码中添加一个全局潜在编辑方向来执行属性编辑。为了对所有属性采用统一的方法,本文采取了一种简化的方法来获取编辑方向,收集了一小组(<20)的在属性编辑前后的配对人像图像(使用现成的属性编辑方法生成)。接下来,本文计算对应配对的潜向量之间的差异,并对其进行平均以获得全局编辑方向。

本文找到了微笑、年龄、胡须、性别、种族和眼镜的全局编辑方向。本文还在附录的图S6中展示了使用InterfaceGAN获得的方向进行的编辑。在上图9和上图10中提供了细粒度控制编辑的结果,本文通过改变展示了对各种属性的解耦连续控制,同时保持身份不变。本文的方法将原本为肖像脸定义的W+中的编辑方向推广到自然场景和风格化的人脸图像。本文评估了属性编辑性能,比较了1)基于StyleGAN的全局编辑方法InterfaceGAN,在使用e4e编码图像后,2)通过提示进行的学习主体的编辑(例如,给出提示“微笑的v1照片”),3)基于文本的单图像个性化编辑方法Imagic。定量结果见下表1,定性结果见图11。本文的方法在保持低LPIPS分数的同时获得了较高的 CLIP,表明高度解耦的属性编辑。两种基于文本的编辑方法均未能保留图像区域(较高的LPIPS)。在编辑期间,本文实现了高CS分数和较高的 CLIP,表明身份保持的属性编辑。本文的基于提示的编辑在许多情况下未进行编辑(由较低的LPIPS指示),因此实现了更优的CS。与本文的方法类似,InterfaceGAN也在W+潜空间中工作,并在保留图像内容、主体身份和可编辑性方面表现相似。然而,它仅限于StyleGAN生成的肖像脸的编辑,并且失去细节面部特征,而本文的方法结合了这两者的优点,允许在T2I模型中进行细粒度潜在编辑和语义编辑。

身份插值。W+空间还允许在两个身份之间进行平滑插值。给定两个输入图像,本文获得它们对应的潜向量,并进行线性插值以获得中间潜向量。当通过潜在适配器作为条件使用时,这些潜向量会产生逼真的人脸插值,面部之间的变化平滑,同时保留背景,如图9底部所示。

消融实验

本文在上图12中对个性化方法中的设计选择进行了消融实验。身份损失和正则化损失在将token embedding推向面部 embedding区域方面具有相似的效果。时间依赖的token embedding对于保持主体身份至关重要,因为它提供了一个更具表现力的空间来表示面部。最后,结合损失的特定主体调优提高了身份相似性和提示相似性,因为预测的token embedding在和的作用下被推向可编辑区域。

结论

本文提出了一种新颖的框架,将T2I扩散模型与StyleGAN2模型的空间结合,用于细粒度属性控制。具体来说,本文学习了一种潜在映射器,将来自的潜在代码投射到通过去噪、正则化和身份保留损失学习的T2I模型的输入token embedding空间。这个框架提供了一种自然的方法,通过使用GAN编码器模型获取潜在代码来 embedding真实的人脸图像。然后可以通过两种方式编辑 embedding的人脸——粗略的基于文本的编辑和通过在中进行潜在操控的细粒度属性编辑。

参考文献

[1] PreciseControl: Enhancing Text-To-Image Diffusion Models with Fine-Grained Attribute Control

更多精彩内容,请关注公众号:AI生成未来

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值