PreciseControl:增强文本到图像的扩散模型与细粒度属性控制

Phoenixtree_DongZhao

于 2024-08-14 15:39:46 发布

阅读量408

点赞数 21

分类专栏： Image-to-Image unsupervised learning Image Generation 文章标签：人工智能 Text-to-Image

本文链接：https://blog.csdn.net/u014546828/article/details/141191560

版权

Image-to-Image 同时被 3 个专栏收录

14 篇文章 3 订阅

订阅专栏

unsupervised learning

3 篇文章 0 订阅

订阅专栏

Image Generation

2 篇文章 0 订阅

订阅专栏

PreciseControl : Enhancing Text-to-Image Diffusion Models with Fine-Grained Attribute Control

Abstract

Recently, we have seen a surge of personalization methods for text-to-image (T2I) diffusion models to learn a concept using a few images. Existing approaches, when used for face personalization, suffer to achieve convincing inversion with identity preservation and rely on semantic text-based editing of the generated face. However, a more fine-grained control is desired for facial attribute editing, which is challenging to achieve solely with text prompts. In contrast, StyleGAN models learn a rich face prior and enable smooth control towards fine-grained attribute editing by latent manipulation. This work uses the disentangled W+ space of StyleGANs to condition the T2I model. This approach allows us to precisely manipulate facial attributes, such as smoothly introducing a smile, while preserving the existing coarse text-based control inherent in T2I models. To enable conditioning of the T2I model on the W+ space, we train a latent mapper to translate latent codes from W+ to the token embedding space of the T2I model. The proposed approach excels in the precise inversion of face images with attribute preservation and facilitates continuous control for fine-grained attribute editing. Furthermore, our approach can be readily extended to generate compositions involving multiple individuals. We perform extensive experiments to validate our method for face personalization and fine-grained attribute editing.

Introduction

在文本到图像（Text-to-Image, T2I）生成任务中，实现高度的个性化控制是一项极具挑战性的目标。现有的文本到图像扩散模型（T2I diffusion models）尽管已经展示了从文本描述生成高质量图像的能力，但它们在精细控制面部属性方面仍面临限制。特别是，这些方法通常依赖于文本提示进行图像编辑，这种方式的控制能力相对粗糙，难以实现精细化的面部属性调整。

与此相对，StyleGAN模型通过学习丰富的面部先验，实现了对面部属性的平滑控制。然而，StyleGAN模型无法直接从文本描述生成图像，限制了其应用场景。为了结合这两类模型的优点，我们提出了一种新方法，通过将T2I模型与StyleGAN2的W+空间相结合，实现了文本到图像的精细属性控制。

主要动机与挑战

精细控制的需求：传统的T2I模型依赖文本提示进行编辑，这在实现精细的面部属性控制时显得力不从心。例如，微调微笑的幅度或调整胡须的形状等细致操作，单纯通过文本描述难以精确实现。
StyleGAN的优势：StyleGAN模型在面部生成方面展现了出色的能力，其解缠（disentangled）和平滑的潜在空间使得对面部属性的控制更为精确和灵活。然而，StyleGAN模型缺乏直接从文本生成图像的能力。
现有方法的不足：当前的T2I个性化方法多数关注于对象级别的概念嵌入，虽然在身份保持和文本可编辑性方面有所进步，但在精细属性控制方面仍显不足。另一些方法则试图通过潜在空间中的插值或特殊滑块来实现更精细的控制，但这些方法多应用于无条件的扩散模型，并不适合个性化生成任务。

提出的方法

为了解决上述问题，提出了一种新框架，该框架通过将T2I扩散模型与StyleGAN2的W+空间相结合，实现了对生成图像的精细属性控制。具体方法如下：

潜在适配器（Latent Adaptor）：训练了一个潜在适配器，该适配器能够将StyleGAN2的W+潜在空间中的编码映射到T2I模型的文本嵌入空间中。通过这种方式，能够在T2I模型中嵌入StyleGAN2中丰富且解缠的面部属性表示。
融合两模型优势：结合了T2I模型从文本生成图像的能力和StyleGAN模型在面部属性控制方面的优势，本文的方法不仅能够生成与文本描述相符的图像，还能够实现对这些图像中面部属性的精细控制。

Method

1 Preliminaries

Text-to-Image Diffusion Models:
本文工作基于StableDiffusion-v2.1作为文本到图像（T2I）的扩散模型代表。Stable Diffusion模型在潜在空间进行扩散过程，其训练涉及两个阶段：首先训练一个VAE或VQ-VAE自编码器来压缩和重建图像；然后使用这些编码作为条件训练一个扩散模型，该模型将高斯噪声逐步去噪为目标图像。通过映射到学习的潜在空间W/W+，这些模型能够捕捉图像的语义信息，并支持通过文本提示进行图像编辑。

2 Overview

本文提出了一种结合StyleGAN2和T2I模型的方法，通过潜在适配器（Latent Adaptor）将StyleGAN2的丰富人脸先验知识与T2I模型的强大生成能力相结合。这种方法首先利用StyleGAN的编码器将真实人脸图像映射到W+空间，然后通过潜在适配器将这些信息转换为T2I模型可接受的嵌入向量。这样，既可以利用StyleGAN的精细人脸编辑能力，又能通过T2I模型进行灵活的文本条件控制。

3 Latent Adaptor

Latent Adaptor M:
潜在适配器M是一个网络，它接受来自StyleGAN编码器的潜码w和扩散时间步t作为输入，输出一对嵌入向量(v1t, v2t)。这些嵌入向量代表了在特定时间步t下的人脸特征，并用于在T2I模型的U-Net中生成图像。通过条件化M于时间步t，可以捕捉扩散模型中的语义层次结构。

4 Training

训练过程分为两个阶段：

预训练潜在适配器M：在人脸数据集上预先训练M，使其能够将StyleGAN的潜码转换为T2I模型可接受的嵌入向量。
主体特定训练：使用少量迭代对M和T2I模型的U-Net进行主体特定训练，以优化生成的图像在身份保持和文本对齐方面的性能。

损失函数：包括扩散损失L_Diffusion、正则化损失L_reg和身份保持损失L_ID。通过这些损失项，模型能够在保持图像身份的同时，精确匹配文本提示。

5 Inference

在推理阶段，给定一张人脸图像I，首先使用StyleGAN编码器E_GAN将其映射到W空间得到潜码w。然后，通过潜在适配器M得到所有时间步t的嵌入向量(v1t, v2t)。这些嵌入向量可以与文本提示结合，通过T2I模型生成包含该人脸的新图像或进行精细的属性编辑。

6 Fine-grained Control over Face Attributes

一旦训练完成，潜在适配器M便能够在解耦和平滑的W+空间和T2I模型的文本条件之间建立桥梁。这使得在W+空间中定义的潜在属性编辑方法能够转移到T2I模型上。通过向潜码w添加全局线性属性编辑方向d和标量权重β，可以实现对人脸属性的精细控制。编辑后的潜码再次通过M得到编辑后的嵌入向量，并最终通过T2I模型生成编辑后的图像。

7 Composing Multiple Persons

为了在多人场景中组合多个主体身份，本文提出了一个联合调优的策略。通过为每个主体单独微调T2I模型，并在生成过程中使用相应的主体特定嵌入向量，可以生成高保真度的多人图像，同时避免属性混合。这种方法利用了T2I模型在生成过程中形成的层次结构，并通过在适当时机注入学习到的嵌入来改善图像布局。此外，通过使用实例分割掩码，可以进一步细化图像中每个主体的细节。

Phoenixtree_DongZhao

关注

21
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
PreciseControl:增强文本到图像的扩散模型与细粒度属性控制

W+W+W+在文本到图像（Text-to-Image, T2I）生成任务中，实现高度的个性化控制是一项极具挑战性的目标。现有的文本到图像扩散模型（T2I diffusion models）尽管已经展示了从文本描述生成高质量图像的能力，但它们在精细控制面部属性方面仍面临限制。特别是，这些方法通常依赖于文本提示进行图像编辑，这种方式的控制能力相对粗糙，难以实现精细化的面部属性调整。与此相对，StyleGAN模型通过学习丰富的面部先验，实现了对面部属性的平滑控制。
复制链接

扫一扫

专栏目录