【AI论文】AnyStory: 迈向文本到图像生成中的统一单主体与多主体个性化-CSDN博客

本文链接：https://blog.csdn.net/m0_66899341/article/details/145360548

摘要：近年来，大规模生成模型在文本到图像的生成方面展现出了卓越的能力。然而，生成具有特定主体的高保真个性化图像仍然面临挑战，尤其是在涉及多个主体的情况下。在本文中，我们提出了AnyStory，一种用于个性化主体生成的统一方法。AnyStory不仅实现了单一主体的高保真个性化，而且也在多个主体的情况下保持了主体的保真度。具体来说，AnyStory采用“先编码再路由”的方式对主体个性化问题进行建模。在编码步骤中，AnyStory利用一个通用且强大的图像编码器（即ReferenceNet）与CLIP视觉编码器相结合，实现对主体特征的高保真编码。在路由步骤中，AnyStory使用一个解耦的实例感知主体路由器，准确感知并预测潜在空间中对应主体的可能位置，并指导主体条件的注入。详细的实验结果表明，我们的方法在保留主体细节、与文本描述对齐以及多个主体的个性化方面表现出色。项目页面请访问：https://aigcdesigngroup.github.io/AnyStory/。Huggingface链接：Paper page，论文链接：2501.09503

一、引言

随着深度学习和生成模型的快速发展，文本到图像生成（Text-to-Image Generation）领域取得了显著进展。然而，尽管现有的大规模生成模型能够生成逼真且符合文本描述的图像，但在生成包含特定主体（如人物、动物等）的个性化图像时，仍面临诸多挑战。尤其是当涉及多个主体时，如何在保持主体细节的同时，避免不同主体之间的特征混合，成为了一个亟待解决的问题。

传统的方法通常依赖于测试时的微调（fine-tuning）来实现个性化内容生成，但这需要大量的时间和计算资源，并且泛化能力有限。近年来，一些研究开始探索零样本设置下的个性化生成，通过引入专门的主体编码器来重新训练文本到图像模型。然而，这些方法要么受限于编码器提供高保真主体细节的能力，要么只能应用于特定类别的对象（如人脸），无法扩展到一般主体。此外，现有方法主要关注单主体个性化，而在多主体生成中，由于语义泄漏等问题，常常出现主体特征混合的现象。

为了解决这些问题，本文提出了AnyStory，一个统一的单主体与多主体个性化框架。AnyStory旨在通过灵活控制单个或多个主体的条件，实现高质量的个性化图像生成，同时保持与文本描述的对齐。

二、相关工作

1. 单主体个性化

个性化图像生成是一个热门且具有挑战性的研究课题。早期的工作通常依赖于测试时的微调来实现个性化。这些方法虽然有效，但需要大量的时间和计算资源，并且泛化能力较差。近年来，一些研究开始探索无需额外微调的个性化生成方法。这些方法通过引入预训练的多模态编码器来提供主体表示，或者通过设计专门的令牌到补丁对齐器和细节保留的主体编码器来学习选择性主体嵌入。然而，这些方法要么受限于编码器保留主体细节的能力，要么只能应用于特定领域（如人脸）。

2. 多主体个性化

尽管单主体个性化取得了显著进展，但多主体图像的个性化生成仍然面临挑战。主要问题在于如何避免不同主体之间的特征混合。一些研究通过引入预定义的布局掩码来指导多主体生成，但这限制了生成模型的创造力和生成图像的多样性。此外，为复杂场景中的每个主体提供精确的布局掩码也是一项具有挑战性的任务。另一些研究通过在训练过程中对交叉注意力图施加约束来避免特征混合，但这可能会影响主体条件的注入。

3. 故事可视化

故事可视化是指根据给定的脚本生成视觉叙事。近年来，这一领域也取得了显著进展。一些研究提出了自洽的自注意力计算或共享预训练扩散模型的内部激活来确保角色在故事序列中的一致性。然而，这些方法主要关注角色的一致性，而没有涉及到多主体的个性化生成。

三、方法概述

AnyStory方法基于预训练的文本到图像扩散模型（如Stable Diffusion XL），通过引入增强的主体表示编码器和解耦的实例感知主体路由器，实现了统一的单主体与多主体个性化。

1. 扩散模型基础

本文使用的扩散模型是Stable Diffusion XL（SDXL），它接受一个文本提示作为输入，并生成相应的图像。SDXL包含三个主要模块：自编码器（E(·), D(·)）、CLIP文本编码器τ(·)和U-Net ϵθ(·)。模型通过最小化扩散损失来训练：

Ldiff=Ez,P,ϵ∼N(0,1),t[∥ϵ−ϵθ(zt,t,τ(P))∥22]

其中，ϵ∼N(0,1) 是采样的高斯噪声，t 是时间步，z0=E(x0) 是图像的潜在编码，zt 是通过 zt=αtz0+σtϵ 计算得到的。

2. 增强的主体表示编码

为了实现高质量的个性化生成，需要一种能够保留主体细节并与文本描述对齐的主体表示。本文引入了ReferenceNet，一个强大且通用的图像编码器，与CLIP视觉编码器结合使用来编码主体。

CLIP编码：从CLIP图像编码器的倒数第二层提取隐藏状态，作为主体的粗略视觉概念表示。然后，使用QFormer将这些特征压缩成固定数量的令牌，作为CLIP编码的主体表示。
ReferenceNet编码：ReferenceNet采用与U-Net相同的架构，但去除了所有交叉注意力块以简化模型并减少计算成本。输入到ReferenceNet的是分割后的主体图像及其掩码，输出的是不同自注意力层的隐藏状态，作为ReferenceNet编码的主体表示。

3. 解耦的实例感知主体路由

在将主体条件注入到潜在空间时，需要仔细考虑注入位置以避免影响不相关的目标。本文提出了一种解耦的实例感知主体路由器，能够准确且有效地将主体特征路由到相应的区域，同时减少对不相关区域的影响。

解耦路由机制：与UniPortrait不同，AnyStory使用一个独立的分支来专门预测主体在潜在空间中的潜在位置。该路由器采用图像分割解码器的结构，通过掩码交叉注意力机制来更新路由特征，并使用这些特征来指导主体信息的注入。
实例感知路由正则化损失：为了促进路由器的学习并区分不同主体的实例，引入了一种实例感知路由正则化损失。该损失函数计算预测的路由图与真实掩码之间的差异，从而帮助路由器更准确地定位主体。
路由引导的主体信息注入：在将CLIP编码和ReferenceNet编码的主体特征注入到U-Net中时，使用路由图来引导信息的注入位置。这通过引入额外的注意力掩码来实现，从而确保主体特征被注入到正确的区域。

4. 训练方案

AnyStory的训练过程分为两个阶段：主体编码器训练阶段和路由器训练阶段。

主体编码器训练：训练主体QFormer、ReferenceNet以及相应的注意力块中的键和值矩阵。使用大量配对的主体数据来训练编码器，这些数据来源于图像、视频和3D渲染数据库。通过最小化扩散损失来优化编码器。
路由器训练：固定主体编码器，训练路由器。训练数据主要包括额外的多人物图像。尽管训练数据主要集中在人体图像上，但路由器能够很好地泛化到一般主体。训练损失包括扩散损失和路由正则化损失。

四、实验结果

1. ReferenceNet编码器的效果

实验结果显示，与仅使用CLIP视觉编码器相比，引入ReferenceNet编码器能够显著增强主体细节的保留。然而，单独使用ReferenceNet编码器并不能很好地指导主体生成，仍然需要依赖CLIP编码的特征来触发主体生成。

2. 解耦实例感知路由器的效果

路由器在多主体生成中表现出色，能够有效地避免不同主体之间的特征混合。此外，在单主体设置中，路由器的使用也能提高生成图像的质量，尤其是在图像背景方面。这是因为路由器限制了主体条件的影响区域，从而减少了潜在偏差对生成图像质量的影响。

3. 路由图的可视化

通过可视化不同扩散时间步的路由图，可以看出路由器能够准确地感知和定位每个主体条件在潜在空间中的影响区域。这些路由图类似于图像分割掩码，表明通过降噪U-Net和训练好的路由器，有可能实现基于参考图像的引导图像分割。

4. 生成示例

文中展示了大量生成示例，证明了AnyStory在保留主体细节、与文本描述对齐以及实现多主体个性化方面的出色性能。这些示例涵盖了不同的场景和风格，展示了AnyStory的灵活性和通用性。

五、结论与未来工作

本文提出了AnyStory，一个统一的单主体与多主体个性化框架。通过引入增强的主体表示编码器和解耦的实例感知主体路由器，AnyStory实现了高质量的个性化图像生成。实验结果表明，AnyStory在保留主体细节、与文本描述对齐以及实现多主体个性化方面均表现出色。

然而，目前AnyStory还存在一些局限性。例如，它无法为图像生成个性化的背景。在未来的工作中，作者计划扩展AnyStory的控制能力，从主体域扩展到背景域。此外，尽管AnyStory已经能够生成高质量的个性化图像，但仍然存在复制粘贴效应。作者计划通过数据增强和使用更强大的文本到图像生成模型来进一步缓解这一问题。

AnyStory为文本到图像生成领域提供了新的视角和思路，有望在未来的个性化内容生成、故事创作等应用场景中发挥重要作用。