【AIGC】2024-arXiv-使用 B-LoRA 进行隐式风格-内容分离

念啊啊啊啊丶

已于 2024-10-21 00:00:57 修改

阅读量1.1k

点赞数 15

分类专栏： AIGC 文章标签：人工智能计算机视觉深度学习机器学习神经网络

于 2024-10-20 17:48:41 首次发布

本文链接：https://blog.csdn.net/weixin_42475026/article/details/143085091

版权

AIGC 专栏收录该内容

19 篇文章

订阅专栏

2024-arXiv-Implicit Style-Content Separation using B-LoRA

使用 B-LoRA 进行隐式风格-内容分离

使用 B-LoRA 进行隐式风格-内容分离

作者：Yarden Frenkel, Yael Vinker, Ariel Shamir, Daniel Cohen-Or
单位：Tel Aviv University, Reichman University
论文地址：https://arxiv.org/abs/2403.14572

摘要

图像风格化涉及处理图像的视觉外观和纹理（风格），同时保留其底层对象、结构和概念（内容）。风格和内容的分离对于独立于内容处理图像风格至关重要，可确保获得和谐且视觉上令人愉悦的效果。实现这种分离需要深入了解图像的视觉和语义特征，通常需要训练专门的模型或进行大量优化。在本文中，我们介绍了 B-LoRA，这是一种利用 LoRA（低秩自适应）隐式分离单个图像的风格和内容成分的方法，可促进各种图像风格化任务。通过分析 SDXL 与 LoRA 相结合的架构，我们发现联合学习两个特定块（称为 B-LoRA）的 LoRA 权重可以实现风格-内容分离，而单独训练每个 B-LoRA 则无法实现这种分离。将训练合并为两个模块，并将风格和内容分开，可以显著改善风格操控，并克服模型微调中经常出现的过拟合问题。经过训练后，两个 B-LoRA 可以用作独立组件，以完成各种图像风格化任务，包括图像风格转换、基于文本的图像风格化、一致风格生成和风格内容混合。

1. 引言

图像风格化是计算机视觉领域中一项成熟的任务，多年来一直受到广泛研究 [17, 23]。此任务涉及根据某些风格参考更改图像的风格，这些风格参考可以是基于文本的，也可以是基于图像的，同时保留其内容。内容是指图像的语义信息和结构，而风格通常是指视觉特征和模式，例如颜色和纹理 [49]。图像风格处理是一项极具挑战性的任务，因为风格和内容紧密相关，因此风格转换和内容保留之间存在固有的权衡。另一方面，许多风格处理任务需要明确区分图像中的风格和内容。

在本文中，我们提出了 B-LoRA，一种用于对任何给定图像进行风格内容分离的方法。我们的方法从单个图像中提取风格和内容，以支持各种风格处理应用。

在大型语言视觉模型的最新进展领域，现有方法利用这些模型中嵌入的强大视觉语义先验来促进风格操控任务。常用技术包括微调预训练的文本到图像模型以考虑新的风格或内容 [4, 20, 25, 45]。然而，微调模型通常会在风格转换和内容保留之间产生固有的权衡，因为它们容易过度拟合。与这些方法不同，我们通过按图像分离来统一风格和内容组件的学习（见图 1）。这种分离是通过安装轻量级适配器（B-LoRA）来执行的，该适配器不易出现过度拟合问题，并具有任务灵活性，允许基于文本和参考风格图像条件。

图 1

图 1. 通过将单个图像隐式分解为 B-LoRA 捕获的风格和内容表示，我们可以执行高质量的风格内容混合，甚至可以在两个风格化的图像之间交换风格和内容。© 左边的画作由 Judith Kondor Mochary 创作。

我们的方法利用了 LoRA（低秩自适应）[25]，它因高质量的结果和时空效率而成为一种流行的方法。LoRA 结合了优化外部低秩权重矩阵作为基础模型的注意层，而预训练的模型权重保持 “冻结”。训练后，这些矩阵定义了可用于所需任务的自适应模型。LoRA 通常用于图像风格化，通过针对一组可以表示所需风格或所需内容的图像对基础模型进行微调。

具体来说，我们将 LoRA 与 Stable Diffusion XL（SDXL）[41] 结合使用，这是一种最近推出的文本到图像扩散模型，以其强大的风格学习能力而闻名。通过详细分析 SDXL 中的各个层及其对自适应过程的影响，我们有了一个惊人的发现：两个特定的 Transformer 块可用于分离输入图像的风格和内容，并轻松地在生成的图像中对它们进行明显控制。为了清楚起见，在本文中，我们将一个块定义为 10 个连续的注意层的序列。

因此，当提供单个输入图像时，我们联合优化与这两个不同的变换器块相对应的 LoRA 权重，目的是根据提供的文本提示重建给定的图像。由于我们只优化这两个 Transformer 块的 LoRA 权重，我们将它们称为 “B-LoRA”。关键在于这些 B-LoRA 仅在单个图像上进行训练，但它们成功地将其风格和内容解开，从而避免了与常见 LoRA 技术相关的臭名昭著的过度拟合问题。我们的技术受益于架构层内固有的风格-内容解开。我们方法的另一个优点是 B-LoRA 可以轻松用作单独的组件，允许执行各种具有挑战性的风格操作任务，而无需任何额外的训练或微调。特别是，我们展示了风格转换、文本引导的风格操作和一致的风格条件图像生成（见图 2）。

我们注意到，最近有人尝试将训练过的风格和内容 LoRA 组合成一个统一的模型 [47]。这种方法需要对每种风格-内容组合进行新的优化过程。这既耗时，又给在风格转换和内容保留之间实现有效权衡带来了挑战。相比之下，我们训练过的 B-LoRA 可以轻松地重新插入到预训练模型中，并与来自其他参考图像的其他学习块相结合，而无需进一步训练。

我们对我们的方法进行了广泛的评估，展示了它与通常旨在实现这些任务之一的替代方法相比的优势。我们的方法为图像风格化提供了一种实用而简单的方法，可以广泛应用于现有模型。

图 2

图 2. 使用我们的方法生成的图像风格化示例。内容图像显示在左侧。我们在此展示了基于参考风格的三个图像风格迁移结果，一个（右侧）基于引导文本提示。请注意，我们的方法只需要一张图像，并且在应用所需风格时很好地保留了图像的内容和结构。

2. 相关工作

风格迁移。图像风格迁移是计算机视觉领域长期存在的挑战 [13, 23]，旨在根据给定的参考改变图像的风格。随着深度学习研究的进展，神经风格迁移（NST）方法依靠从预训练网络中提取的深度特征来融合内容和风格 [17, 30, 31]。随后提出了基于 GAN 的 [18] 技术来跨域迁移图像，使用成对 [29] 或非成对 [32, 38, 61] 数据集，但它们需要特定领域的数据集和训练。

语言视觉模型和扩散模型的最新进展彻底改变了图像风格化领域。利用预训练语言视觉模型中编码的大量知识，现代方法探索零样本图像风格化和编辑 [5, 10, 11, 14, 34, 37, 39, 57]，其中通过干预生成过程来处理图像而无需额外的微调或数据调整。Prompt-to-Prompt [21] 提出了一种通过操纵交叉注意图来编辑生成图像的方法。在 Plug-and-Play [50] 中，通过自注意机制调整引导图像的空间特征，根据给定的文本提示来操纵内容图像的外观。交叉图像注意（CIA）[2] 提出了一种通过改变交叉注意机制基于参考图像修改图像外观的方法。虽然这些方法有效地改变了内容图像的外观，但它们在具有不同语义的主体之间转移外观时可能会遇到挑战。

StyleAligned [22] 利用注意力特征共享与 AdaIN 机制 [26] 相结合，实现生成图像序列之间的风格对齐。然而，该方法并非专门设计用于控制生成图像的内容，可能会导致风格图像结构泄漏。同样，基于编码器的方法（如 IP-Adapter [58]）也缺乏风格-内容分离。InstantStyle [54] 是我们同时开展的工作，旨在通过将风格图像的 CLIP 嵌入注入 SDXL 内的特定块来改进 IP-Adapter 的图像风格化任务。在我们的工作中，我们分解风格和内容，并为每个学习一个单独的表示。

文本到图像个性化。在另一项工作 [3, 4, 15, 20, 45, 53] 中，提出了优化技术来扩展预训练的文本到图像模型，以支持基于具有相同概念的一小组输入图像生成新的视觉概念，包括风格和内容。这允许利用预训练模型的丰富语义视觉先验来执行定制任务，例如生成所需风格的图像。现有方法采用标记优化技术 [1, 15, 52, 53, 56, 60]、微调模型的权重 [45] 或两者结合 [3, 4, 6, 7]。标记优化需要更长的训练时间，并且通常导致次优重建。虽然模型微调提供了更好的重建，但它会消耗大量内存并且容易过拟合。为了解决内存效率低下的问题，并促进更高效的模型微调，提出了参数高效微调（PEFT）方法 [24, 25, 33]。StyleDrop [48] 利用 Muse [9] 作为基础模型，并调整其样式以与参考图像对齐。StyleDrop 在 Transformer 模型中每个注意力块的末尾训练一个轻量级适配器层。然而，与 StyleAligned [22] 类似，他们的方法是为了风格适应而设计的，但对于内容保存，需要进行另一项优化。在现有的 PEFT 方法中，低秩适应（LoRA）[25] 是一种流行的微调技术，因其多功能性和高质量结果而被研究人员和从业者广泛使用。

用于图像风格化的 LoRA。LoRA 通常用于图像风格化，通过微调模型来生成所需风格的图像。通常，LoRA 在一组图像上进行训练，然后将其与控制方法（如风格 Concept-Sliders [16] 或 ControlNet [43, 59]）相结合，并使用文本提示来调节生成的图像内容。虽然基于 LoRA 的方法已证明在捕捉风格和内容方面具有显著的能力，但这项任务需要两个单独的 LoRA 模型，并且没有简单的方法将它们结合起来。一种常见的简单方法是通过直接插入它们的权重 [46] 来组合两个 LoRA，依靠手动搜索所需的系数。替代方法 [19, 40] 提出了一种基于优化的策略来找到这种组合的最佳系数。然而，他们专注于组合两个对象，而不是图像风格化任务。

最近，Shah 等人提出了 ZipLoRA [47]，建议通过学习其列的混合系数将两个针对风格和内容进行训练的 LoRA 合并为一个新的“压缩”LoRA。这项工作与我们的工作密切相关，因为我们还混合了在不同图像上训练的 LoRA 权重，以促进图像风格化。然而，ZipLoRA 需要为每个新的内容和风格组合进行额外的优化阶段，从而限制了重复使用经过训练的 LoRA 权重的灵活性，而这正是 LoRA 的主要优势。相比之下，我们的方法允许直接重复使用学习到的风格和内容，而无需额外的训练，从而提高了效率和多功能性。此外，我们证明了我们的隐式方法对具有挑战性的风格和内容更具鲁棒性。

3. 准备工作

SDXL 架构。在我们的工作中，我们利用最近推出的公开可用的文本到图像稳定扩散 XL（SDXL）[41]，它是已知稳定扩散 [44] 的升级版本。这两种模型都是潜在扩散模型（LDM）的类型，其中扩散过程应用于预训练图像自动编码器的潜在空间。与稳定扩散相比，SDXL 架构利用了三倍大的 UNet 主干。UNet 总共包含 70 个注意层。每层都由交叉和自注意组成。这些注意层通常称为注意块。在本文中，为了清楚起见，我们将它们称为层，以免与我们优化的更大的 Transformer 块混淆。这些注意层分为 11 个 Transformer 块，其中前两个和后三个块分别由四个和六个注意层组成。六个内部块每个由 10 个注意层组成，如图 3 所示。

图 3

图 3. SDXL 架构图和我们基于文本的分析。为了检查第 i 个 Transformer 块对生成图像的影响，我们向其注入了不同的文本提示 \hat{p}，同时将 p 注入到所有其他块中。

文本条件生成也在 SDXL 中以以下方式扩展：给定一个文本提示 $y$ ，使用 OpenCLIP ViT-bigG [28] 和 CLIP ViT-L [42] 对其进行两次编码。然后将生成的嵌入连接起来以定义条件编码 $c$ 。然后，按照注意机制 [51]，将此文本嵌入输入到网络的交叉注意层中。

具体来说，在每一层中，深度空间特征 $x$ 被投影到查询矩阵 $Q=l_Q\left(x\right)$ ，文本嵌入通过学习到的线性投影 $l_Q,\ l_K,\ l_V$ 被投影到键矩阵 $K=l_K\left(c\right)$ 和值矩阵 $V=l_V\left(c\right)$ 。注意力图定义为：

公式 1

其中 $d$ 是键和查询的投影维度。

LoRA。低秩自适应 [25] 是一种针对特定任务或领域有效微调大型预训练模型的方法。LoRA 因其高质量的结果和效率而成为一种非常流行的微调预训练文本到图像扩散模型的方法 [46]。

让我们用 $W_0$ 表示预训练的文本到图像扩散模型的权重，用 $∆ W$ 表示针对特定任务对模型进行微调后学习到的残差。LoRA 中的关键思想是 $∆W\in\mathbb{R}^{m\times n}$ 可以分解为两个低内在秩矩阵 $B\in\mathbb{R}^{m\times r} 和 A\in\mathbb{R}^{r\times n}$ ，使得 $∆ W = B A$ ，且秩 $r<<min\left(m,\ n\right)$ 。在训练期间，原始模型权重 $W_0$ 保持不变，只有 $A$ 和 $B$ 会更新。因此，在训练结束时，我们可以通过使用 $W=W_0+∆W$ 获得调整后的模型权重。

LoRA 通常仅在交叉和自注意层中用于文本到图像扩散模型。如前所述，每层的注意机制依赖于四个投影矩阵： $l_Q,\ l_K,\ l_V$ 和 $l_{out}$ 。 LoRA 权重 $W_{Q},\ ∆W_{K},\ ∆W_{V}$ 和 $W_{out}$ 针对每个预训练矩阵进行了优化。我们用 $∆ W$ 表示这四个矩阵的 LoRA 权重。

4. 方法

我们的目标是将输入图像 $I$ 的风格和内容方面分离为单独的组件，从而实现基于文本和基于图像的风格化应用。我们的方法利用了预先训练的 SDXL 文本到图像生成模型 [41] 的功能，该模型以捕捉风格特征的稳健性而闻名 [47]。我们对 SDXL 架构进行了分析，以深入了解各个层对生成图像的风格或内容的贡献。在我们的观察的指导下，我们使用 LoRA [25] 来训练 SDXL 模型中仅两个特定 Transformer 块的更新矩阵。这些矩阵捕获输入图像的内容和风格的表示，它们足以促进许多图像风格化任务。

4.1 SDXL 架构分析

与之前的研究 [1, 53] 类似，我们研究了基础文本转图像模型中不同层对生成图像的影响。我们采用与 Voynov 等人 [53] 提出的方法类似的方法。关键思想是将不同的文本提示注入 SDXL 中某个 Transformer 块的交叉注意层。然后检查不同提示与生成图像之间的相似性。如果我们仅更改与第 $i$ 个块相对应的输入提示，并且第 $i$ 个块决定了生成图像的某些质量，那么这将在生成图像中显而易见。具体而言，我们研究了 SDXL 的六个中间 Transformer 块 $\left\{W_0^1,\ ..W_0^6\right\}$ ，每个块包含 10 个注意层（见图 3）。这些层是根据之前的研究 [1, 53] 选择的，这表明它们最有可能影响生成图像的重要视觉属性。

我们定义了两组随机的文本提示 $P_{content}$ 和 $P_{style}$ ，用不同的颜色描述不同的对象。 $P_{content}$ 中的提示是通过将随机对象放置在模板文本 “ 的照片” 中来定义的。对于 $P_{style}$ ，我们使用模板 “ 的照片”。随机对象和颜色由 ChatGPT 生成。请注意，由于我们使用 CLIP [42] 来评估结果（如下所述），因此颜色被用作风格的代理，并且我们发现 CLIP 更能指示颜色变化而不是风格变化。我们采样一对提示 $\left(p,\ \hat{p}\right)\in P_{content}$ 和 $\left(p,\ \hat{p}\right)\in P_{style}$ ，使得 $p\neq\hat{p}$ 。对于每一对 $\left(\hat{p},\ p\right)$ ，我们通过将 $\hat{p}$ 的嵌入注入 $W_0^i$ 同时将 $p$ 的嵌入注入所有其他层 $W_0^j, j\neq i$ 来生成图像 $I_{\hat{p}\rightarrow i,\ p\rightarrow j\neq i}$ （如图 3 所示）。针对我们瞄准的六个 Transformer 块中的每一个执行此操作，每对产生六张图像。

公式 2

其中 $C_I\left(I_{\hat{p}\rightarrow i,\ p\rightarrow j}\right)$ 和 $C_T\left(\hat{p}\right)$ 分别是生成图像的 CLIP 图像嵌入和提示的 CLIP 文本嵌入。 $sim\left(x,\ y\right)=x·y||x||·||y||$ 表示剪辑嵌入之间的余弦相似度。

总的来说，我们检查了 400 对内容和风格提示，并计算了每一层的平均分数。与一种提示相似的三个最顶层是 $W_0^2$ 和 $W_0^4$ ，它们决定了生成图像的内容，以及 $W_0^5$ ，它决定了图像的颜色。我们在图 4 中直观地展示了这些结论。在左侧，我们展示了块 2 和 4 对生成内容的影响。请注意， $I_{\hat{p}\rightarrow2,\ p\rightarrow j}$ 和 $I_{\hat{p}\rightarrow4,\ p\rightarrow j}$ 表明，当仅将 “一张老虎的照片” 注入一个块（2 或 4）时，而将 “一张兔子的照片” 注入其余块时，生成的图像会描绘一只老虎，而在所有其他选项中，生成的图像将描绘一只兔子。同样，在右侧，我们展示了块 5 对生成图像颜色的影响。

图 4

图 4. 即时注入对生成图像的影响。左侧图片展示了第 2 和第 4 个块如何影响生成图像中的内容（变成老虎），而最右侧图片则展示了将 \hat{p} 注入 i\neq2,\ 4 的块对生成图像没有影响。右侧图片展示了第五个块如何控制生成图像的颜色。

4.2 基于 LoRA 的 B-LoRA 分离

虽然上述观察适用于生成的图像，但我们的目标是检查我们找到的层是否有助于捕捉给定输入图像 $I$ 的内容和样式。

为了微调模型以生成给定图像的变体，我们利用了 LoRA [25] 方法。让我们用 $W_0$ 表示基本预训练 SDXL 模型的冻结权重，用 $W^i$ 表示每个块的学习残差矩阵。我们遵循 DreamBooth LoRA [46] 的默认设置来微调模型以重建给定的输入图像 $I$ 。

但是，我们并没有像平常一样优化所有 11 个块的 LoRA 权重，而是进行了两个实验，在第一个实验中，我们优化对 $W^2,\ ∆W^5$ ，在第二个实验中，我们优化 $W^4,\ ∆W^5$ （因为我们发现 $W_0^2$ 和 $W_0^4$ 主导内容， $W_0^5$ 主导颜色）。此外，我们在训练期间使用通用提示 “A [v]” 以防止明确引导模型捕捉图像的风格或内容。此过程和示例结果如图 5 所示。可以看出，我们发现在 1. 实现输入概念的完整重建和 2. 捕捉输入图像的内容方面，最佳优化组合是 $W^4,\ ∆W^5$ 。请注意，在 LoRA 训练过程中使用 UNet 的更深层 $W^4$ 而不是 $W^2$ 符合在输出图像中保留更精细细节的目标，如 [50] 所示。我们对其他层及其内部特定部分的效果以及在补充材料中使用不同文本提示的效果进行了分析。我们将这种训练方案称为 B-LoRA，因为它只训练两个 transformer 块而不是全部权重。因此，除了风格内容分离能力之外，这种方法还将存储要求降低了 70%。

图 5

图 5. 左侧显示的输入图像的训练 B-LoRA 比较，其中 ∆W_0^2,\ ∆W_0^5（中间）和 ∆W04 ,∆W_0^5（右侧）。对于每对训练过的 LoRA 权重，我们展示了将两者一起应用（重建输入图像）和单独应用内容层（即仅使用 ∆W^2 和 ∆W^4）的结果。结果表明 ∆W^4 更好地捕捉了输入对象的精细细节。

4.3 B-LoRA 用于图像风格化

结合上述分析的见解，我们现在描述 B-LoRA 训练方法。给定输入图像 I，我们仅微调 LoRA 权重 $W^4,\ ∆W^5$ ，目的是重建图像，w.r.t 为一般文本提示 “A [v]”。除了提高效率之外，我们发现通过仅训练这两层，我们可以实现隐式风格内容分解，其中 $W^4$ 捕获内容， $W^5$ 捕获风格。

一旦我们找到这些更新矩阵，我们就可以通过更新预训练 SDXL 模型的相应块权重来轻松使用它们，以用于风格操作应用，如下所述并在图 6 中演示。

图 6

图 6. 用于图像风格化的 B-LoRA。（1）为了根据给定风格图像参考 I_s 对给定内容图像 I_c 进行风格化，我们针对两幅图像训练 B-LoRA，然后将 ∆W_c^4 和 ∆W_s^5 组合成一个适应模型。（2）对于基于文本的风格化，我们只需插入训练后的 ∆W_c^4 来适应模型，然后在推理过程中使用所需的文本提示。（3）学习到的风格权重 ∆W_c^5 也可以按原样使用，以调整主干模型以生成具有 I_c 风格的图像。

基于图像风格参考的图像风格化。给定两幅分别描绘所需内容和风格的输入图像 $I_c,\ I_s$ ，我们使用上述过程来学习它们对应的 B-LoRA 权重： $I_c$ 的 $W_c^4,\ ∆W_c^5$ 和 $I_s$ 的 $W_s^4,\ ∆W_s^5$ 。然后，我们直接使用 $W_c^4$ 和 $W_s^5$ 来更新预训练网络的 Transformer 块 $W_0^4$ 和 $W_0^5$ 。对于推理过程，我们使用提示 “A [c] in [s] style”，如图 6 顶部所示。

基于文本的图像风格化。通过省略 $W_c^5$ （捕捉 $I_c$ 的风格）并仅使用 $W_c^4$ 来更新预训练模型的权重，我们得到了一个仅适应 $I_c$ 内容的个性化模型。为了使用基于文本的指导来操纵 $I_c$ 的样式，我们只需在推理过程中将所需的文本注入到适配层中（见图 6 左下角）。请注意，由于样式和内容是分开的，并编码在不同的块中，因此我们的方法允许进行具有挑战性的样式操纵。

一致的风格生成。最后，以类似的方式，可以通过排除 $W_s^4$ 并仅使用 $W_s^5$ 来调整模型以适应 $I_s$ 中提供的特定风格。这样就会产生一个适应所需风格的模型，并且可以使用基于文本的条件来生成具有所需风格的任何内容（见图 6 右下角）。

4.4 实施细节

我们在 SDXL v1.0 [41] 上训练 B-LoRA 权重，同时在微调过程中保持模型权重和文本编码器冻结。所有 LoRA 训练均在单幅图像上进行。我们使用 Adam 优化器，学习率为 5e−5。对于数据增强，我们仅在训练期间使用中心裁剪。我们将 LoRA 权重等级设置为 $r = 64$ ，并使用提示 “A [v]” 进行 1000 个优化步骤，在单个 A100 GPU 上每幅图像大约需要 10 分钟。请注意，虽然其他方法通常训练 LoRA 400 步以缓解过度拟合问题，但在我们的案例中这不是问题。

图 7

图 7. 我们的方法针对三个图像风格化任务生成的结果。第 1-3 行：图像风格转换。我们的方法可以对场景图像进行操作并从风格化图像中提取内容。第四行：基于文本的图像风格化应用于左侧的内容图像参考。请注意姿势和身份如何得到很好的保留。最后一行：一致的风格生成，其中该风格从左侧图像中提取并用于生成新对象。在这一行中，我们使用 \alpha=1.1 来增强风格效果。

5. 结果

为了产生我们方法的各种结果，我们为每个图像优化了一次 B-LoRA（ $W^4,\ ∆W^5$ ），然后在推理时插入其中一个或两个（取决于应用程序）以接收图像风格化，而无需任何进一步的优化或微调。

我们在图 7 中展示了第 4.3 节中讨论的三个应用程序的一些定性结果。在图 7 的前两行中，我们的方法设法转移了图像参考的样式（顶行），同时保留了左侧输入图像的内容。值得注意的是，这可以用于具有挑战性的内容输入，例如风格化图像（第一行）和整个场景的图像（第二行）。我们的方法对多种不同类型的风格都很稳健，即使在非常抽象的风格（例如第三列风格中所示的风格）中也能保留内容参考的本质。在第三行中，我们展示了基于文本的图像风格化的示例。从我们的隐式样式内容分离可以看出，输入对象的内容得到了很好的保留，而样式则由所需的文本提示控制。在最后一行中，我们演示了如何使用我们的方法进行一致的样式生成，其中仅使用样式的 B-LoRA 权重。观察到对象的样式在所有基于文本的生成图像中都得到了很好的保留。请参阅补充材料以获取更多示例。

5.1 比较

接下来，我们将我们的方法与其他方法进行定性和定量比较。请注意，由于我们依赖 SDXL 作为我们的骨干模型，为了进行公平的比较，我们也在 SDXL 上应用了其他方法。作为一个简单的基线，我们使用 DB-LoRA [46]（针对风格进行了微调）和 ControlNet [59] 进行内容调节。此外，我们还比较了三种最近的图像风格化方法，这些方法依赖于大型预训练文本到图像模型的先验，即 ZipLoRA [47]、StyleDrop [48] 和 StyleAligned [22]。StyleAligned 是使用作者的官方实现来应用的。由于缺乏 StyleDrop 和 ZipLoRA 的官方实现，我们在 SDXL 上实现了 StyleDrop（如 [22] 中所述），并使用了 ZipLoRA 的非官方实现 [36]。

请注意，对于内容保存，所有三种替代方法都需要多个内容图像示例，而我们的方法可以应用于单个图像。因此，为了公平比较，我们从现有的个性化作品 [15, 33, 45, 52] 中收集了总共 23 个对象，其中为每个对象提供了一小组图像。我们从 [22, 48] 中收集了 20 个风格图像参考，以及我们自己的 5 个额外风格图像。从这些集合中，我们随机抽样了 50 对风格和内容图像来组成我们的最终评估集。

在运行时间方面，StyleAligned 仅在一致风格生成方面是零样本的，而对于内容保存，它依赖于 LoRA 来使模型适应所需的概念。同样，StyleDrop 和 ZipLoRA 需要对内容和风格进行 LoRA 训练。因此，我们的运行时间与它们相当。相比之下，ZipLoRA 需要额外的训练阶段来合并两个 LoRA，这使得它比我们的方法更耗时。

定性评估。我们在图 8 中展示了代表性的比较结果，其中左侧展示了风格和内容参考图像。在前四行中，我们展示了应用多个内容图像时替代方法的结果，而我们的方法使用单个图像。可以看出，我们的方法有效地保留了内容图像中的主题，同时传输了所需的风格。相比之下，其他方法要么过度拟合内容主题，从而无法改变其风格（例如 ZipLoRA 和 StyleDrop 中的猫和树懒），要么遭受风格图像 “泄漏”。例如，在 StyleAligned 的猫咪示例中（第一行），模型生成了两只猫，与风格参考图像中的人数相匹配。我们还提供了一个应用于单个内容图像的替代方法示例，其中 StyleDrop 和 ZipLoRA 表现出了过度拟合的增加。

图 8

图 8. 与其他方法的比较。左侧显示了输入样式和内容参考，其中替代方法使用了多张内容图像。在最后一行中，我们将其他方法应用于单个内容图像。ZipLoRA 倾向于过度拟合内容，因此难以描绘所需的风格。在多张图像上进行训练时，StyleDrop 也难以保留内容。在单张内容图像（最后一行）的情况下，两种方法都保留了内容但丢失了风格。StyleAligned 很好地保留了风格；但是，它倾向于包含源自风格图像的语义内容，例如在第 1 行中创建一对。补充材料中提供了与 InstantStyle [54] 的更多比较。

定量评估。我们利用 DINO ViT-B/8 嵌入 [8]，通过计算输入内容和样式参考与输出图像的嵌入之间的余弦相似度来测量内容和样式保留。平均分数列于表 1。我们的方法获得了最高的样式对齐分数，表明其能够有效地适应样式。但是，我们观察到较低的对象相似度分数，这可能是由于在其他方法中观察到的内容过度拟合问题。

表 1

表 1. 定量比较。我们测量输出图像的 DINO 特征与参考风格和内容之间的平均余弦相似度。我们的方法在适应风格方面表现最佳，而不会过度拟合内容图像。

为了进一步支持这一观察结果，我们使用单个内容图像作为参考进行了相同的实验（分数显示在 “单个” 行中）。结果表明，所有方法的风格一致性分数都在下降，同时内容保留分数在上升，这表明存在过度拟合。

用户研究。我们进行了一项用户研究，以进一步验证上述发现。我们使用评估集中的 30 张随机图像，将我们的结果与三种替代方法进行了比较。向参与者展示了参考风格和内容图像以及两个组合结果，一个由我们的方法生成，另一个由替代方法生成（结果以随机顺序呈现）。参与者被要求选择“更好地从风格图像转移风格，同时保留内容图像的内容”的结果。我们收集了 34 名参与者的调查回复，共包含 1020 个答案。结果表明，参与者强烈偏爱我们的方法，94% 的参与者更喜欢我们的方法，而不是 StyleAligned，91% 更喜欢 ZipLoRA，88% 更喜欢 StyleDrop。

6. 结论、局限性和未来工作

我们提出了一种简单而有效的方法来解开单个输入图像的风格和内容。风格和内容组件分别用两个 B-LoRA 进行编码，为各种图像风格化任务中的独立使用提供了高度的灵活性。与专注于风格提取的现有方法相比，我们采用了复合风格内容学习方法，可以更好地分离风格和内容，从而提高风格化保真度。虽然我们的工作能够在各种复杂的输入图像上实现稳健的图像风格化，但它确实有局限性。首先，在我们的风格内容分离过程中，对象的颜色通常包含在风格组件中。

然而，在某些情况下，颜色在保留身份方面起着至关重要的作用。因此，在对内容组件进行风格化时，结果可能无法正确保留对象的身份，如图 9(a) 所示。其次，由于我们使用单个参考图像，我们学习到的风格组件可能包含背景元素，而不是仅仅关注中心对象，如图 9(b) 所示。最后，虽然我们的方法可以有效地对场景图像进行风格化，但它可能会遇到包含众多元素的复杂场景的挑战。因此，它可能难以准确捕捉场景结构，可能会损害内容保存，如图 9© 所示。

至于未来的研究，一种可能的途径是进一步探索 LoRA 微调中的分离技术，以实现更具体的子组件分离，例如结构、形状、颜色、纹理等。这可以让用户更好地控制所需的输出。未来工作的另一个方向是利用我们方法的稳健性并将其扩展到组合来自多个不同对象的 LoRA 权重或组合几种风格。

图 9

图 9. 方法的局限性。（a）由于颜色分离导致身份保存不理想。（b）背景对象的风格泄漏。（c）无法充分捕捉复杂场景中的内容。

参考文献

[1] Aishwarya Agarwal, Srikrishna Karanam, Tripti Shukla, and Balaji Vasan Srinivasan. An image is worth multiple words: Multi-attribute inversion for constrained text-to-image synthesis. ArXiv, abs/2311.11919, 2023. 3, 4
[2] Yuval Alaluf, Daniel Garibi, Or Patashnik, Hadar AverbuchElor, and Daniel Cohen-Or. Cross-image attention for zeroshot appearance transfer. ArXiv, abs/2311.03335, 2023. 3
[3] Yuval Alaluf, Elad Richardson, Gal Metzer, and Daniel Cohen-Or. A neural space-time representation for textto-image personalization. ACM Transactions on Graphics (TOG), 42(6):1–10, 2023. 3
[4] Moab Arar, Andrey Voynov, Amir Hertz, Omri Avrahami, Shlomi Fruchter, Yael Pritch, Daniel Cohen-Or, and Ariel Shamir. Palp: Prompt aligned personalization of text-toimage models. ArXiv, abs/2401.06105, 2024. 1, 3
[5] Omri Avrahami, Ohad Fried, and Dani Lischinski. Blended latent diffusion. ACM Transactions on Graphics (TOG), 42: 1 – 11, 2022. 2
[6] Omri Avrahami, Kfir Aberman, Ohad Fried, Daniel CohenOr, and Dani Lischinski. Break-a-scene: Extracting multiple concepts from a single image. In SIGGRAPH Asia 2023 Conference Papers, New York, NY, USA, 2023. Association for Computing Machinery. 3
[7] Omri Avrahami, Amir Hertz, Yael Vinker, Moab Arar, Shlomi Fruchter, Ohad Fried, Daniel Cohen-Or, and Dani Lischinski. The chosen one: Consistent characters in text-toimage diffusion models. arXiv preprint arXiv:2311.10093, 2023. 3
[8] Mathilde Caron, Hugo Touvron, Ishan Misra, Herv’e J’egou, Julien Mairal, Piotr Bojanowski, and Armand Joulin. Emerging properties in self-supervised vision transformers. 2021 IEEE/CVF International Conference on Computer Vision (ICCV), pages 9630–9640, 2021. 9
[9] Huiwen Chang, Han Zhang, Jarred Barber, AJ Maschinot, Jose Lezama, Lu Jiang, Ming Yang, Kevin P. Murphy, ´ William T. Freeman, Michael Rubinstein, Yuanzhen Li, and Dilip Krishnan. Muse: Text-to-image generation via masked generative transformers. ArXiv, abs/2301.00704, 2023. 3
[10] Minghao Chen, Iro Laina, and Andrea Vedaldi. Trainingfree layout control with cross-attention guidance. ArXiv, abs/2304.03373, 2023. 2
[11] Guillaume Couairon, Jakob Verbeek, Holger Schwenk, and Matthieu Cord. Diffedit: Diffusion-based semantic image editing with mask guidance. ArXiv, abs/2210.11427, 2022. 2
[12] Yingying Deng, Fan Tang, Weiming Dong, Chongyang Ma, Xingjia Pan, Lei Wang, and Changsheng Xu. Stytr2: Image style transfer with transformers. 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pages 11316–11326, 2021. 14
[13] Alexei A. Efros and William T. Freeman. Image quilting for texture synthesis and transfer. Proceedings of the 28th annual conference on Computer graphics and interactive techniques, 2001. 2
[14] Dave Epstein, A. Jabri, Ben Poole, Alexei A. Efros, and Aleksander Holynski. Diffusion self-guidance for controllable image generation. ArXiv, abs/2306.00986, 2023. 2
[15] Rinon Gal, Yuval Alaluf, Yuval Atzmon, Or Patashnik, Amit H Bermano, Gal Chechik, and Daniel CohenOr. An image is worth one word: Personalizing text-toimage generation using textual inversion. arXiv preprint arXiv:2208.01618, 2022. 3, 9
[16] Rohit Gandikota, Joanna Materzynska, Tingrui Zhou, Antonio Torralba, and David Bau. Concept sliders: Lora adaptors for precise control in diffusion models. ArXiv, abs/2311.12092, 2023. 3
[17] Leon A. Gatys, Alexander S. Ecker, and Matthias Bethge. Image style transfer using convolutional neural networks. 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 2414–2423, 2016. 1, 2
[18] Ian J. Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron C. Courville, and Yoshua Bengio. Generative adversarial networks. Communications of the ACM, 63:139 – 144, 2014. 2
[19] Yuchao Gu, Xintao Wang, Jay Zhangjie Wu, Yujun Shi, Yunpeng Chen, Zihan Fan, Wuyou Xiao, Rui Zhao, Shuning Chang, Wei Wu, Yixiao Ge, Ying Shan, and Mike Zheng Shou. Mix-of-show: Decentralized low-rank adaptation for multi-concept customization of diffusion models. ArXiv, abs/2305.18292, 2023. 3
[20] Ligong Han, Yinxiao Li, Han Zhang, Peyman Milanfar, Dimitris N. Metaxas, and Feng Yang. Svdiff: Compact parameter space for diffusion fine-tuning. 2023 IEEE/CVF International Conference on Computer Vision (ICCV), pages 7289–7300, 2023. 1, 3
[21] Amir Hertz, Ron Mokady, Jay M. Tenenbaum, Kfir Aberman, Yael Pritch, and Daniel Cohen-Or. Prompt-toprompt image editing with cross attention control. ArXiv, abs/2208.01626, 2022. 2
[22] Amir Hertz, Andrey Voynov, Shlomi Fruchter, and Daniel Cohen-Or. Style aligned image generation via shared attention. arXiv preprint arXiv:2312.02133, 2023. 3, 8, 9, 13
[23] Aaron Hertzmann, Charles E. Jacobs, Nuria Oliver, Brian Curless, and David H. Salesin. Image analogies. page 327–340, 2001. 1, 2
[24] Neil Houlsby, Andrei Giurgiu, Stanislaw Jastrzebski, Bruna Morrone, Quentin de Laroussilhe, Andrea Gesmundo, Mona Attariyan, and Sylvain Gelly. Parameter-efficient transfer learning for nlp. ArXiv, abs/1902.00751, 2019. 3
[25] J. Edward Hu, Yelong Shen, Phillip Wallis, Zeyuan AllenZhu, Yuanzhi Li, Shean Wang, and Weizhu Chen. Lora: Low-rank adaptation of large language models. ArXiv, abs/2106.09685, 2021. 1, 2, 3, 4, 5
[26] Xun Huang and Serge J. Belongie. Arbitrary style transfer in real-time with adaptive instance normalization. 2017 IEEE International Conference on Computer Vision (ICCV), pages 1510–1519, 2017. 3
[27] huggingface. Controlnet with stable diffusion xl. 13
[28] Gabriel Ilharco, Mitchell Wortsman, Ross Wightman, Cade Gordon, Nicholas Carlini, Rohan Taori, Achal Dave, Vaishaal Shankar, Hongseok Namkoong, John Miller, et al Openclip, 2021. 3
[29] Phillip Isola, Jun-Yan Zhu, Tinghui Zhou, and Alexei A. Efros. Image-to-image translation with conditional adversarial networks. 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 5967–5976, 2016. 2
[30] Yongcheng Jing, Yezhou Yang, Zunlei Feng, Jingwen Ye, and Mingli Song. Neural style transfer: A review. IEEE Transactions on Visualization and Computer Graphics, 26: 3365–3385, 2017. 2
[31] Justin Johnson, Alexandre Alahi, and Li Fei-Fei. Perceptual losses for real-time style transfer and super-resolution. ArXiv, abs/1603.08155, 2016. 2
[32] Oren Katzir, Dani Lischinski, and Daniel Cohen-Or. Crossdomain cascaded deep translation. In European Conference on Computer Vision, 2020. 2
[33] Nupur Kumari, Bin Zhang, Richard Zhang, Eli Shechtman, and Jun-Yan Zhu. Multi-concept customization of text-toimage diffusion. 2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pages 1931–1941, 2022. 3, 9
[34] Senmao Li, Joost van de Weijer, Taihang Hu, Fahad Shahbaz Khan, Qibin Hou, Yaxing Wang, and Jian Yang. Stylediffusion: Prompt-embedding inversion for text-based editing. ArXiv, abs/2303.15649, 2023. 2
[35] Songhua Liu, Tianwei Lin, Dongliang He, Fu Li, Meiling Wang, Xin Li, Zhengxing Sun, Qian Li, and Errui Ding. Adaattn: Revisit attention mechanism in arbitrary neural style transfer. 2021 IEEE/CVF International Conference on Computer Vision (ICCV), pages 6629–6638, 2021. 14
[36] mkshing. Ziplora-pytorch. https://github.com/mkshing/ziplora-pytorch. 9, 13
[37] Ron Mokady, Amir Hertz, Kfir Aberman, Yael Pritch, and Daniel Cohen-Or. Null-text inversion for editing real images using guided diffusion models. In IEEE/CVF Conference on Computer Vision and Pattern Recognition, CVPR 2023, Vancouver, BC, Canada, June 17-24, 2023, pages 6038–6047. IEEE, 2023. 2
[38] Taesung Park, Alexei A. Efros, Richard Zhang, and JunYan Zhu. Contrastive learning for unpaired image-to-image translation. In European Conference on Computer Vision, 2020. 2
[39] Gaurav Parmar, Krishna Kumar Singh, Richard Zhang, Yijun Li, Jingwan Lu, and Jun-Yan Zhu. Zero-shot image-toimage translation. ACM SIGGRAPH 2023 Conference Proceedings, 2023. 2
[40] Ryan Po, Guandao Yang, Kfir Aberman, and Gordon Wetzstein. Orthogonal adaptation for modular customization of diffusion models. ArXiv, abs/2312.02432, 2023. 3
[41] Dustin Podell, Zion English, Kyle Lacey, A. Blattmann, Tim Dockhorn, Jonas Muller, Joe Penna, and Robin Rombach. Sdxl: Improving latent diffusion models for high-resolution image synthesis. ArXiv, abs/2307.01952, 2023. 2, 3, 4, 7
[42] Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, Gretchen Krueger, and Ilya Sutskever. Learning transferable visual models from natural language supervision. In International Conference on Machine Learning, 2021. 4
[43] Fermat Research. Cog sdxl canny controlnet with lora support. https://replicate.com/batouresearch/sdxl-controlnetlora. 3
[44] Robin Rombach, A. Blattmann, Dominik Lorenz, Patrick Esser, and Bjorn Ommer. High-resolution image synthesis ¨ with latent diffusion models. 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pages 10674–10685, 2021. 3
[45] Nataniel Ruiz, Yuanzhen Li, Varun Jampani, Yael Pritch, Michael Rubinstein, and Kfir Aberman. Dreambooth: Fine tuning text-to-image diffusion models for subject-driven generation. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 22500– 22510, 2023. 1, 3, 9, 13, 17
[46] Simo Ryu. Low-rank adaptation for fast text-to-image diffusion fine-tuning. https://github.com/cloneofsimo/lora. 3, 4, 5, 8, 13
[47] Viraj Shah, Nataniel Ruiz, Forrester Cole, Erika Lu, Svetlana Lazebnik, Yuanzhen Li, and Varun Jampani. Ziplora: Any subject in any style by effectively merging loras. arXiv preprint arXiv:2311.13600, 2023. 2, 3, 4, 8, 13
[48] Kihyuk Sohn, Nataniel Ruiz, Kimin Lee, Daniel Castro Chin, Irina Blok, Huiwen Chang, Jarred Barber, Lu Jiang, Glenn Entis, Yuanzhen Li, Yuan Hao, Irfan Essa, Michael Rubinstein, and Dilip Krishnan. Styledrop: Text-to-image generation in any style, 2023. 3, 8, 9, 13
[49] Joshua Tenenbaum and William Freeman. Separating style and content. In Advances in Neural Information Processing Systems. MIT Press, 1996. 1
[50] Narek Tumanyan, Michal Geyer, Shai Bagon, and Tali Dekel. Plug-and-play diffusion features for text-driven image-to-image translation. 2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pages 1921–1930, 2022. 3, 6
[51] Ashish Vaswani, Noam M. Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, and Illia Polosukhin. Attention is all you need. In Neural Information Processing Systems, 2017. 4
[52] Yael Vinker, Andrey Voynov, Daniel Cohen-Or, and Ariel Shamir. Concept decomposition for visual exploration and inspiration. ACM Trans. Graph., 42(6), 2023. 3, 9
[53] Andrey Voynov, Qinghao Chu, Daniel Cohen-Or, and Kfir Aberman. p+: Extended textual conditioning in text-toimage generation. arXiv preprint arXiv:2303.09522, 2023. 3, 4
[54] Haofan Wang, Matteo Spinelli, Qixun Wang, Xu Bai, Zekui Qin, and Anthony Chen. Instantstyle: Free lunch towards style-preserving in text-to-image generation. ArXiv, abs/2404.02733, 2024. 3, 8, 14
[55] Pei Wang, Yijun Li, and Nuno Vasconcelos. Rethinking and improving the robustness of image style transfer. 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pages 124–133, 2021. 14
[56] Yu xin Zhang, Nisha Huang, Fan Tang, Haibin Huang, Chongyang Ma, Weiming Dong, and Changsheng Xu. Inversion-based style transfer with diffusion models. 2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pages 10146–10156, 2022. 3
[57] Serin Yang, Hyun joo Hwang, and Jong-Chul Ye. Zero-shot contrastive loss for text-guided diffusion image style transfer. 2023 IEEE/CVF International Conference on Computer Vision (ICCV), pages 22816–22825, 2023. 2
[58] Hu Ye, Jun Zhang, Siyi Liu, Xiao Han, and Wei Yang. Ipadapter: Text compatible image prompt adapter for text-toimage diffusion models. ArXiv, abs/2308.06721, 2023. 3
[59] Lvmin Zhang, Anyi Rao, and Maneesh Agrawala. Adding conditional control to text-to-image diffusion models. 2023 IEEE/CVF International Conference on Computer Vision (ICCV), pages 3813–3824, 2023. 3, 8
[60] Yuxin Zhang, Weiming Dong, Fan Tang, Nisha Huang, Haibin Huang, Chongyang Ma, Tong-Yee Lee, Oliver Deussen, and Changsheng Xu. Prospect: Prompt spectrum for attribute-aware personalization of diffusion models. ACM Transactions on Graphics (TOG), 42(6):1–14, 2023. 3
[61] Jun-Yan Zhu, Taesung Park, Phillip Isola, and Alexei A. Efros. Unpaired image-to-image translation using cycleconsistent adversarial networks. 2017 IEEE International Conference on Computer Vision (ICCV), pages 2242–2251, 2017. 2