Z∗: Zero-shot Style Transfer via Attention Rearrangement

m0_52412697

已于 2024-07-17 23:31:47 修改

阅读量911

点赞数 16

文章标签：深度学习人工智能

于 2024-07-17 22:37:36 首次发布

本文链接：https://blog.csdn.net/m0_52412697/article/details/140497415

版权

摘要

尽管图像风格迁移研究取得了显著的进展，但在艺术背景下构建风格本身就是一项主观且具有挑战性的任务。与现有的学习/调优方法相比，本研究表明，普通扩散模型可以直接提取风格信息，并将生成先验无缝地融入到内容图像中，而无需重新训练。具体来说，我们采用双重去噪路径来表示潜在空间中的内容/风格参考，然后使用风格潜在编码指导内容图像的去噪过程。我们进一步揭示了，潜在扩散模型中的交叉注意机制往往会混合内容和风格图像，导致风格化的输出偏离原始内容图像。为了克服这一局限性，我们引入了一种交叉注意重排策略。通过理论分析和实验证明了基于扩散的零样式迁移通过注意重排的有效性和优越性，即Z-STAR。

1. Introduction

图像风格迁移任务在研究界引起了广泛关注，已经有许多机器学习技术被应用于此，例如卷积神经网络(CNN)[11,15,18,20,32,38]、基于流的网络[2]、视觉transformer (ViT)[13,46]和扩散模型[9,51]。在完成训练过程后，根据内容和风格图像输出风格化图像，如图1所示。生成的图像保留了输入内容图像的内容布局，同时采用了与输入风格图像类似的风格。本质上，通过确保生成的图像和内容/风格图像表现出内容/风格相似性来训练网络。

虽然某些方法，如[2,13,18]，采用Gram矩阵[15]来衡量全局风格相似性，并实现了不错的风格迁移结果，但Gram矩阵中包含的二阶统计量在捕捉复杂风格模式的能力方面有限，并且未能将相应的局部特征从内容图像迁移到风格图像(例如，图1中的StyTr2[13]、ArtFlow[2]、AdaIN[18]中的头发和眼睛)。为了解决这个问题，CAST[50]提出了一种对比损失，利用正负样本之间的关系来鼓励结果符合风格的分布。然而，CAST也面临着生成具有生动、细粒度风格细节的风格化结果的障碍。实际上，一幅画的轮廓和形式应该服从于艺术家绘画技巧的适应性偏好，而不是严格由内容和风格图像决定。基于这一点，我们重新思考了训练在风格迁移中的作用，并揭示了用于描述图像分布的生成模型已经掌握了迁移的艺术。

随着扩散模型的出现，文本控制的图像编辑和翻译得到了前所未有的关注。当给定图像作为输入时，扩散模型可以生成一个包含风格相关提示的艺术图像。然而，文本提示往往过于粗糙，无法有效地表达所需的风格细节。虽然之前的方法，如InST[51]和VCT[9]，努力采用图像控制扩散模型进行图像风格迁移和转换，但它们需要为每种输入风格训练风格嵌入，导致在提取精确风格表示方面存在挑战，并导致与输入风格的偏差，同时无法保留内容(见图1中的InST和VCT结果)。与[9,51]相比，控制信息被编码为文本嵌入，本文提出普通扩散模型能够直接从所需的风格图像中提取风格信息，并将其融合到内容图像中，而不需要重新训练或调整。

本文利用潜在扩散[36]的先验知识，提出了一种通过注意力重排的零样本(即自由训练)风格迁移方法，即Z- star (Z∗)来解决上述问题。为了获得生成图像先验，采用双重扩散路径（dual diffusing paths）来反转风格和内容图像。从扩散模型中获得的特征自然地表示内容和风格信息，并可以通过注意力机制进行融合。然而，如果没有训练过程，很难在内容和图像影响之间取得平衡。也就是说，简单的交叉注意力操作不适合直接将内容和风格的潜在状态整合到去噪过程中。由于交叉注意力值不准确，内容结构可能会受到影响（详见第4.2节）。因此，本文提出了一种多交叉注意力重排策略，从图像中操纵内容和风格信息，并在扩散潜在空间中无缝融合它们。通过利用量身定制的注意力机制，扩散模型可以自然地解决内容和风格的约束，而无需额外的监督。实验结果表明，该方法生成的结果内容保持良好，风格与内容结构相适应。总而言之，我们的主要贡献如下：

一种利用生成先验知识，不进行再训练/调整即可进行图像风格化的零镜头图像风格转移方法。
一种重新排列的注意力机制，用于在扩散潜在空间中解缠和融合内容/风格信息。
各种实验表明，所提出方法可以生成出色的风格迁移结果，自然地融合和平衡两幅输入图像的内容和风格。

2. Related Work

图像风格迁移。自Gatys等人[15]发现感知特征可以有效地表示内容，而Gram矩阵可以在CNN中表达风格以来，人们提出了各种通过内容和风格损失训练的风格迁移框架。基于CNN的方法[1,11,12,18,23,27,34,38,42]通过探索内容和风格表示的融合获得了成功。一些工作[13,39,43,44,46,49]利用Transformer[47]的长程特征表示能力并增强风格化效果。然而，Gram矩阵测量了整个图像的二阶统计量，这可能不足以表示风格。最近的工作[7,48,50]使用对比损失来取代基于Gram矩阵的风格损失，这在处理精细细节风格模式方面是有效的。尽管现有方法不断取得进展，但精确的风格表示仍然具有挑战性，不准确的风格表达可能会导致不满意的风格化结果。鉴于这一挑战，本文旨在开发一种不依赖显式风格约束的零样本风格迁移方法。

图像生成的扩散。扩散模型在文本到图像生成[29,33,36,37]和图像编辑[3,5,6,10,16,22,28,30,40,45,52]方面显示了令人印象深刻的结果。然而，像Imagic[22]这样的方法需要为每条指令微调整个扩散模型，这可能是耗时和内存密集型的。为了解决这个问题，Prompt-to-Prompt[16]通过替换或重新加权文本提示和编辑图像之间的注意图，在扩散过程中引入了交叉注意图。此外，NTI[28]提出了基于提示对提示的空文本优化，以实现真实的图像编辑。为了减少对文本提示的依赖，StyleDiffusion[24]集成了一个映射网络来将输入图像转换为上下文嵌入，然后将其用作交叉注意力层中的键。然而，仅在文本和图像之间操作交叉注意力可能很难实现精确控制。为了解决这个问题，Plug-and-Play[40]和MasaCtrl[6]在潜扩散模型的U-Net中使用自注意力专注于空间特征。虽然这些方法可以通过输入像“铅笔画”这样的文本提示来完成文本引导的风格迁移，但简单的单词可能不足以描述详细的风格模式。为了解决这一限制，InST[51]和VCT[9]采用了一种基于反转的图像风格迁移/转换方案，可以将风格图像训练为风格嵌入，以指导生成的结果。本文证明，风格图像本身(即没有伪文本指导)就足以使潜扩散模型实现图像引导的风格迁移，而不需要额外的训练。

3. Preliminary

注意力机制[4]是神经网络架构中用于聚合信息的强大工具，后来被Vaswani等人采用。[41]作为机器翻译的基本构件：

基于注意力的视觉transformer[14, 26]已经在主流基准上展示了显著的经验结果，将注意力机制固化为现代深度神经网络中的一个重要组成部分。此外，通过合并附加信息，以及对键和值向量的利用，交叉注意力已被证明在潜在扩散模型中有效，可将条件应用于去噪过程。

扩散模型，如文献所述，属于一类利用高斯噪声来生成所需数据样本的生成模型。这是通过一个去除噪声的迭代过程来完成的，其中定义了一个前向过程来向初始数据样本 $x_{t}$ 添加噪声，根据预先确定的噪声添加计划 $\alpha_{t}$ ，在时间步长 t 产生一个噪声样本 $x_{t}$ ：

此外，还定义了相应的逆向过程：

反向过程旨在逐步去噪 $x_{t}\sim \mathcal N(0, \textbf{I})$ ，其中每一步都获得更干净的图像 $x_{t - 1}$ 。这是通过神经网络 $\epsilon_{\theta}(x_{t}, t)$ 预测添加的噪声 $z$ 来完成的。

利用一个U-Net和一个集成的注意机制作为 $\epsilon_{\theta}(x_{t}, t)$ 是一种常见的方法。这种配置允许自注意力捕捉图像特征之间的长程交互，而交叉注意力从给定的文本提示接收指导信号。注意力机制表述如下：

即使第 $l$ 层的 $\mathit{Key}$ 和 $\mathit{V}$ 值可能因图像空间或文本特征而异，它们仍然遵循标准格式。

4. Method

我们的研究基于观察到稳定扩散。之前的研究，如[6,40]，利用自注意力层从表示DDIM反演过程中空间属性的key和value特征中提取信息，用于图像编辑应用。然而，在风格迁移任务中，同时保存风格和内容是至关重要的。因此，我们需要解决两个重要问题来实际应用这一观点：

如何在不需要再训练的情况下获得稳定扩散模型的合适风格特征K和V ?需要强调的是，我们的目标是直接从图像中提取样式信息，而不是依赖于像文本嵌入这样的代理提示，这可能缺乏必要的细节。
在没有再训练的扩散模型下，仅仅利用风格注意[31]会导致内容保存不良。我们的目标是以类似于样式图像的轮廓、形式和整体视觉外观的方式重新创建内容图像。

为了应对这些挑战，我们采取了双重战略。首先，设计双路径网络，在逆向过程中生成合适的K和V特征。其次，我们结合了注意力重排技术，以更好地将内容特征与样式特征结合起来。

Fig 2. 风格迁移框架的整体Pipeline
风格化过程在潜在空间中运行。我们分别对内容图像和风格图像进行DDIM反演。在去噪过程中，通过交叉注意力重排将风格模式融入到内容结构中。通过迭代执行50个去噪步骤，我们能够实现最终的风格化输出。

4.1 双通道网络

在我们提出的方法中，我们解决了传统稳定扩散模型中的一个关键限制，即文本嵌入在整个反向过程中保持不变，从时间戳t∈[0,t]开始，尽管需要样式特征来适应去噪的风式化图像。这种适应是至关重要的，因为最初的去噪过程涉及图像的形状和颜色的重建，其次是细节的细化，如轮廓和笔触走向结束。

为了解决这一限制，我们引入了一种新的双路径方案，同时生成去噪风格图像和风格化的内容图像在同一时间戳 $T$ . 这是通过以下公式实现的:

这确保了两个网络中的特征在时间维度上自然对齐。具体来说，给定一个内容图像 $I_{c}$ 和一个样式图像 $I_{s}$ ，我们的目标是获得一个风格化的结果 $\hat{I}_{c}$ ，保留了 $I_{c}$ 的内容，同时结合了 $I_{s}$ 的风格模式。这是通过以下公式实现的:

其中， $\mathcal{G}_{\theta}(\cdot , \cdot, T)$ 表示在扩散模型中使用固定的预训练权值 $\theta$ 对 $T$ 步进行去噪。如Eq.(2)所示， $\epsilon _{I_{*}}$ 表示前向过程中通过逐步向 $I_{c}$ 或 $I_{s}$ 添加高斯噪声而产生的噪声 $x_{T}$ 。符号 $\{f_{s}, f_{c}\}$ 分别指来自风格和内容图像的扩散模型中的空间U-Net特征，它们被用于交叉注意。

如图2所示，我们利用ddim反演对风格图像和内容图像进行反演，得到 $x_{[0:T]}^{c}$ 和 $x_{[0:T]}^{s}$ 的扩散轨迹。随后，在每个时间戳 $t$ 上，引入一种新的交叉注意力安排来使用U-Net在扩散潜在空间中解缠和融合内容和风格信息(即 $f_{c}$ 和 $f_{s}$ ，分别表示为查询Q、键K和V值)。通过 $T$ 去噪步骤，将重新排列的注意力产生的风式化潜在特征 $f_{c}$ 转换为风格迁移结果 $\hat{I}_{c}$ 。

4.2 注意力重排

如Eq.(6)所示，我们的注意机制在 $f_{s}$ 和 $f_{c}$ 之间包含两种类型的注意计算：风格交叉关注用于合并内容和风格特征，内容自关注用于保留结构。由于我们使用的是标准的Self-Attention，所以在本节中我们主要讨论建议的风格交叉注意。

Naive Setting 使用Query直观地表示内容信息(如图像结构)，使用Key和V值特征表示样式信息(如颜色、纹理、对象形状)。然后，样式交叉注意使用内容特征从最适合输入补丁的样式图像中查询信息。形式上，风格交叉注意的输入是内容潜空间 $c$ 和风格潜空间 $s$ 的特征，其中

尽管很简单，但我们观察到Eq.(7)中的朴素融合设置倾向于优先考虑样式模式，而牺牲原始内容结构。图3显示了表示交叉注意注意 $(Q_{c}, K_{s},V_{s})$ 和自注意注意 $(Q_{c}, K_{c},V_{c})$ 结果余弦相似度的热图。可以观察到，相似度分数低的区域对应于经历内容信息丢失的像素。

Simple Addition 为了解决上述问题，本文提出了一种简单的解决方案，通过重新引入内容自注意力来增强fˆc中的内容信息。公式如下:

式中 $\lambda$ ∈[0,1]。然而，我们发现 $\lambda$ 的选择是很微妙的。例如，某些内容像素表现出与样式的弱相关性，如 $\vec{q}_{c}K_{s}^{T}$ （用图4(a)中的蓝色条表示，其 $\vec{q}_{c}K_{s}^{T}$ 小于0）的小数值（small values）表示。我们希望为这些像素分配较小的注意力权重，以最小化它们的负面影响。相反， $\vec{q}_{c}K_{s}^{T}$ 产生有意义的值(由图4(a)中的红色条形表示)的其他场景中，我们的目标是为这些像素分配更大的注意力权重。不幸的是，由于Softmax函数的固有性质，它忽略了绝对幅度，只放大 $\vec{q}_{c}K_{s}^{T}$ 值之间的差异，我们观察到如图4(b)所示的反直觉的结果，其中较小 $\vec{q}_{c}K_{s}^{T}$ 值在Softmax归一化后会导致较大的注意力权重。在这种情况下，我们需要引入一个额外的变量 $\lambda$ 来弥补这一不足。然而，值得注意的是，预定义的 $\lambda$ 值不能满足每个内容/风格图像对的要求。

Fig 3. “Naive Setting”的结果表现出强调风格模式而忽略原始内容结构的偏见。扭曲的区域对应自注意力和交叉注意力结果之间的低相似性部分，表明Vs未能充分重建目标区域，导致内容丢失。“Simple Addition”保留了过多的内容特征，而重新安排的注意力实现了更有利的权衡。

Fig 4. 在(a)和(b)中，Softmax值前后两个内容特征点（用蓝色和红色条表示）的qcKs分布的可视化。在(c)中，我们显示了由Eq.（11）归一化的qcKs的分布。可以观察到，Softmax操作倾向于过度放大较小的qcKs值（例如，与(b)中的红色条相比，蓝条进一步向右移动，即使原始的qcKs值大多小于0）。相比之下，(c)归一化前后的负相关值被限制在较小的幅度。

Cross-attention Rearrangement

虽然在Atten(·，·，·)之外的手工 $\lambda$ 不能适应输入图像，但我们发现可以在Softmax(·)中使用 $\lambda$ 来实现。将Eq.(8)用矩阵形式进行等价的重新表述，得到:

其中 $\sigma (\cdot )$ 表示Softmax函数， $A \in \mathbb{R}^{N \times 2N}$ 中的每一行表示为 $\vec{a} \in \mathbb{R}^{2N}$ 即 $\vec{a}\cdot \vec{1}^{T} = 1$ . 这种归一化启发我们以对行应用Softmax的形式重构矩阵A，即:

与之前在等式(9)中提出的注意力公式相比，新提出的重排列注意力矩阵 $A' \in \mathbb{R}^{N \times 2N}$ 在应用Softmax(·)函数进行输出归一化时，同时考虑了内容内特征差异以及内容间和风格特征差异。重新排列的注意力矩阵有效地增强了每个像素 $\vec{q}_{c}K_{s}^{T}$ 的显著值，而 $\vec{q}_{c}K_{s}^{T}$ 对应的内容像素与所有风格像素无关时，自动抑制了 $\vec{q}_{c}K_{s}^{T}$ 的小值（small values）。

Superiority of Cross-attention Rearrangement

交叉注意力重排可以被认为是一种更通用的表述。它的属性可以证明如下:

(i) 在风格和内容图像之间的相关性较弱的情况下，即当 $Q_{c}K_{s}^{T}$ 中的每个元素 $\vec{q}_{c}\vec{k_{s}}^{T}$ 接近 $- \infty$ 时，修改后的注意力 $\hat{f'_{c}} = A' * V'^{T}$ 降低为内容图像的标准自注意，记为Attention(Qc，Kc，Vc)。

(ii) 当风格和内容图像之间的相关性很强，如果 $\vec{q}_{c}\vec{k_{s}}^{T}$ 的最大值近似等于 $\vec{q}_{c}\vec{k_{c}}^{T}$ 的最大值，而Softmax操作生成一个近似的 one-hot 概率分布，那么 $\hat{f'_{c}} = A' * V'^{T}$ 相当于等式(8)。

(iii) 最后，Eq.(8)可以用 $A'$ 重写如下（证明在Appendix’s Section 3.）:

其中

在等式(14)中，将自注意力简单地添加到交叉注意力上引入了一个额外的术语 C。该变量用于放大 $Q_{c}K_{s}^{T}$ 中的所有元素，包括表示风格和内容特征之间弱相关性的小值，这些值被认为是无关的，应该被忽略。因此，C的合并可能会在Softmax函数中引入更多的噪声，从而导致次优的结果。

Conditional Control

Eq.(11)的简单性允许将注意力重排技术轻松扩展到更复杂的下游应用。为了说明这一点，我们在 $\frac{Q_{c}K_{c}^{T}}{\sqrt{d}}$ 上引入了一个附加的映射函数 $\phi (\cdot )$ ，它为图像风格迁移提供了对特定区域 $\Omega$ 的增强控制。修正后的方程为:

其中， $\phi (x_{i}, j)$ 被定义为：

需要注意的是，直接将这些值设置为−∞可能会导致不连续的风格转换，从而导致人为的尖锐边界。为了实现更自然的梯度效果，我们利用了 $\phi (x_{i}, j)$ 的线性梯度，从−∞过渡到 $x_{j}, j$ 。我们直观地展示了图5中的水平样式梯度，其中 $\Omega = \left \{ \forall i, j | j > \frac{width}{2} \right \}$ .

此外，使用Eq.(11)可以很容易地实现从一对一内容风格图像对到一对多设置的风格迁移的扩展。我们的目标是将N个风格图像的风格转移到单个内容图像的情况下，将方程修改为:

由于有限的内存占用，我们认为这方面是未来研究的一个潜在领域，并将其留给进一步的研究。

Fig 5. 由我们的方法创建的风格的水平梯度效果。从左到右，图像风格逐渐增强。

6. Conclusion

本文提出一种新的零样本风格迁移方法，在预训练扩散模型中利用丰富的先验知识。通过加入键值特征注意力层，修改扩散模型中的自注意力机制，使查询特征能够从键值特征中检索风格相关信息。为增强风格化输出中内容结构的保持，提出一种交叉注意力重排技术，它包含了额外的内容信息，并在内容保存和样式呈现之间实现了更有利的平衡。
广泛的实验评估证明了我们提出的方法在风格化结果方面的优越性，优于现有的最先进的方法。