[论文阅读]Designing an Encoder for StyleGAN Image Manipulation

最新推荐文章于 2024-09-25 08:05:51 发布

不想待在银河系

最新推荐文章于 2024-09-25 08:05:51 发布

阅读量3.5k

点赞数

分类专栏： GAN 文章标签：深度学习人工智能 pytorch

原文链接：https://dl.acm.org/doi/abs/10.1145/3450626.3459838

版权

GAN 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

在这里插入图片描述
主要工作：
提出什么样的encoder（image->latent code）具有更好的编辑性和更小的失真

答案：图片逆映射接近W空间的encoder是好的

验证encoder的好坏用到了styleflow等其他论文中的方法

1 Abstact & Intro

要用利用预训练的stylegan进行图像编辑，需要将图像映射到stylegan的latent space。

stylegan的latent space中存在两种权衡：
（1）扭曲-编辑权衡 distortion-editability tradeoff
（2）扭曲-感知权衡 distortion-perception tradeoff

stylegan的W空间具有丰富的解纠缠性质，可用于操作stylegan进行各种图像处理。

然而，对任何图像用stylegan进行处理，必须首先将图像逆映射到W空间。高质量的反演（invert）方法对于编辑效果至关重要。

一个好的反演（图像->stylegan的W空间）具有的特性：
（1）inversion得到的latent code输入stylegan中能够恢复原图像
（2）能够最大程度地利用latent space的编辑能力

定义衡量重建性能的三个指标：
（1）editability
（2）distortion —— per-image input-output similarity
（3）perceptual quality —— how realistic the reconstructed image is

W潜在空间的表达性已被证明是有限的[1,31]，并不是每幅图像都能准确地映射到W中。

为了克服这一局限性，Abdal等人证明了任何图像都可以逆映射成W的扩展部分，记为W+。W+中的每一个style code由许多style vector组成。

本文的核心观点是，图像被逆映射后的latent code越接近W，它的editability和perceptual quality就越好。

其中，“接近”W空间的意思是：
（1）low variance between the different style vectors
（2）each style vector should lie within the distribution W

作者用adversarial training和progressive training scheme等技巧训练了一个encoder，使得它能将图像逆映射后尽可能地“接近”W空间。

作者的贡献：
（1）分析了stylegan的latent space，并对其结构提出了新颖的观点。
（2）提出 distortion, perception, and editability之间存在权衡
（3）设计了2种控制这些权衡的方法
（4）提出e4e，可以很好地进行image inversion

Github:
https://github.com/omertov/encoder4editing

2 Background and Related Work

2.1 Latent Space Manipulation

早期工作使用有监督的方法，通过0-1属性标签寻找latent direction，比如年轻的↔老或微笑↔无微笑。

其他人则提出了自监督的方法，寻找与特定图像转换相对应的latent direction，如变焦或旋转。

最后，还有一些方法以无监督的方式找到潜在的方向，但它需要手动注释来确定每个方向的语义意义。

除了上述沿着线性方向行走的工作，还有一些扩展工作。例如，Tewari等人使用预先训练好的3DMM从其他latent code来编辑面孔的表达式、姿态和照明；Abdal等人使用辅助预先训练的脸属性分类器推断修改的潜在代码。Shen对生成器的第一层的权重进行特征向量分解，以找到编辑方向；Collins通过从其他样本中借用latent code的一个子集来执行local semantic编辑。

最近的一些作品也考虑了其他潜在的空间。Sendik等人提出了一种改进的基于风格的架构，它可以学习多个输入常数，并更好地解除数据模式之间的纠缠；也有人考虑了style space，能够识别对空间区域或单个属性有明显影响的特定组件。通过修改这些组件，它们能够实现解纠缠的编辑。

2.2 Latent Space Embedding

要对真实图像进行这种操作，必须首先获得潜在代码，从中预先训练的GAN可以最准确地重建原始输入图像。这个任务通常被称为GAN Inversion。

一般来说，反演方法可以分为三种：
(i)直接优化latent code以最小化给定图像[1,2,8,21,23]的误差
(ii)训练encoder将给定图像映射到latent space[13,28,31]
(iii)使用结合两种[4,45]的混合方法。

基于优化的方法在实现低失真（low distortion）方面更优越。然而，它们需要更长的时间来倒置图像，而且可编辑性较差。

鉴于latent space的高维性，找到有意义的方向是极具挑战性的。因此，最近的方法提出了一种端到端方法，使用训练有素的生成器来执行潜在操作。具体来说，Nitzan等人训练一个编码器来获得一个表示一个图像的身份和另一个图像的姿态、表达式和照明的潜在向量；Menon等人通过取低分辨率图像，利用直接优化搜索图像的高分辨率图像的latent space来解决单图像的超分辨率；Richardson等人通过直接将输入图像编码到表示所需转换的latent code中来执行图像到图像的转换。

3 Terminology

StyleGAN的组成：
（1）一个把latent code z ∈ Z = N (µ, σ2) 映射到 style code w ∈ W （属于 $R^{512}$ ）的映射函数
（2）生成器，它接受样式代码、复制多次（根据所需的分辨率），并生成一个图像

注意，虽然已知分布Z是高斯分布，但W[41]的分布没有已知的显式模型。在下面，我们将把W的分布称为映射函数的range。

[1]的研究表明，并不是每个真实的域内图像都可以倒置到StyleGAN的潜在空间中。为了缓解这一限制，我们可以通过输入k个不同样式的代码而不是单个向量来增加StyleGAN生成器的表达性。我们用Wk来表示这个扩展的空间：
在这里插入图片描述

其中k是生成器的样式输入的数量。例如，能够以1024×1024的分辨率合成图像的生成器在对应于18个不同样式输入的扩展W18空间中操作。

通过输入不一定来自W的真实分布的style code，可以获得更强的表达能力——即利用超出StyleGAN的映射函数的range的style code来辅助生成：我们可以使用一个范围外的single style code并复制它，或者使用k个范围外的不同的 style code。前者被称为 ${W_*}$ ,后者被称为 $W_*^k$ 。这里不用W+记号，因为在很多文献中W+被同时指代 ${W_*}$ 和 $W_*^k$ 。

在这里插入图片描述
总结：带*就是在W+空间，k表示来源的数量。

在这里插入图片描述

4 The GAN Inversion tradeoffs

4.1 Preliminaries

GAN inversion的核心目的是further latent editing operations.

distortion:
在这里插入图片描述
PX是真实图像的分布，∆（x、G(w)）是图像x和G(w)之间的图像空间差值度量。

感知质量测量了重建图像的真实程度，与任何参考图像都没有关系。

以往很多方法只注重于distortion，但Blau和Michaeli[5]证明了感知质量不仅不同于失真，而且两者之间存在着明确的权衡。因此，必须评估重建图像的失真和感知质量，以提供一种重建方法的完整评估，或者在我们的情况下，是一种GAN反转方法。

对于可编辑性，我们希望给定反转的潜在代码，人们可以找到许多与图像空间中解开的语义编辑相对应的潜在空间方向。此外，重要的是要保持编辑图像的高感知质量。除上述内容外，在第 7 节中，我们提出了一种新的衡量标准，专门设计用于评估编码器对真实图像可编辑性的成功程度。

4.2. Distortion-Editability & Distortion-Perception Tradeoffs

在这里插入图片描述
$W_*^k$ 和 $W$ 在两个方面不同：

（1） $W_*^k$ 可以在不同的样式调制层中包含不同的样式代码。
（2）每个style code都不独立地绑定到W的真实分布，而是可以从 $R^{512}$ 中取任何值。

众所周知， $W_*^k$ 比W具有更小的distortion，但W更容易进行编辑。这提供了失真和可编辑性之间的固有权衡的第一个证据。

此外，由于StyleGAN最初是在W空间训练的，因此W比 $W_*^k$ 相比表现更好，具有更好的感知质量就不足为奇了。另一方面，可以观察到，由于 $W_*^k$ 的维数明显更高和StyleGAN的体系结构，故 $W_*^k$ 具有更大的表达能力。

distortion-editability and the distortion-perception tradeoffs不仅存在于W和 $W_*^k$ 之间，也存在于 $W_*^k$ 内部。具体的平衡由接近W的程度决定：当我们接近W时，distortion更加严重，而可编辑性和感知质量提高。

在这里插入图片描述

5 Designing an encoder

采用encoder-based方法（即前文说的三种反演方法中的方法2）。原因：

（1）快
（2）cnn是分段平滑的，编码器的输出位于一个紧密的空间中，更适合编辑。相反，基于优化的反演可以收敛到潜在空间中的任意点。

下文中，我们考虑一个构建一个通用编码器，它推断空间中的潜在编码 $W_*^k$ 。我们通过一些训练策略，估计编码器映射得到的潜在编码 $W_*^k$ 尽可能接近W。

5.1 Minimize Variation

encourage the inferred W∗k latent codes to lie closer to W∗, i.e.
minimize the variance between the different style codes
在这里插入图片描述
训练方法：渐进式训练，一开始都让delta=0，再逐渐放开

5.2 Minimize Deviation From W^k

encourage the W∗k latent codes obtained by the encoder to lie closer to Wk
也就是说，鼓励单个style code位于W的实际分布范围中

为此，我们采用了一个latent discriminator[27]，它以对抗的方式训练来区分W空间(由StyleGAN的映射函数生成)和编码器学习的潜在代码。

Observe that such a latent discriminator addresses the challenge of learning to infer latent codes that belong to a distribution which cannot be explicitly modeled.

6 e4e: Encoder for Editing

我们的编码器建立在Pixel2Style2Pixel(pSp)编码器[31]上，但在这里，我们设计了专门为编辑设计的编码器。因此，我们将新的编码器e4e命名为“编辑编码器”。

与原始的pSp编码器并行生成N个样式码不同的是，我们遵循第5.1节中描述的原则，生成一个单一的基本样式码，用w表示，和N−1个偏移向量（图6中的黄色所示）。

偏移量与基本样式代码 w 相加以产生最终的 N 个样式代码，然后将这些代码馈入固定的、预训练的 StyleGAN2 生成器以获得重建图像。

为了训练我们的编码器，我们使用了确保低失真的损失，就像在训练编码器时通常做的那样，以及明确鼓励生成的样式代码保持接近W的损失，从而增加了生成的图像的感知质量和可编辑性。

在这里插入图片描述

7 Evaluation

评估我们的方法尤其具有挑战性。我们的目标是评估失真和感知质量和可编辑性这两种质量之间的权衡。每一个都很难评估，因为它们本质上是感知的，而且很难客观地测量。感知质量通常是通过使用FID[16]、SWD[30]或IS[32]等算法测量真实分布和生成分布之间的差异来定量评估的。

然而，这些方法并不总是与人类的判断相一致，这是它们的真正目标。此外，它们也受到失真的影响，这使得它们不太适合评估权衡。举个例子，让我们考虑一个人脸重建算法，它完美地重建了一个给定的人脸，除了它为所有的男人增加了一个真实的胡子。这只是一个失真问题，因为这些图像对人眼来说都是真实的。然而，仅作为现实主义的代理来衡量的分布之间的差异将受到影响。可编辑性更加难以评估，因为被编辑图像的质量应该作为编辑变化大小的函数来评估。此外，定性测量往往容易受到偏见。

为了以严格和公平的方式评估结果，我们在下一节和补充材料中提供了大量的视觉例子，为读者的印象提供了一个大规模的图库。需要注意的是，我们在选择所呈现的图像时要特别注意避免主观偏见。我们通过根据相关测试集中给定的顺序选择图像来实现（避免怀疑挑选樱桃）。此外，我们还进行了一项用户研究，以评估人类对视觉结果的看法。最后，我们通过包括所有流行的定量指标来完成评估。然而，正如我们将在下面所展示的，这些指标往往不仅与人类的观点相矛盾，而且还相互矛盾。

需要强调的是，在下面的例子中，我们将展示由不同技术执行的各种编辑结果。然而，我们并不评估他们的性能。相反，我们只评估所有技术中存在的失真感知和失真可编辑性权衡。另一个重要的重点是，编辑方法的结果经常在StyleGAN生成的合成图像上演示，在真实图像上只有少数编辑例子。然而，在这里，由于论文的重点是真实图像的反演，所有的结果都必然是在真实图像上。

为了正确地评估我们提出的方法，我们需要评估失真、感知质量和可编辑性的性能。根据第4.1节中介绍的定义，我们现在详细阐述了所使用的评估协议。

Distortion
我们为读者的印象提供了许多定性的结果。为了量化这些结果，我们将L2和LPIPS[44]的公共指标应用于输入和重建的图像对。

Perceptual quality
除了显示的大画廊，我们提供了一个用户研究的结果来评估人类的主观意见。我们通过另外测量真实图像和重建图像分布之间的FID[16]和SWD[30]来定量评估结果。

Editability
我们将可编辑性定义为使用任意技术进行潜在空间编辑的能力，同时保持使用编辑的潜在代码获得的图像的高视觉质量。为此，我们使用几种现有的编辑技术来遵循我们的倒演方法：StyleFlow[3]、接口GAN[34]、GANSpace[14]和SeFa[35]。在执行反演后，我们应用这些技术以语义上的姿势、性别、年龄等方式编辑代码。然后，我们从编辑后的代码中生成图像，并评估生成的图像的感知质量。我们再次为读者的印象提供了大量的视觉样本，并进行了用户研究。为了进一步量化这些结果，我们还采用了FID和SWD度量来比较原始图像和编辑图像的分布。请注意，FID和SWD同时测量了重建和可编辑性的知觉质量。区别在于用于测量它们的分布

Latent Editing Consistency
在这里，我们提出了一种新的评估度量，我们称之为潜在编辑一致性(LEC)，它结合了用于潜在空间编辑的两个关键的GAN反演方法的组件。一个捕获反演与生成器的真实逆相匹配的程度，第二个捕获反演输出的编辑的表现如何。该措施的协议如图7所示。We visually study the
difference between the input and output images and quantitatively define the distance in the latent space by

在这里插入图片描述

8 Experiments

略

9 Discussion and Conclusions

StyleGAN的潜在空间及其扩展是强大的，因为它们在语义上是被解开的，因此允许各种有意义的编辑。然而，它们都是复杂的空间。它们的质量不公平地分布在整个空间，其中一些地区比其他地区表现良好。此外，W∗k空间非常巨大——比所有自然图像的空间都要大得多——因此，许多图像有不止一个单一的潜在表示。在我们的工作中，我们首先分析了这个复杂空间的结构，目的是表征表现良好的区域，以引导图像倒置到这些区域。

我们的主要贡献有两方面：(i)我们提出了鼓励将真实图像的编码映射到W∗k的行为良好的区域的方法，以及(ii)根据失真和可编辑性之间的权衡，我们设计了一个编码器并演示了其性能。我们还讨论了评估重建和可编辑性的困难，并提出了基于常用措施的评估方案。从某种意义上说，我们提出的方法通过促进对真实图像的更高的编辑质量来补充图像操作方法。

一般来说，我们的编码器鼓励映射接近W，这工作得很好，因为W周围的空间仍然是令人惊讶的高表现力。此外，这一原理可以适用于图像反演之外的问题。例如，它可以应用于映射表示多个图像的潜在向量，或者说两个的组合，如身份和姿态[27]的分离表示，或两个图像的混合，到可能存在于w附近的目标图像的适当的潜在代码。我们计划探索这个研究方向。

我们的反演方案是通用的，我们已经在五个具有挑战性和不同的领域上证明了它的性能。但是，请注意，某些域比其他域更难使用。人脸结构良好，简化了编码器的训练。例如，马的领域要复杂得多，因为它是非结构化的，而且它有很多模式。因此，为这样一个领域训练一个编码器更具挑战性。在未来，我们想考虑多模态生成器，如Sendik等人[33]，并将一个编码器发展为多模态潜在空间。

最后，这里我们考虑对给定潜在空间的反演。在未来，考虑对生成器进行微调，并训练编码器和解码器作为特定下游任务的共同目标，将是很有趣和具有挑战性的。

在这里插入图片描述