Encoding in Style: a StyleGAN Encoder for Image-to-Image Translation风格编码:用于图像到图像转换的StyleGAN编码器
0.摘要
我们提出了一个通用的图像到图像的转换框架pixel2style2pixel (pSp)。我们的pSp框架是基于一种新的编码器网络,它直接生成一系列的风格向量,这些向量被送入一个预先训练的StyleGAN生成器,形成扩展的W+潜在空间。我们首先展示了我们的编码器可以直接嵌入真实的图像到W+,没有额外的优化。接下来,我们提出利用我们的编码器直接解决图像到图像的翻译任务,将其定义为从某个输入域到潜在域的编码问题。通过偏离以前StyleGAN编码器使用的标准“先反转,后编辑”方法,我们的方法可以处理各种任务,即使输入图像没有在StyleGAN域中表示。我们表明,通过StyleGAN解决翻译任务显著简化了训练过程,因为不需要对手,对解决没有像素到像素对应的任务有更好的支持,并通过样式的重采样内在地支持多模态合成。最后,我们展示了我们的框架在各种面部图像到图像翻译任务的潜力,甚至当与最先进的解决方案,专门为一个任务设计,进一步表明它可以扩展超越人类的面部领域。
1.概述
近年来,生成性对抗网络(GAN)显著提高了图像合成,尤其是人脸图像的合成。最先进的图像生成方法已经实现了较高的视觉质量和逼真度,现在可以生成具有惊人真实感的图像。最值得注意的是,StyleGAN[20,21]提出了一种新颖的基于样式的生成器架构,并在高分辨率图像上实现了最先进的视觉质量。此外,已经证明它有一个分离的潜在空间W[39,7,35],提供控制和编辑功能。
最近,许多方法已经显示出控制StyleGAN的潜在空间和在W[17, 35, 36, 13]中执行有意义的操作的能力。这些方法遵循“先反转,后编辑”的方法,首先将图像反转到StyleGAN的潜在空间中,然后以一种语义上有意义的方式编辑潜在代码,以获得一个新代码,然后StyleGAN使用该代码生成输出图像。然而,已有研究表明,将实景图像反演为512维向量w∈w并不能得到准确的重建。受此启发,将真实图像编码到一个扩展的潜在空间W+中已成为一种常见的做法[1,2,4,42,3],该空间由18个不同的512维W向量拼接而成,每个对应StyleGAN的输入层。这些工作通常诉诸于使用W+的逐幅图像优化,需要几分钟的单个图像。为了加速这一优化过程,一些方法[4,42]训练编码器在W+中推断出一个近似向量,作为需要进行额外优化的良好初始点。然而,快速准确地将真实图像反演为W+仍然是一个挑战
在本文中,我们首先介绍了一种新的编码器结构,它可以将任意图像直接编码到W+中。编码器基于特征金字塔网络[24],其中风格向量从不同的金字塔尺度中提取,并直接插入到固定的、预先训练的StyleGAN生成器,以对应其空间尺度。我们展示了我们的编码器可以直接重建真实的输入图像,允许一个人执行潜在的空间操作,而不需要耗时的优化。虽然这些操作允许对真实图像进行广泛的编辑,但它们本质上是有限的。这是因为输入图像必须是可逆的,即必须存在重建图像的潜在代码。对于一些任务,例如有条件的图像生成,这个需求是一个严重的限制,在这些任务中,输入图像不在同一个StyleGAN域中。为了克服这一限制,我们建议将编码器与预训练的StyleGAN生成器一起使用,作为一个完整的图像到图像的转换框架。在这个公式中,输入图像直接编码到所需的输出潜在区,然后将这些潜在区输入StyleGAN以生成所需的输出图像。这允许使用StyleGAN进行图像到图像的转换,即使输入和输出图像来自不同的域。
虽然以前解决图像到图像转换任务的许多方法都涉及专门解决单个问题的专用架构,但我们遵循pix2pix[16]的精神,定义了一个能够解决广泛任务的通用框架,所有这些都使用相同的架构。除了简化训练过程(因为不需要训练对手鉴别器)之外,使用预先训练过的StyleGAN生成器比以前的工作提供了几个有趣的优点。例如,许多图像到图像架构显式地向生成器提供来自编码器的残差特征映射[16,38],从而产生强局部性偏差[33]。相反,我们的生成器只受样式控制,没有直接的空间输入。中间样式表示的另一个显著优势是对多模态合成的固有支持,用于模糊任务,如从草图、分割地图或低分辨率图像生成图像。在这样的任务中,生成的样式可以重新采样,以创建输出图像的变化,而不改变架构或训练过程。从某种意义上说,我们的方法执行了pixel2style2pixel转换,因为每个图像都首先被编码为样式向量,然后再编码为一张图像,因此被称为pSp。
本文的主要贡献是:
- 一种新的StyleGAN编码器,能够直接将真实图像编码到W+潜在域;以及
- 用于利用预训练的StyleGAN生成器解决图像到图像转换任务的新方法。
2.相关工作
2.1.GAN反演
随着GANs的迅速发展,许多作品试图理解和控制它们的潜在空间。一项受到广泛关注的具体任务是GAN反演,即寻找预训练GAN最准确地重建给定已知图像的潜在向量。受其最先进的图像质量和潜在空间语义丰富性的启发,许多近期作品都使用StyleGAN[20,21]来完成这项任务。通常,反演方法要么直接优化潜在向量,以最小化给定图像的误差[25,8,1,2],训练编码器将给定图像映射到潜在空间[31,8,32,12,29],要么使用混合方法将两者结合起来[4,42]。通常,执行优化的方法在重建质量上优于学习的编码器映射,但需要更长的时间。与上述方法不同,我们的编码器可以准确有效地将给定的人脸图像嵌入扩展的潜在空间W+,而无需进一步优化。
2.2.潜在的空间操作
近年来,许多论文提出了各种学习潜在码语义编辑的方法。一种流行的方法是找到对应于给定二进制↔old属性变化的线性方向,如young↔old,或no-smile↔smile[35, 11, 10, 3]。Tewari等人[36]利用预先训练的3DMM在潜在空间学习语义人脸编辑。Jahanian等人[17]以自我监督的方式找到对应于特定变换的潜在空间路径,如缩放或旋转。Härkönen等[13]通过使用中间激活空间的主成分轴以无监督的方式找到有用的路径。Collins等人[7]通过操纵潜在代码的相应组件来执行局部语义编辑。这些方法通常遵