Encoding in Style: a StyleGAN Encoder for Image-to-Image Translation
代码
https://github.com/eladrich/pixel2style2pixel
相关工作
一、W空间和W+空间:
1、(styleGAN和StyleGAN2)W空间:将一个真实图像编码到一个512维的向量w∈W空间,很难准确重构。
以往的方法往往是遵循“invert first, edit later”(先反转,再编辑)的原则:
首先将图像转换为StyleGAN的潜在空间,然后以语义上有意义的方式编辑潜在代码,以获得新的代码,然后StyleGAN使用该代码生成输出图像。
2、(styleGAN encoder;styleGAN2 encoder)W+ 空间:一个扩展的潜在空间;利用额外的encoder生成18个不同的512维w向量的拼接(concatenation);然后输入到预训练的styleGAN generator中,生成图像。此类方法往往需要在W+空间对于每一个图像都进行优化;通过encoder在W+空间推断一个近似向量作为好的初始点,然后进行后续优化。
二、GAN Inversion
GAN 反演 首次被提出:Jun-Yan Zhu, Philipp Krahenb ¨ uhl, Eli Shechtman, and ¨Alexei A Efros. Generative visual manipulation on the natural image manifold. In European conference on computer vision, pages 597–613. Springer, 2016
三种常见的反演方法:
- 直接优化潜在向量以最小化给定图像的误差,
- 训练编码器将给定图像映射到潜在空间
- 两者结合的混合方法
三、Latent Space Manipulation 潜在空间编辑
一般的方法往往遵循,先反转再编辑的步骤,本文提出的方法将输入图像编码到相应的(期望的)输出潜在(output latent)中,允许处理不在StyleGAN域中的输入。
四、Image-to-Image:图像到图像转换(略)
论文贡献
1、提出一种可以生成一系列style code的编码器,该系列style code构成了W+空间,可以输入到预训练的styleGAN 生成器,进行图像编辑。
提出的编码器可以直接将真实图像嵌入到W+空间,而不需要任何的优化。该encoder,基于一个Feature Pyramid Network(特征金字塔网络),从不同的金字塔尺度提取风格向量;然后直接输入到预训练好的styleGAN生成器的对应尺度层。
2、存在一个局限:输入的真实图像必须存在着一个可以编辑的潜在编码。为了解决这一问题,提出了一种将提出编码器和预训练styleGAN generator 相结合的image-to-image translation(图像转换)的通用框架。
使用从编码器网络的最后一层获得的512维向量,直接将给定的输入图像编码为W+,从而获得18个风格向量(意思是获得18个相同的风格向量嘛?)。但是此类方法,获得的图像在更精细的方面存在不足。StyleGAN中也表明,不同的style input ,对应于不同的细节级别,大致可以分为粗粒度、中粒度和细粒度三个级别。
网络结构
紫色框--实际上通过随机抽样向量w∈R512,并通过复制w生成在w +中的,相应的潜在代码。style-mixing 如下图所示。
损失函数
像素损失:
感知损失(感知相似度):
正则化损失:鼓励生成的style code 与styleGAN的平均style code的一致性
identity 损失:保证身份信息的一致性。 R表示预训练的ArcFace网络
总的损失函数:
数据集
AFHQ Cat and AFHQ Dog datasets
CelebA-HQ dataset
FFHQ dataset
评价指标
重构图像质量: Similarity # LPIPS # MSE # Runtime
Human Perceptual Study
实验结果
StyleGAN Inversion (styleGAN 反演)
目录