Pivotal Tuning for Latent-based Editing of Real Images-CSDN博客

近日，一篇关于StyleGAN的论文引起了讨论。该技术在保留源图像人物的同时，在细节编辑上实现了更逼真的效果。

StyleGAN越玩越出色！

近日，以色列特拉维夫大学的研究人员对StyleGAN添加了一个特别的训练过程，把StyleGAN玩出新境界。

先来试试效果的，先登场的正是LeCun大神：

谁还没年轻过？

我不是严肃的深度学习巨头：

接下来是吴恩达：

年轻的我长这样：

除了面部年轻化，优化后的StyleGAN还能对人脸进行各种细微的调节，比如面部旋转：

reddit网友表示：「难以置信！去看看代码！」

PTI：基于潜意识的真实图像编辑的关键性调整

论文名为「PTI: Pivotal Tuning for Latent-based editing of Real Images」（基于潜意识的真实图像编辑的关键性调整）。

那么这个关键性调整是什么呢？

近些年，利用预先训练好的StyleGAN的生成能力，人们提出了一大批先进的面部编辑。但要想成功编辑图像，首先必须将图像投射（或反转）到预先训练好的生成器的领域。

然而事实证明，StyleGAN 的潜在空间打破了失真和可编辑性之间的平衡。

这篇论文提出的方法就弥补这一差距。他们稍微改变了生成器，因此域外的图像被映射到域内的潜在代码中。

枢轴调整（ Pivotal Tuning）——一个简短的训练过程，是本文的关键想法。提供近乎完美的重建结果，同时保持原生 StyleGAN 潜在空间 W 的高编辑能力。

在PTI中，一个最初的倒置潜伏代码作为一个支点，围绕这个支点对发生器进行微调。

同时，一个正则化项使附近的特征保持不变，以局部遏制这种影响。

这种训练过程最终改变了主要代表身份的外观特征，而不影响编辑能力。为了补充这一点，作者进一步表明，枢轴调谐也可以调整发生器，以适应众多的面孔，同时对领域的其他部分引入可忽略不计的失真。

PTI 方法的说明。右侧：在关键调整程序之后。C保持了与A相同的高编辑能力，同时与B相比实现了更好的相似度。StyleGAN 的潜在空间以二维方式描绘，其中较暖的颜色表示 W 的密度较高，即具有较高可编辑性的区域。在左侧，作者说明了关键调整之前生成的样本。我们可以看到可编辑性 - 失真的权衡。必须在身份A和身份B之间做出选择。A位于更可编辑的区域，但与真实图像不同。B位于可编辑性较差的区域，这会导致伪像，但会引起较少的失真。

使用在 FFHQ 数据集上训练的 StyleGAN2 生成器，作者反转来自 CelebA-HQ 测试集的图像，并使用四种不同的指标测量它们的重建。

所有指标都表明该方法具有出色的重建能力。

目前，该存储库支持对以下项目进行定性评估：PTI、SG2（W 空间）、e4e、SG2Plus（W+ 空间）。以及使用 InterfaceGAN 和 GANSpace 编辑相同的反演方法。

图片顺序为：原图、W+反转、e4e反转、W反转、PTI反转

这也是最牛的地方，实验结果能把油画和手给生成出来。

不仅如此，论文还包括了来自 CelebA-HQ 数据集的图像比较。作者演示了姿势和微笑去除编辑。

SG2 W+ 上的编辑不会产生预期的效果，例如，第二行的嘴巴没有闭合。SG2和e4e实现了更好的编辑，但失真了。而PTI 则在保留清晰的同时实现了高质量的编辑。

源代码可以在：https://github.com/danielroich/PTI找到。

文中引用一下[38]的论点，越靠近W空间，编辑能力越强。

要点：真实图片的inversion空间与GAN的W空间混合，使得它们都在生成器的domain之内。

本文研究目标，对于真实图片的高清编辑，论点：对于一个编辑任务，对于真实图片的映射到隐层空间后已经out of domain，导致生成的图片会有伪影，因提出了训练生成器，扩大生成器的输入domain，使得编辑后的采样点也在生成器的输入域范围内。所以，本文在训练的时候是pivotal tuning，轻微调整生成器，使得那些从真实图片映射至隐空间可能out of domain的点也能生成和输入一样的图像。这样既能保持编辑能力又能保持重构能力。

训练分两大步，首先是GANinversion，将真实图片映射到wp，然后以这个wp点去训生成器来产生希望的图片，由于wp与真实图片的位置足够近，使得只需增强一些外形参数而不影响其他StyleGAN结构即可完成重构。（intuition的感觉就是先通过原始的GANinversion生成一张相似的脸，再通过finetun把这个相似的脸训成和真实图片一样的脸）

训练：

第一步是GANinversion的训练，与19类似，将图片映射到W空间