近日,一篇关于StyleGAN的论文引起了讨论。该技术在保留源图像人物的同时,在细节编辑上实现了更逼真的效果。
StyleGAN越玩越出色!
近日,以色列特拉维夫大学的研究人员对StyleGAN添加了一个特别的训练过程,把StyleGAN玩出新境界。
先来试试效果的,先登场的正是LeCun大神:
谁还没年轻过?
我不是严肃的深度学习巨头:
接下来是吴恩达:
年轻的我长这样:
除了面部年轻化,优化后的StyleGAN还能对人脸进行各种细微的调节,比如面部旋转:
reddit网友表示:「难以置信!去看看代码!」
PTI:基于潜意识的真实图像编辑的关键性调整
论文名为「PTI: Pivotal Tuning for Latent-based editing of Real Images」(基于潜意识的真实图像编辑的关键性调整)。
那么这个关键性调整是什么呢?
近些年, 利用预先训练好的StyleGAN的生成能力,人们提出了一大批先进的面部编辑。但要想成功编辑图像,首先必须将图像投射(或反转)到预先训练好的生成器的领域。
然而事实证明,StyleGAN 的潜在空间打破了失真和可编辑性之间的平衡。
这篇论文提出的方法就弥补这一差距。他们稍微改变了生成器,因此域外的图像被映射到域内的潜在代码中。
枢轴调整( Pivotal Tuning)——一个简短的训练过程,是本文的关键想法。提供近乎完美的重建结果,同时保持原生 StyleGAN 潜在空间 W 的高编辑能力。
在PTI中,一个最初的倒置潜伏代码作为一个支点,围绕这个支点对发生器进行微调。
同时,一个正则化项使附近的特征保持不变,以局部遏制这种影响。
这种训练过程最终改变了主要代表身份的外观特征,而不影响编辑能力。为了补充这一点,作者进一步表明,枢轴调谐也可以调整发生器,以适应众多的面孔,同时对领域的其他部分引入可忽略不计的失真。
PTI 方法的说明。右侧:在关键调整程序之后。C保持了与A相同的高编辑能力,同时与B相比实现了更好的相似度。StyleGAN 的潜在空间以二维方式描绘,其中较暖的颜色表示 W 的密度较高,即具有较高可编辑性的区域。在左侧,作者说明了关键调整之前生成的样本。我们可以看到可编辑性 - 失真的权衡。必须在身份A和身份B之间做出选择。A位于更可编辑的区域,但与真实图像不同。B位于可编辑性较差的区域,这会导致伪像,但会引起较少的失真。
使用在 FFHQ 数据集上训练的 StyleGAN2 生成器,作者反转来自 CelebA-HQ 测试集的图像,并使用四种不同的指标测量它们的重建。
所有指标都表明该方法具有出色的重建能力。
目前,该存储库支持对以下项目进行定性评估:PTI、SG2(W 空间)、e4e、SG2Plus(W+ 空间)。以及使用 InterfaceGAN 和 GANSpace 编辑相同的反演方法。
图片顺序为:原图、W+反转、e4e反转、W反转、PTI反转
这也是最牛的地方,实验结果能把油画和手给生成出来。
不仅如此,论文还包括了来自 CelebA-HQ 数据集的图像比较。作者演示了姿势和微笑去除编辑。
SG2 W+ 上的编辑不会产生预期的效果,例如,第二行的嘴巴没有闭合。SG2和e4e实现了更好的编辑,但失真了。而PTI 则在保留清晰的同时实现了高质量的编辑。
源代码可以在:https://github.com/danielroich/PTI找到。
文中引用一下[38]的论点,越靠近W空间,编辑能力越强。
要点:真实图片的inversion空间与GAN的W空间混合,使得它们都在生成器的domain之内。
本文研究目标,对于真实图片的高清编辑,论点:对于一个编辑任务,对于真实图片的映射到隐层空间后已经out of domain,导致生成的图片会有伪影,因提出了训练生成器,扩大生成器的输入domain,使得编辑后的采样点也在生成器的输入域范围内。所以,本文在训练的时候是pivotal tuning,轻微调整生成器,使得那些从真实图片映射至隐空间可能out of domain的点也能生成和输入一样的图像。这样既能保持编辑能力又能保持重构能力。
训练分两大步,首先是GANinversion,将真实图片映射到wp,然后以这个wp点去训生成器来产生希望的图片,由于wp与真实图片的位置足够近,使得只需增强一些外形参数而不影响其他StyleGAN结构即可完成重构。(intuition的感觉就是先通过原始的GANinversion生成一张相似的脸,再通过finetun把这个相似的脸训成和真实图片一样的脸)
训练:
第一步是GANinversion的训练,与19类似,将图片映射到W空间
第二步是中心调整,第一步GANinversion的W可能具有很好的编辑能力,但是生成的图片失真,也就是distortion-editability tradeoff,因此finetune生成器,训练误差如下:
只要训好了这个生成器,就可以像编辑假图一样编辑真图(用类似InterFaceGAN的方法)。感觉本质上和stylemapGAN有点相似,就是使得原本GAN的Z空间和真实图片的映射空间mix,这样生成器既能生成假图又能重构出真图,这应该是让GAN重构真实图片的一个关键点。
但是论文发现这种训练会使得远离wp的点重构能力退化,为了避免这种效应而引入局部正则化项,这样的目的是限制训练只隐空间的一些局部区域。
训练过程至此结束,实验结果还是比较吊的在于能把油画和手给生成出来。