Pivotal Tuning for Latent-based Editing of Real Images

近日,一篇关于StyleGAN的论文引起了讨论。该技术在保留源图像人物的同时,在细节编辑上实现了更逼真的效果。

StyleGAN越玩越出色!

近日,以色列特拉维夫大学的研究人员对StyleGAN添加了一个特别的训练过程,把StyleGAN玩出新境界。

先来试试效果的,先登场的正是LeCun大神:

谁还没年轻过?

我不是严肃的深度学习巨头:

接下来是吴恩达:

年轻的我长这样:

除了面部年轻化,优化后的StyleGAN还能对人脸进行各种细微的调节,比如面部旋转:

reddit网友表示:「难以置信!去看看代码!」

PTI:基于潜意识的真实图像编辑的关键性调整

论文名为「PTI: Pivotal Tuning for Latent-based editing of Real Images」(基于潜意识的真实图像编辑的关键性调整)。

那么这个关键性调整是什么呢?

近些年, 利用预先训练好的StyleGAN的生成能力,人们提出了一大批先进的面部编辑。但要想成功编辑图像,首先必须将图像投射(或反转)到预先训练好的生成器的领域。

然而事实证明,StyleGAN 的潜在空间打破了失真和可编辑性之间的平衡。

这篇论文提出的方法就弥补这一差距。他们稍微改变了生成器,因此域外的图像被映射到域内的潜在代码中。

枢轴调整( Pivotal Tuning)——一个简短的训练过程,是本文的关键想法。提供近乎完美的重建结果,同时保持原生 StyleGAN 潜在空间 W 的高编辑能力。

在PTI中,一个最初的倒置潜伏代码作为一个支点,围绕这个支点对发生器进行微调。

同时,一个正则化项使附近的特征保持不变,以局部遏制这种影响。

这种训练过程最终改变了主要代表身份的外观特征,而不影响编辑能力。为了补充这一点,作者进一步表明,枢轴调谐也可以调整发生器,以适应众多的面孔,同时对领域的其他部分引入可忽略不计的失真。

PTI 方法的说明。右侧:在关键调整程序之后。C保持了与A相同的高编辑能力,同时与B相比实现了更好的相似度。StyleGAN 的潜在空间以二维方式描绘,其中较暖的颜色表示 W 的密度较高,即具有较高可编辑性的区域。在左侧,作者说明了关键调整之前生成的样本。我们可以看到可编辑性 - 失真的权衡。必须在身份A和身份B之间做出选择。A位于更可编辑的区域,但与真实图像不同。B位于可编辑性较差的区域,这会导致伪像,但会引起较少的失真。

使用在 FFHQ 数据集上训练的 StyleGAN2 生成器,作者反转来自 CelebA-HQ 测试集的图像,并使用四种不同的指标测量它们的重建。

所有指标都表明该方法具有出色的重建能力。

目前,该存储库支持对以下项目进行定性评估:PTI、SG2(W 空间)、e4e、SG2Plus(W+ 空间)。以及使用 InterfaceGAN 和 GANSpace 编辑相同的反演方法。

图片顺序为:原图、W+反转、e4e反转、W反转、PTI反转

这也是最牛的地方,实验结果能把油画和手给生成出来。

不仅如此,论文还包括了来自 CelebA-HQ 数据集的图像比较。作者演示了姿势和微笑去除编辑。

SG2 W+ 上的编辑不会产生预期的效果,例如,第二行的嘴巴没有闭合。SG2和e4e实现了更好的编辑,但失真了。而PTI 则在保留清晰的同时实现了高质量的编辑。

源代码可以在:https://github.com/danielroich/PTI找到。

文中引用一下[38]的论点,越靠近W空间,编辑能力越强。

要点:真实图片的inversion空间与GAN的W空间混合,使得它们都在生成器的domain之内。

本文研究目标,对于真实图片的高清编辑,论点:对于一个编辑任务,对于真实图片的映射到隐层空间后已经out of domain,导致生成的图片会有伪影,因提出了训练生成器,扩大生成器的输入domain,使得编辑后的采样点也在生成器的输入域范围内。所以,本文在训练的时候是pivotal tuning,轻微调整生成器,使得那些从真实图片映射至隐空间可能out of domain的点也能生成和输入一样的图像。这样既能保持编辑能力又能保持重构能力。

训练分两大步,首先是GANinversion,将真实图片映射到wp,然后以这个wp点去训生成器来产生希望的图片,由于wp与真实图片的位置足够近,使得只需增强一些外形参数而不影响其他StyleGAN结构即可完成重构。(intuition的感觉就是先通过原始的GANinversion生成一张相似的脸,再通过finetun把这个相似的脸训成和真实图片一样的脸)

训练:

第一步是GANinversion的训练,与19类似,将图片映射到W空间

第二步是中心调整,第一步GANinversion的W可能具有很好的编辑能力,但是生成的图片失真,也就是distortion-editability tradeoff,因此finetune生成器,训练误差如下:

只要训好了这个生成器,就可以像编辑假图一样编辑真图(用类似InterFaceGAN的方法)。感觉本质上和stylemapGAN有点相似,就是使得原本GAN的Z空间和真实图片的映射空间mix,这样生成器既能生成假图又能重构出真图,这应该是让GAN重构真实图片的一个关键点。

但是论文发现这种训练会使得远离wp的点重构能力退化,为了避免这种效应而引入局部正则化项,这样的目的是限制训练只隐空间的一些局部区域。

训练过程至此结束,实验结果还是比较吊的在于能把油画和手给生成出来。

Pivotal Tuning for Latent-based Editing of Real Images - 知乎

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值