【CVPR2020】【语义编辑】StyleRig:Rigging StyleGAN for 3D Control over Portrait Images

该博文介绍了CVPR2020一篇论文,研究将3D信息与StyleGAN结合以实现精细的人脸编辑。通过可微分的人脸重建网络和RigNet,网络可以从latentcode中抽取3D信息并进行编辑,同时保持身份信息。实验表明,该方法能有效控制3D姿态、表情和光照,但存在训练集限制和预训练依赖等问题。
摘要由CSDN通过智能技术生成

注:拉到最后有视频版哦~

地址:https://gvv.mpi-inf.mpg.de/projects/StyleRig/

这次给大家分享一篇 CVPR2020 的论文,是基于 StyleGAN 结合 3D 信息做人脸编辑的文章

我会从这五个方面开始我的介绍

背景

首先是文章的背景,背景就是 GAN 能够生成很多很真实的图片

动机

对于文章的动机,就是 GAN 很难控制 3D 的信息,比如旋转角;在 3D 建模中,有 3DMM 这个人脸模型,用这个模型能做 3D 的控制,比如姿态和光照,但是用它渲染出来的图片很假,不真实。GAN 和 3DMM 其实就是一个互补的关系

目标

然后是文章的目标,研究目标就是将 CG(computer graphics,计算机图形学)这些 3D 信息和 StyleGAN 结合起来

方法

对于方法,首先是总体的架构,这个部分直接看太复杂了,我分开来给大家讲

首先还是讲一下 3DMM 中的一些参数,图里比较细,直接看图吧,用这些参数能定义一个人脸的 3D 模型

文章的训练分成两个过程,先讲一下 step1 的过程,此部分想学一个可微分的人脸重建网络 F,用 MLP 实现的,宏观的意思就是把 StyleGAN 的 latent code 转成上一张图说的 3DMM 参数 p。然后来看一下右下角的图,紫色的 G 是 pretrain 好的 StyleGAN 生成器,紫色的 R 是 pretrain 的可微分渲染模型,映射的就是红框里的内容,这个可微分渲染能把 3DMM 参数渲染成一张图片。训练的 loss 主要是 render loss,分渲染时候掩码部分的 MSE 和关键点的 loss

然后讲一下 step2,叫 RigNet,这个部分的作用是把上一张图的 DFR 提取出的 p(也就是 3DMM 的参数)和我们需要操作的 latent code(w)进行信息融合。这个网络很简单,其实就是一个线性的过程,唯一需要注意的是 w 的每一个小维度都是要单独处理的。这个部分的训练放在后面说。

讲完了两个模块,我们综合起来先看一下他是如何推理的。比如我有两个 latent code,即 w 和 v,我现在想把 v 中的 3D 信息抽出来注入到 w 中,生成的 d 和 w 有相同的维度,和 w 相加后的结果就是具有 v 的 3D 信息的 w 对应的图片。

然后反过来讲 step2 的训练,第一个 loss 是重建 loss,也就是说我是从我自己身上(还是 w)抽 3D 信息,加入到自己身上(w),生成的图片和原图相比。换句话说,强迫这个 d 趋近于 0。

然后这个编辑 loss 有点难理解,我具体说一下,这个是一个 cycle 的 loss,意思是将网络输出经过 DFR 之后的 p ^ \hat{p} p^的旋转部分拿出来替换掉 v 经过 DFR 的 p v p_v pv的对应部分,然后用渲染 loss 来处理。这个宏观来看就是强制要求网络输出 p ^ \hat{p} p^ p v p_v pv的旋转部分接近,这也是网络应该做到的。

还有一个一致性的 loss,因为我们只希望网络抽取 3D 的信息,其他的都不希望有变动。所以我把网络输出 p ^ \hat{p} p^的需要保持的部分拿出来替换掉 w 经过 DFR 的 p w p_w pw的对应部分,这也用 render loss 来处理。宏观来看就是要求网络输出 p ^ \hat{p} p^ p w p_w pw的非旋转部分接近,这也是网络应该做到的。

总的 loss 就是把这三者加在一起

实验

然后是实验部分,在 stylegan 中的 style mixing 是拿不同层的互相替换达到的结果,对于 styleRig 的网络来说就只是一个推理的过程,也能达到 style mixing 的结果,极好的保持了 id 信息。这里注意一下,3D,表情,姿态网络都是分别训练的

这个图调研了,如果我们改变 3D 的一些信息,latent code 是哪一些维度发生变化

我们也可以交互式的变换,同时也发现训练集上的分布,Y 轴旋转、小表情变换、小光照变化的比较多。其实也是可以理解,就算是对于 3DMM 模型,如果让他生成一些比如 x 轴上都没见过的图片,也是比较困难的

如果我现在一直想要生成某个姿态的图片,那我就把它的姿态那几个维度固定住,然后进行训练,就发现效果还是非常不错的(感觉这个实验有点无聊?),论文中提到如果是固定住再训练,耗费的时间会多很多

然后是消融实验

因为之前说了,网络是把姿态、光照、标签分开训练的,如果放在一起训,可以看到效果就不是那么好了,感觉是解耦合上的一点问题

结论

然后是结论,结论就是这个方法把计算机图形学和 GAN 结合起来了,解决了编辑问题

不足

然后是不足,第一个是训练集的问题,第二个是 DFR 是 pretrain 的,如果训的不好,影响就会很大,第三是 3DMM 只重建了人脸,其他的场景没有考虑

[CVPR2020] StyleRig: Rigging StyleGAN for 3D Control over Portrait Images

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值