【CVPR2020】【语义编辑】StyleRig:Rigging StyleGAN for 3D Control over Portrait Images

注:拉到最后有视频版哦~

地址:https://gvv.mpi-inf.mpg.de/projects/StyleRig/

这次给大家分享一篇 CVPR2020 的论文,是基于 StyleGAN 结合 3D 信息做人脸编辑的文章

我会从这五个方面开始我的介绍

背景

首先是文章的背景,背景就是 GAN 能够生成很多很真实的图片

动机

对于文章的动机,就是 GAN 很难控制 3D 的信息,比如旋转角;在 3D 建模中,有 3DMM 这个人脸模型,用这个模型能做 3D 的控制,比如姿态和光照,但是用它渲染出来的图片很假,不真实。GAN 和 3DMM 其实就是一个互补的关系

目标

然后是文章的目标,研究目标就是将 CG(computer graphics,计算机图形学)这些 3D 信息和 StyleGAN 结合起来

方法

对于方法,首先是总体的架构,这个部分直接看太复杂了,我分开来给大家讲

首先还是讲一下 3DMM 中的一些参数,图里比较细,直接看图吧,用这些参数能定义一个人脸的 3D 模型

文章的训练分成两个过程,先讲一下 step1 的过程,此部分想学一个可微分的人脸重建网络 F,用 MLP 实现的,宏观的意思就是把 StyleGAN 的 latent code 转成上一张图说的 3DMM 参数 p。然后来看一下右下角的图,紫色的 G 是 pretrain 好的 StyleGAN 生成器,紫色的 R 是 pretrain 的可微分渲染模型,映射的就是红框里的内容,这个可微分渲染能把 3DMM 参数渲染成一张图片。训练的 loss 主要是 render loss,分渲染时候掩码部分的 MSE 和关键点的 loss

然后讲一下 step2,叫 RigNet,这个部分的作用是把上一张图的 DFR 提取出的 p(也就是 3DMM 的参数)和我们需要操作的 latent code(w)进行信息融合。这个网络很简单,其实就是一个线性的过程,唯一需要注意的是 w 的每一个小维度都是要单独处理的。这个部分的训练放在后面说。

讲完了两个模块,我们综合起来先看一下他是如何推理的。比如我有两个 latent code,即 w 和 v,我现在想把 v 中的 3D 信息抽出来注入到 w 中,生成的 d 和 w 有相同的维度,和 w 相加后的结果就是具有 v 的 3D 信息的 w 对应的图片。

然后反过来讲 step2 的训练,第一个 loss 是重建 loss,也就是说我是从我自己身上(还是 w)抽 3D 信息,加入到自己身上(w),生成的图片和原图相比。换句话说,强迫这个 d 趋近于 0。

然后这个编辑 loss 有点难理解,我具体说一下,这个是一个 cycle 的 loss,意思是将网络输出经过 DFR 之后的 p ^ \hat{p} p^的旋转部分拿出来替换掉 v 经过 DFR 的 p v p_v pv的对应部分,然后用渲染 loss 来处理。这个宏观来看就是强制要求网络输出 p ^ \hat{p} p^ p v p_v pv的旋转部分接近,这也是网络应该做到的。

还有一个一致性的 loss,因为我们只希望网络抽取 3D 的信息,其他的都不希望有变动。所以我把网络输出 p ^ \hat{p} p^的需要保持的部分拿出来替换掉 w 经过 DFR 的 p w p_w pw的对应部分,这也用 render loss 来处理。宏观来看就是要求网络输出 p ^ \hat{p} p^ p w p_w pw的非旋转部分接近,这也是网络应该做到的。

总的 loss 就是把这三者加在一起

实验

然后是实验部分,在 stylegan 中的 style mixing 是拿不同层的互相替换达到的结果,对于 styleRig 的网络来说就只是一个推理的过程,也能达到 style mixing 的结果,极好的保持了 id 信息。这里注意一下,3D,表情,姿态网络都是分别训练的

这个图调研了,如果我们改变 3D 的一些信息,latent code 是哪一些维度发生变化

我们也可以交互式的变换,同时也发现训练集上的分布,Y 轴旋转、小表情变换、小光照变化的比较多。其实也是可以理解,就算是对于 3DMM 模型,如果让他生成一些比如 x 轴上都没见过的图片,也是比较困难的

如果我现在一直想要生成某个姿态的图片,那我就把它的姿态那几个维度固定住,然后进行训练,就发现效果还是非常不错的(感觉这个实验有点无聊?),论文中提到如果是固定住再训练,耗费的时间会多很多

然后是消融实验

因为之前说了,网络是把姿态、光照、标签分开训练的,如果放在一起训,可以看到效果就不是那么好了,感觉是解耦合上的一点问题

结论

然后是结论,结论就是这个方法把计算机图形学和 GAN 结合起来了,解决了编辑问题

不足

然后是不足,第一个是训练集的问题,第二个是 DFR 是 pretrain 的,如果训的不好,影响就会很大,第三是 3DMM 只重建了人脸,其他的场景没有考虑

[CVPR2020] StyleRig: Rigging StyleGAN for 3D Control over Portrait Images

  • 3
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
CVPR 2019中发表了一篇题为“迁移学习:无监督领域自适应的对比适应网络(Contrastive Adaptation Network for Unsupervised Domain Adaptation)”的论文。这篇论文主要介绍了一种用于无监督领域自适应的对比适应网络。 迁移学习是指将从一个源领域学到的知识应用到一个目标领域的任务中。在无监督领域自适应中,源领域和目标领域的标签信息是不可用的,因此算法需要通过从源领域到目标领域的无监督样本对齐来实现知识迁移。 该论文提出的对比适应网络(Contrastive Adaptation Network,CAN)的目标是通过优化源领域上的特征表示,使其能够适应目标领域的特征分布。CAN的关键思想是通过对比损失来对源领域和目标领域的特征进行匹配。 具体地说,CAN首先通过一个共享的特征提取器来提取源领域和目标领域的特征表示。然后,通过对比损失函数来测量源领域和目标领域的特征之间的差异。对比损失函数的目标是使源领域和目标领域的特征在特定的度量空间中更加接近。最后,CAN通过最小化对比损失来优化特征提取器,以使源领域的特征能够适应目标领域。 该论文还对CAN进行了实验验证。实验结果表明,与其他无监督领域自适应方法相比,CAN在多个图像分类任务上取得了更好的性能,证明了其有效性和优越性。 综上所述,这篇CVPR 2019论文介绍了一种用于无监督领域自适应的对比适应网络,通过对源领域和目标领域的特征进行对比学习,使得源领域的特征能够适应目标领域。该方法在实验中展现了较好的性能,有望在无监督领域自适应任务中发挥重要作用。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值