【CVPR2020】【语义编辑】StyleRig：Rigging StyleGAN for 3D Control over Portrait Images

最新推荐文章于 2023-04-09 09:59:38 发布

EasyCV-Ellis

最新推荐文章于 2023-04-09 09:59:38 发布

阅读量877

点赞数 3

分类专栏：论文分享

本文链接：https://blog.csdn.net/weixin_39323037/article/details/115518393

版权

论文分享专栏收录该内容

15 篇文章 1 订阅

订阅专栏

该博文介绍了CVPR2020一篇论文，研究将3D信息与StyleGAN结合以实现精细的人脸编辑。通过可微分的人脸重建网络和RigNet，网络可以从latentcode中抽取3D信息并进行编辑，同时保持身份信息。实验表明，该方法能有效控制3D姿态、表情和光照，但存在训练集限制和预训练依赖等问题。

摘要由CSDN通过智能技术生成

注：拉到最后有视频版哦~

地址：https://gvv.mpi-inf.mpg.de/projects/StyleRig/

这次给大家分享一篇 CVPR2020 的论文，是基于 StyleGAN 结合 3D 信息做人脸编辑的文章

我会从这五个方面开始我的介绍

背景

首先是文章的背景，背景就是 GAN 能够生成很多很真实的图片

动机

对于文章的动机，就是 GAN 很难控制 3D 的信息，比如旋转角；在 3D 建模中，有 3DMM 这个人脸模型，用这个模型能做 3D 的控制，比如姿态和光照，但是用它渲染出来的图片很假，不真实。GAN 和 3DMM 其实就是一个互补的关系

目标

然后是文章的目标，研究目标就是将 CG(computer graphics，计算机图形学)这些 3D 信息和 StyleGAN 结合起来

方法

对于方法，首先是总体的架构，这个部分直接看太复杂了，我分开来给大家讲

首先还是讲一下 3DMM 中的一些参数，图里比较细，直接看图吧，用这些参数能定义一个人脸的 3D 模型

文章的训练分成两个过程，先讲一下 step1 的过程，此部分想学一个可微分的人脸重建网络 F，用 MLP 实现的，宏观的意思就是把 StyleGAN 的 latent code 转成上一张图说的 3DMM 参数 p。然后来看一下右下角的图，紫色的 G 是 pretrain 好的 StyleGAN 生成器，紫色的 R 是 pretrain 的可微分渲染模型，映射的就是红框里的内容，这个可微分渲染能把 3DMM 参数渲染成一张图片。训练的 loss 主要是 render loss，分渲染时候掩码部分的 MSE 和关键点的 loss

然后讲一下 step2，叫 RigNet，这个部分的作用是把上一张图的 DFR 提取出的 p（也就是 3DMM 的参数）和我们需要操作的 latent code（w）进行信息融合。这个网络很简单，其实就是一个线性的过程，唯一需要注意的是 w 的每一个小维度都是要单独处理的。这个部分的训练放在后面说。

讲完了两个模块，我们综合起来先看一下他是如何推理的。比如我有两个 latent code，即 w 和 v，我现在想把 v 中的 3D 信息抽出来注入到 w 中，生成的 d 和 w 有相同的维度，和 w 相加后的结果就是具有 v 的 3D 信息的 w 对应的图片。

然后反过来讲 step2 的训练，第一个 loss 是重建 loss，也就是说我是从我自己身上（还是 w）抽 3D 信息，加入到自己身上（w），生成的图片和原图相比。换句话说，强迫这个 d 趋近于 0。

然后这个编辑 loss 有点难理解，我具体说一下，这个是一个 cycle 的 loss，意思是将网络输出经过 DFR 之后的 $\hat{p}$ 的旋转部分拿出来替换掉 v 经过 DFR 的 $p_v$ 的对应部分，然后用渲染 loss 来处理。这个宏观来看就是强制要求网络输出 $\hat{p}$ 和 $p_v$ 的旋转部分接近，这也是网络应该做到的。

还有一个一致性的 loss，因为我们只希望网络抽取 3D 的信息，其他的都不希望有变动。所以我把网络输出 $\hat{p}$ 的需要保持的部分拿出来替换掉 w 经过 DFR 的 $p_w$ 的对应部分，这也用 render loss 来处理。宏观来看就是要求网络输出 $\hat{p}$ 和 $p_w$ 的非旋转部分接近，这也是网络应该做到的。