摘要
在本文中,我们采用了一种完全不同的方法,利用生成对抗网络(GANs)和DCNNs的能力,从单幅图像中重建面部纹理和形状。 即利用GANS从一个大规模的三维纹理数据集中训练出一个非常强大的人脸纹理先验。 在此基础上,我们利用非线性优化方法对原有的三维可变形模型(3DMMS)拟合进行了研究,找到了能够在新的视角下重建测试图像的最优潜在参数。 为了对初始化具有鲁棒性和加速拟合过程,我们提出了一种新的基于自监督回归的方法。
涉及的知识:
progressive growing GAN:传统上,GAN一直在努力输出低分辨率和中等分辨率的图像,例如32²(CIFAR-10)和128²(ImageNet),但是这种GAN模型能够生成1024²的高分辨率面部图像。模型如下:
Deferred shading(延迟渲染):将光照/渲染计算推迟到第二步进行计算。我们这样做的目的是为了避免多次(超过1次)渲染同一个像素。Deferred shading技术的应用使得我们避免了应用反射模型于最终不可见的片断上。例如,考虑这样的像素,它位于两个多边形重叠的区域。通常的片断着色器会读对每个多边形分别计算那个像素一次;然而,两次执行的结果最终只有一个成为该像素的最终颜色(这里基于的一个假设是:混合已被禁用)。这样,其中的一次计算就是无用的。有了Deferred shading技术,反射模型的计算会推迟到所有几何体被处理之后,那时候每个像素位置几何体的可见性也是已知的。这样,对于屏幕上的每个像素,反射模型的计算只会发生一次。
贡献
本文的创新之处在于我们首次证明了在未包裹的UV空间上对完整面部表面的大规模高分辨率统计重建可以成功地用于任意面部纹理的重建,即使在无约束记录条件下也是如此。提出了一种新的基于GANs和可微渲染器的3DMM拟合策略。我们设计了一个新的代价函数,它结合了人脸识别网络中深度身份特征的各种内容损失。在任意记录条件下,我们证明了良好的面部形状和纹理重建,并在定性和定量实验中显示出既具有真实感又保持身份。
方法
这里的Ps,Pe,Pt和GAN(渐进增长GAN)都是训练得到的。在我们所有的实验中,给定的人脸图像与我们的固定模板对准,使用2D地标检测所检测的68个地标位置。 对于身份特征,我们采用ArcFace[12]网络的预训练模型。 对于生成网络G,我们在512×512的分辨率下训练了一个大约10,000个紫外图的渐进生长GAN。 大致流程如下:首先渲染Ps绘制出一个3D三人网格,其次加入Pe绘制出一个带有表情参数的人脸网格(注意:在GANFIT中,并没有第一个人脸网格,在此的解释是本文采用延迟渲染的方法)。Pt通过一个渐进生长的GAN模型来得到一个UV图,我们的可微渲染器只支持颜色向量,我们从生成的UV图中采样,以获得向量化的颜色表示。此外,我们渲染一个随机的表情、姿态和光照的二次图像,以便在这些变化下更好地推广身份相关参数。 我们从正态分布中抽取表达式参数,从300W-3D数据集的高斯分布中抽取摄像机参数和光照参数为p, 这个与IR具有相同身份的渲染图像(即,具有相同的Ps和Pt参数)。
优化
为了对初始化具有鲁棒性并加快拟合过程,我们提出了一种新颖的基于自监督的回归方法。其中Face Recognition CNN和Landmark Detection是训练好的。为了使GANFIT优化参数更接近全局/良好极小值,我们提出用相同的图像形成和损失函数训练编码器网络,这些函数从输入图像中回归潜在参数。 通过该结构的输出来初始化GANFit模型的参数,加速了网络的训练。