CVPR_2020_AvatarMe: Realistically Renderable 3D Facial Reconstruction “in-the-wild”

最新推荐文章于 2024-06-07 09:45:34 发布

Nicholas Sc

最新推荐文章于 2024-06-07 09:45:34 发布

阅读量349

点赞数

分类专栏： 3D face reconstruction 文章标签： 3d 计算机视觉人工智能 Powered by 金山文档

本文链接：https://blog.csdn.net/dn_us/article/details/128900096

版权

3D face reconstruction 专栏收录该内容

6 篇文章 1 订阅

订阅专栏

名词解释

在讲解这篇文章之前，有几个名词需要解释一下。

漫反射：当光照照射到表面的某个点上时，会在物体内部四处反弹，其中一部分会被吸收，余下的会向各个方向散射并返回表面，这就是漫反射。

漫反射反照率：漫反射光照由光照颜色和漫反射反照率计算得到。

环境光照：就是间接光量。我们在真实世界中所看到最多的是间接光。例如：从屋子里的光源能够将走廊照亮。物体的阴影处虽然比较暗但不是完全的黑色等等。

镜面光照：镜面反射叫成了镜面光照。

in-the-wild：在任意记录条件下捕捉到的图像。

摘要

AvatarMe，这是第一种能够从单一的“野外”图像中重建逼真的3D人脸的方法，并且具有越来越高的细节水平。为了实现这一点，我们捕获了一个大的面部形状和反射数据集，并建立在最先进的3D纹理和形状重建方法上，并依次细化其结果，同时生成逐像素的漫反射和镜面组件，这是真实渲染所需的。正如我们在一系列定性和定量实验中所证明的那样，AvatarMe在很大程度上超越了现有的技术，从一张低分辨率图像中重建了真实的4K到6k分辨率的3D人脸。

训练数据

真值获取

我们使用最先进的方法来捕捉高分辨率的孔隙水平的面部反射率图，使用一个偏振光LED球168灯(分成两个偏振组)和9个单反相机。球体上一半的led是垂直偏振(平行偏振)的，另一半是水平偏振(交叉偏振)的交错模式。使用LED球，我们还可以使用来自非偏振LED的色彩空间分析进行漫反射分离，以及[24]的多视图面部捕捉方法来获得类似质量的未包装纹理。这种方法只需要不到一半的数据捕获(因此减少了捕获时间)和一个更简单的设置(没有偏振器)，从而能够获得更大的数据集。

数据收集

在这项工作中，我们捕捉了超过200个不同年龄和特征的人在7种不同表情下的面孔。几何重建被注册到一个标准的拓扑，与未包装的纹理，如图3所示。我们将数据集命名为RealFaceDB。这是目前这类数据中最大的数据集，我们打算将其公开提供给科学界。

方法

为了实现逼真的渲染人体皮肤，我们分别建模的漫反射和镜面反照率和法线所需的几何。因此，给定一幅不受约束的人脸图像作为输入，我们可以推断出人脸的几何形状以及漫反射反照率(AD)、漫反射法线(ND) 2、镜面反照率(as)和镜面法线(NS)。如图2所示，我们首先使用现有的3DMM算法[5]，从一张低分辨率的图像中重建出一个3D人脸(带有纹理的基础几何)。然后，通过超分辨率网络增强包含烘焙照明的重构纹理图，然后通过去光网络获得高分辨率漫反射反照率AD。最后，我们从漫反射反照率AD结合基本几何推断出其他三个分量(AS,ND,NS)。下面的部分将详细解释这些步骤。

Initial Geometry and Texture Estimation

我们的方法需要对给定的人脸图像i进行低分辨率的3D重建。因此，我们首先通过借用任何最先进的3D人脸重建方法(我们使用GANFIT[14])来估计n个顶点S∈Rn×3和纹理T∈R576×384×3的人脸形状。除了使用深度身份特征外，GANFIT还使用GAN作为面部纹理的统计表示来合成真实纹理UV图。我们对输入图像I的初始基底形状和纹理进行如下重构，详细信息请参考:

在获得先决条件后，我们对其进行程序上的改进:从重构几何S中获取形状法线N，提高面部纹理T分辨率，然后使用它们来估计物理渲染的分量，如漫反射和高光漫反射和法线。

超分辨率

我们采用了最先进的超分辨率网络RCAN[43]，将UV映射的分辨率从T∈R576×384×3提高到ˆT∈R4608×3072×3，然后重新拓扑化并上采样到R6144×4096。具体来说，我们用获得的低分辨率纹理T的纹理块训练一个超分辨率网络(ζ: R48×48×3 7→R384×384×3)。

通过消光提取漫反射率

3dmm生成的纹理T的一个重要问题是，它们是在烘焙光照(即反射、阴影)的数据上进行训练的，这些数据是它们复制的。ganfitet制作的纹理包含尖锐的高光和阴影，由强点光源以及烘烤的环境照明产生，这阻止了真实感渲染。为了解决这个问题，我们首先对[14]中使用的数据集的光照条件进行建模，然后合成具有相同光照的UV贴图，从而训练出一个从烘烤光照的纹理到无光照漫反射AD的图像到图像的转换网络。

模拟烘焙照明

这一部分是要模拟实现GANFIT所采用的烘培光照条件。

首先，我们从GANFIT中获取随机纹理和网格输出。使用角膜模型，我们估计了所使用的明显3点光源的平均方向，以及纹理t的环境地图。环境地图对GANFIT数据的环境光照进行了很好的估计，而3个光源有助于模拟高光和阴影。我们从所有的角度为每个主体计算一个基于物理的渲染，使用预测的环境地图和预测的位置随机变化的光源，创建一个照明纹理地图。

我们从所有的角度为每个主体计算一个基于物理的渲染，使用预测的环境地图和预测的位置随机变化的光源，创建一个照明纹理地图。我们用ξ表示整个模拟过程:AD∈R6144×4096×3 7→AT D∈R6144×4096×3，它将漫射反照率转换为烘烤光照下纹理的分布，如下图所示:

上述公式中，ADT是烘培光照下的纹理分布，AD是漫反射光照的图像。

烘培的是我现在的（3DMM得到的），漫反照率是我想要得到的，我通过这样的一个过程，来实现去除光照影响。

培训消光网络

RealFaceDB是一个自己的数据库

考虑到解释的模拟照明，我们现在可以使用类似GANFIT的照明AT D和相应的漫反射反照率AD版本的RealFaceDB。我们将消光定义为一个域适应问题，并训练一个图像到图像的翻译网络。为此，我们采用了两种不同于标准图像翻译方法的策略。首先，我们发现皮肤表面的光照遮挡是几何相关的，因此，当将3DMM的纹理和几何信息输入网络时，产生的反照率质量得到改善。为此，我们只需将纹理AT D通道归一化为[−1,1]，并将它们与对象空间do中的网格深度连接起来，也在[−1,1]中。深度(DO)定义为UV映射中获取和对齐的几何图形的顶点的Z维。我们给网络提供一个4D张量[AT DR,AT DG,AT DB,DO]，并预测得到的3通道反照率[ADR,ADG,ADB]。或者，我们也可以将纹理AT D与物体空间(NO)中的法线连接作为输入。我们发现仅使用纹理映射来填充网络会导致推断中的工件。其次，我们将原始的高分辨率数据分割成512 × 512像素的重叠块，以增加数据样本的数量，避免过拟合。为了从Tˆ中去除现有的光照，我们用patches δ: AT D,DO 7→AD∈R512×512×3训练一个image-to-image translation network，然后通过以下方法提取漫反射率AD:

第一步，将纹理与深度D0连接，第二部，将数据分割，扩大数据集。

T帽是超分辨率图像

镜面反照率提取

背景：从被照纹理Tˆ或推断的漫反射反照率AD预测整个镜面BRDF和逐像素镜面粗糙度是一个不必要的挑战。如[15,22]所示，只使用镜面反射As的强度就可以逼真地渲染对象，由于皮肤的折射率，镜面反射As的强度在人脸上是一致的。空间变化与面部皮肤结构相关，如皮肤毛孔、皱纹或头发，它们作为反射遮挡降低了镜面强度。

原则上，镜面反照率也可以从带有烘焙光照的纹理中计算出来，因为纹理包含烘焙镜面反射。然而，我们的经验发现，由于环境照明和遮挡，镜面成分是强烈的偏颇。从上一步计算出高质量的漫反射反照率AD后，我们从RealFaceDB上训练的漫反射反照率(ψ: AD 7→AS∈R512×512×3)，通过类似的基于patch的图像到图像转换网络，推断出镜面反照率AS。

镜面法线提取

镜面法线显示尖锐的表面细节，如细皱纹和皮肤毛孔，并具有挑战性的估计，因为一些高频细节的外观取决于照明条件和纹理的观点。

与镜面反照率的处理类似，我们更喜欢漫反射反照率，而不是重建的纹理图T帽，因为后者包含了尖锐的高光，被网络错误地解释为面部特征。此外，我们发现，即使漫反射反照率从镜面反射中剥离，它仍然包含了定义中高频细节的面部皮肤结构，如毛孔和皱纹。最后，由于面部特征相似地分布在颜色通道中，我们发现我们可以使用lumatransformed (in sRGB)的灰度漫反射反照率(Agray D)代替漫反射反照率AD。我们再次发现，当网络接收详细的漫射反照率AD和较低分辨率的几何信息(在这种情况下，是形状法线)作为输入时，网络成功地生成了中高频信号。此外，当使用切线空间(NT)法向量时，得到的高频细节更加突出，这也可以作为更好的输出，因为大多数商业应用都需要切线空间法向量。我们训练一个平移网络ρ: Agray D,NT 7→NS，∈R512×512×3来映射灰度漫反射反照率Agray D与切线形状法线的串联。