Self-supervised Multi-level Face Model Learning for Monocular Reconstruction （单目重建的自监督多层次人脸模型学习）

最新推荐文章于 2023-03-30 09:53:08 发布

NSSC_K

最新推荐文章于 2023-03-30 09:53:08 发布

阅读量1.1k

点赞数

分类专栏：计算机图形学文章标签：单目重建人脸模型

本文链接：https://blog.csdn.net/NSSC_K/article/details/89317292

版权

计算机图形学专栏收录该内容

1 篇文章 0 订阅

订阅专栏

在这里插入图片描述我们的新单眼重建方法估计高质量的面部几何形状，皮肤反射率(包括面部毛发)和超过250赫兹的入射照度。利用前馈反渲染网络，学习了一种可训练的多层人脸表示方法。端到端培训基于自我监督的损失，不需要密集的地面真相。

Abstract

从一张单一的图像中重建密集的人脸几何和外观三维模型是非常具有挑战性和不适定的。为了约束该问题，许多方法依赖于强先验，如从有限的三维扫描数据中学习的参数化人脸模型。然而，先验的模型限制了人脸几何、皮肤反射率和光照的真实多样性的泛化。**为了解决这一问题，我们提出了一种基于并行学习的参数化人脸模型，联合学习1)人脸形状、表情、反射率和光照的回归器的方法。**我们的多层人脸模型结合了三维形态模型的正则化优势和学习校正空间的空间外泛化。我们的多层人脸模型结合了三维形态模型的正则化优势和学习校正空间的空间外泛化。我们通过融合卷积编码器和专家设计的可微渲染器，以及在多个细节级别上定义的自监督训练损失，在没有密集注释的in-the-wild外图像上进行端到端的训练。

1.Introduction

在过去的几十年里，单目人脸重建在计算机视觉和图形学领域引起了极大的关注。我们的目标是从一张照片中估计出一个高质量的个性化人脸模型。这种模型理想地包括几个可解释的语义维度，例如，三维人脸形状和表情以及表面反射率特性。这一领域的研究是由不断增加的人脸图像可用性所推动的，例如，家用摄像头捕捉的人脸图像，以及跨多个领域的广泛重要应用，如面部运动捕捉、游戏和电影的内容创建、虚拟和增强现实以及通信。
从一张照片中重建人脸是一个非常具有挑战性和不适定的逆问题，因为图像的形成过程将多个复杂的物理维度(几何、反射率和光照)卷积成每个像素的单一颜色测量。为了解决这种病态，研究人员已经做了额外的先验假设，比如将人脸限制在一个低维子空间中，例如，3DMorphable模型(3DMM)从有限尺寸的扫描数据库中学习。许多最先进的基于优化的和基于学习的人脸重建方法重依赖这些先验。虽然这些算法产生了令人印象深刻的结果，但它们不能很好地推广到底层模型的受限低维子空间之外。因此，重建的三维人脸可能缺乏重要的面部细节，包含不正确的面部特征，并不能很好地与图像对齐。例如，beards已经显示出对纯合成数据训练的算法或使用3DMM进行正则化的算法的重构质量的急剧下降。一些方法试图通过启发式来防止这些失败，例如，一个单独的分割方法来消除分离的皮肤和头发区域的歧义最近的方法通过添加精细尺度的细节来细化拟合的先验，或者基于阴影的形状，或者基于预先学习的回归量。然而，这些方法依赖于缓慢的优化，或者需要高质量的带注释的训练语料库。此外，他们没有建立一个改进的子空间的中型形状，反射率和表达式，这是至关重要的泛化。Sela等人的预测了一个每像素深度图，以变形和填补在训练中学习的有限几何子空间的洞。虽然结果令人印象深刻，但非刚性配准是离线运行的。此外，他们的方法只捕捉人脸的几何形状，如果人脸与训练语料库有很大差异，就会失败，例如，皮肤反射率和面部毛发。理想情况下，人们希望构建更好的先验，用有意义和可解释的参数解释各种各样的现实世界面孔。用传统方法学习这样的模型需要大量标记密集的真实世界数据，这实际上是不可行的。
我们提出了一种全新的端到端可训练的方法，该方法联合学习1)一个有效的回归因子来估计高质量的身份几何、面部表情和有色皮肤反射率，以及2)一个改进的多级人脸模型的参数化，该模型能更好地概括和解释现实世界中的人脸多样性。
我们提出了一种全新的端到端可训练的方法，该方法联合学习1)一个有效的回归因子来估计高质量的身份几何、面部表情和有色皮肤反射率，以及2)一个改进的多级人脸模型的参数化，该模型能更好地概括和解释现实世界中的人脸多样性。我们的方法可以在in-the-wild稀疏标记的图像上进行端到端的训练，并在超过250赫兹的单目RGB输入中重建人脸和光照。我们的方法利用3DMM进行正则化，并利用学习的校正空间进行空间外泛化。为了使野外图像的端到端训练成为可能，我们提出了一种混合卷积自编码器，它将CNN编码器与专家设计的可微渲染层和自监督损失结合起来，两者都定义在多个细节级别。此外，我们加入了一个新的轮廓约束，生成更好的人脸对齐。与Tewari等人的不同，我们的自动编码器学习了一个改进的多级模型，超越了预先定义的低维参数面。实验结果表明，该方法具有较强的鲁棒性、较好的泛化性，并能较好地估计几何形状、反射率和光照质量。

2.Related Work

我们主要讨论基于优化和学习的方法，这些方法使用参数模型。而高质量的多视图三维重建方法存在，我们感兴趣的是更难的单眼重建问题。
**参数化人脸模型:**应用最广泛的人脸模型是3D Morphable model (3DMM，这是一种通过高质量扫描学习人脸几何和纹理的仿射参数化人脸模型。中提出了一个相似的人脸动画模型。最近，Booth等人从大约10,000个面部扫描中创建了一个大规模的面部模型(LSFM)，这代表了一个更丰富的形状分布。Booth等人的]中，人脸模型被一个“in-the-wild”纹理模型增强。将这种模型拟合到图像上是一个非凸优化问题，类似于基于活动形状和外观(AAMs模型。虽然3DMMs是一种高效的先验，但它们将人脸重构限制在一个有限的低维子空间内，如胡须或特征鼻子无法重构。相反，**我们通过共同学习一个修正模型来扩展有限的子空间，**该模型可以更好地将真实数据一般化。

Optimization-based Approaches

单目人脸重建、基于图像采集的重建以及高质量三维人脸平台的估计，很多方法都是基于能量优化的。从不同的数据源，如照片集、网络照片、视频，得到了令人印象深刻的人脸重建结果。此外，还提出了不依赖于训练过的形状或外观模型的方法，如使用模态分析得到的模型或利用光流与的消息处理相结合。虽然实时人脸跟踪在一般情况下是可行的，但是基于优化的人脸重建在计算上是昂贵的。此外，**基于优化的方法对初始化很敏感，需要2D地标检测.**一些方法允许3D人脸轮廓在预定义的路径上滑动(例如等值线)或迭代固定顶点集，寻找三维轮廓对应。我们的方法既不需要昂贵的优化策略，也不需要参数初始化，但通过在训练过程中考虑轮廓，它可以精确地将3D人脸网格与图像匹配。

Learning-based Approaches：

除了基于优化的重构方法外，还有许多基于学习的方法。其中，基于神经网络的图像基准点检测方法具有较高的精度或限制玻尔兹曼机。此外，我们还可以发现(弱)监督的深度网络，它集成生成模型来解决像面部表现捕捉这样的任务。
Ranja等人提出了一种多用途CNN，用于从人脸图像中回归语义参数(如年龄、性别、姿势)。理查森等人提出了一种基于学习和优化的混合方法，可以从一张图像重建详细的面部几何形状。在[48]中提出的工作训练端到端回归器，以恢复粗糙和精细尺度的面部几何形状。在[61]中，对人脸形状和纹理进行回归，进行人脸识别。后一种人脸重建方法对真实世界人脸多样性的推广受到底层低维人脸模型的限制。

Corrective Bisas and Subspace learning

通过添加中等尺度的细节，可以提高人脸重建的质量。Li等人使用增量PCA对面部基进行实时个性化。Bouaziz等人[11]提出了基于流形谐波的中尺度形状校正方法[64]。最近，Garrido等人提出了一种基于固定校正基础的单目视频学习中尺度形状的方法。Sela等人的[53]直接回归深度和逐像素对应，从而超越了三维mm的受限子空间。然而，它们不能恢复彩色表面反射率，需要离线非刚性配准步骤才能获得已知一致拓扑结构的重构。据我们所知，目前还没有一种算法能从in-the-wild图像中同时学习几何和反射率校正。

Deep Integration of Generative Models

Jaderberg等人的开创性工作，[31]引入了空间变压器网络，实现了一个神经网络中的位置不变性。透视变压器网[67]能够从单个二维图像中获得三维对象表示。gvvn库[27]实现了用于这种转换的低级计算机视觉层。最近，一种基于模型的人脸自动编码器(MoFA)[59]被提出用于单目人脸重建，它结合了专家设计的渲染层和可训练的CNN编码器。它们的结果是显著的，但仅限于人脸模型的固定低维子空间。子空间外的变异，如面部细节和个性化的鼻子，没有被复制，严重降低了重建的质量。我们的方法解决了所有这些挑战，在几何和反射率方面实现了更强的鲁棒性和更高的质量。

3.Method Overview

我们的新面孔重建方法估计高质量的几何形状，皮肤反射率和入射光从一个单一的图像。我们在同时学习多级参数化人脸模型的基础上，联合训练各维度的回归器，如图1所示。

图1所示。我们的方法在超过250赫兹时回归一个低维的潜在面表示。前馈CNN是与一个超越当前3DMMs低维子空间的多层次人脸模型共同学习的。可训练图层显示为蓝色，专家设计的图层显示为灰色。训练是基于可微的图像形成，结合自我监督缺失(橙色)。

在测试时(图1，左)，使用一个前馈CNN计算一个低维的，但有表现力和鉴别力，潜在的空间人脸表示花费在4ms以下。如AlexNet[37]或VGG-Face[44]。我们的潜在空间是基于一个新的多层次的人脸模型(sec4)它结合了一个粗糙尺度的3DMM与可训练的每个顶点几何和皮肤反射校正。这使我们的方法能够超越有限的低维几何和皮肤反射子空间，通常使用基于3dmm的方法进行人脸拟合。

我们训练(图1，右)前馈网络和校正空间，基于一种新的CNN架构，不依赖于密集标注的地面真实几何、皮肤反射率和光照训练语料库。为此，我们将多层模型与专家设计的图像形成层(第5节)相结合，得到一个可微计算机图形模块。为了实现多级人脸模型的联合估计，该模块对两种人脸模型都进行了粗化处理三维模型和中等规模的模型，其中包括校正。在训练方面，我们使用自我监督的损失函数(sec6)，使我们的架构能够在大量in-the-wild人脸图像上进行有效的端到端训练，而不需要密集地注释ground truth。我们定性和定量地评估我们的方法，并将其与最先进的优化和基于学习的面部重建技术进行比较(sec7)。

4.Trainable Multi-level Face Model

我们的方法的核心是一个新的多层次的面部模型，参数化的面部几何形状和皮肤反射率。我们的模型是基于一个流形模板网格与N ~ 30k顶点和每个顶点的皮肤反射率。我们将所有顶点vi 2v的x、y和z坐标叠加在一个几何向量vf2r3n中:

NSSC_K

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
1
评论
Self-supervised Multi-level Face Model Learning for Monocular Reconstruction （单目重建的自监督多层次人脸模型学习）

我们的新单眼重建方法估计高质量的面部几何形状，皮肤反射率(包括面部毛发)和超过250赫兹的入射照度。利用前馈反渲染网络，学习了一种可训练的多层人脸表示方法。端到端培训基于自我监督的损失，不需要密集的地面真相。Abstract从一张单一的图像中重建密集的人脸几何和外观三维模型是非常具有挑战性和不适定的。为了约束该问题，许多方法依赖于强先验，如从有限的三维扫描数据中学习的参数化人脸模型。然而，先验...
复制链接

扫一扫