Learning to Aggregate and Personalize 3D Face from In-the-Wild Photo Collection 笔记

最新推荐文章于 2023-11-09 14:24:10 发布

CarrotLY

最新推荐文章于 2023-11-09 14:24:10 发布

阅读量608

点赞数

分类专栏：人脸3D论文文章标签：机器学习人脸识别

本文链接：https://blog.csdn.net/LYStudyC/article/details/120617116

版权

人脸3D论文专栏收录该内容

1 篇文章 0 订阅

订阅专栏

摘要

非参数化人脸建模：不进行形状假设，直接从图像中重建三维人脸。虽然可以预测可信的面部细节，但模型往往过度依赖局部颜色外观，并且受模糊噪声的影响。

为解决如上问题，本文提出LAP框架，该方法不使用受控环境，而是隐式地从无约束的照片集中分离出ID一致的和场景特定的人脸（先从多图片中建模出人脸模型，然后通过与从目标图片中分离出的属性（环境等）相结合，最后获得场景特定的人脸）。具体地说，首先为了学习出ID一致的人脸，LAP基于一种新的课程学习方法，通过松弛一致性损失，自适应地聚合同一身份的内在人脸因素（其实就是从一个人的多张不同角度的图片中学习出一个人脸模型）；为了使人脸适应个性化场景（微笑等），提出一种新的属性细化网络，用目标图片的属性和细节来修改ID一致的人脸。

基于如上方法，使无监督三维人脸建模受益于有意义的图像面部结构和可能更高的分辨率。

在基准测试上进行了大量实验表明，与有或无先验和监督的最先进的SOTA方法相比，LAP恢复了出众的或有竞争力的面部形状和纹理。

介绍

Preliminary

为了在没有3DMM假设的情况下预测3D人脸，本文基于Unsup3D[1]构建了框架。给定一张图片 $I$ ，该框架将其分解为4个因子(d,a,w,l)。a表示反射率albedo, d表示深度图depth，l表示光照方向light，w表示视角方向viewpoint。每一个因子由一个单独的网络进行预测，分别表示为 $\Phi ^{d}$ , $\Phi ^{a}$ , $\Phi ^{w}$ , $\Phi ^{l}$ 。利用这些因素，通过光照函数 $\Lambda$ 和重映射函数 $\Pi$ ，图像 $I$ 可以通过如下函数重建：

$\hat{I}=\Pi (\Lambda (a,d,l),d,w)$

使用一种重构损失，通过可微渲染鼓励 $I\approx \hat{I}$ 。为了约束d和a的标准视图以表示整个正面，框架通过水平翻转使用弱对称假设：

${\hat{I}}'=\Pi (\Lambda ({a}',{d}',{l}'),{d}',{w}')$

其中 ${a}'$ 和 ${d}'$ 是 $a$ 和 $d$ 的翻转版本。并且鼓励 $I\approx \hat{{I}'}$ 。为了允许可能不对称的面部区域，该框架通过 $\Phi ^{\sigma }$ 预测置信图 $\sigma$ 和 ${\sigma }'$ ，并以如下函数校准损失:

$\L (\hat{I},I,\sigma )=-\frac{1}{\left | \Omega \right |}\sum ln\frac{1}{\sqrt{2}\sigma }exp-\frac{\sqrt{2}\left | \hat{I}-I \right |}{\alpha }$

其中 $\Omega$ 归一化因子。还计算了翻转版本 $\L ({\hat{I}}',I,{\sigma}' )$ 。通过这种方式，无需3DMM假设，就可以从图像中以无监督的方式对3D人脸进行建模。请注意，由于Unsp3D非常依赖于单个图像的外观，因此它无法处理2D模糊性，例如显著的局部色差和噪声。相比之下，LAP通过进一步将脸分解来解决这个问题，这些将在下文中讨论。

图2

Methodology

在这一部分中，主要描述了LAP3D人脸方法。对于相同身份的照片集，目标是实现进一步的分离：首先基于一致的面部结构，建模基本的面部几何和纹理；然后将其修改，使其有个性话属性和细节。如图2所示，这种分离是通过2个步骤实现的：学习聚合(Sec.4.1)和学习个性化(Sec.4.2)，无需3DMM先验。

1. Learning to Aggregate

如Sec.1，由于基本面部结构，身份的外观应在不同的图像中保持一致，并且图像集合包含有限的非刚性变化。受这些事实的启发，我们提出了深度/反照率聚合网络，从照片集合中自适应聚合面部因素，学习ID一致的几何/纹理，并使用这些一致的因素重建每个输入图像。我们还提出了一种课程学习方法，通过放松一致性损失来抑制较大的面部变化，从而实现稳定的学习。

Aggregation Network：

如图2所示，该聚合网络具有跨多个图像的共享编码器 $\delta$ 和用于预测一致人脸的全局解码器 $\phi$ 。为了建模反射率和深度图，使用两个单独的聚合网络，分别为 $\Phi ^{a}=(\delta^{a}, \phi^{a})$ 和 $\Phi ^{d}=(\delta^{d}, \phi^{d})$ 。给定N张照片的集合 $\{{I_{i}^{k}}\}_{i=1}^{N}$ ，其中k是身份的索引(为简化起见，在下文中省略)，将每个 $I_{i}$ 输入到 ${\delta }^{a}$ ， ${\delta }^{d}$ ，以获得纹理和几何的潜在编码。

Experiment

1Setup

Dataset：使用生成的合成数据集、CelebA、CASIAWebFace。总获得16k个不同的身份和600k个真实的人脸图像。并选择12k/2k/2k个身份作为train/val/test。为了评估面部几何结构，使用3DFAW、BFM、Photoface数据集来测试。为了评估建模出的纹理，使用CelebAMaskHQ数据集进行微调和测试。

Implementation Details：使用与[59]相同的 $\Phi ^{w}$ 、 $\Phi ^{l}$ 、 $\Phi ^{\sigma }$ 结构来预测视角方向、光照方向和置信度。聚合和属性细化网络具有与[59]相同的编码器-解码器主干，分别用于预测反照率和深度。首先在合成数据集上训练聚合网络和 $\Phi ^{w}$ 、 $\Phi ^{l}$ 、 $\Phi ^{\sigma }$ 训练50epochs。之后冻结它们，并对属性细化网络进行100epochs训练。最后对所有网络微调50epochs。

[1]Shangzhe Wu, Christian Rupprecht, and Andrea V edaldi. Unsupervised learning of probably symmetric deformable 3d objects from images in the wild. InCVPR, pages 1–10, 2020.

CarrotLY

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
2
评论
Learning to Aggregate and Personalize 3D Face from In-the-Wild Photo Collection 笔记

摘要非参数化人脸建模：不进行形状假设，直接从图像中重建三维人脸。虽然可以预测可信的面部细节，但模型往往过度依赖局部颜色外观，并且受模糊噪声的影响。为解决如上问题，本文提出LAP框架，该方法不使用受控环境，而是隐式地从无约束的照片集中分离出ID一致的和场景特定的人脸（先从多图片中建模出人脸模型，然后通过与从目标图片中分离出的属性（环境等）相结合，最后获得场景特定的人脸）。具体地说，首先为了学习出ID一致的人脸，LAP基于一种新的课程学习方法，通过松弛一致性损失，自适应地...
复制链接

扫一扫