3D人脸重建

最新推荐文章于 2024-08-20 09:15:29 发布

hnsdgxylh

最新推荐文章于 2024-08-20 09:15:29 发布

阅读量800

点赞数

分类专栏：计算机视觉文章标签：人工智能算法

原文链接：https://zhuanlan.zhihu.com/p/567776156

版权

计算机视觉专栏收录该内容

114 篇文章 10 订阅

订阅专栏

提出问题

以上图为例，输入的人脸带有复杂光照以及表情，这些“杂质”会对后续avatar的渲染以及驱动造成困扰，本文的卖点即不对输入做任何限制，依靠算法自动处理这些杂质，生成干净的形状与纹理，即所谓的normalized avatar。

从引用来看，该团队在这个方向已有前作，发表在2019的ToG:《Deep face normalization》，前作分步解决透视畸变、光照归一化、pose矫正和表情中和，在本文中叙述了前作的不足：

把各个步骤分开用image-to-image translation的思路串行来做，原图信息会不断损失。
前作使用的是线性3dmm，细节表达力较差。

同样方向的还有AvatarMe和AvatarMe++系列，遗憾的是本文没有针对albedo的生成质量跟他们做横向对比分析。

解决方案

论文中的大框架图

作者的框架并不复杂，具体分为两个步骤，令人不解的是第一个stage叫inference，第二个叫refinement，为了不妨碍理解，第一步我就帮他改成叫coarse stage了，即由粗到细的过程。

stage 1 - coarse stage

第一阶段包含级联的三个网络，输入图片先经过FaceNet，得到表达id的高维特征，再经过Id Regressor，预测出Stylegan的latent code，再通过Synthesis Network把这个latent code生成相应的shape和texture。

熟悉GAN Inversion的话，这个框架应该不陌生，只不过这里为了生成3d信息，作者用3d扫描数据训了一个3d版的stylegan2，shape也用uv space表达，映射过程见PRNet。

训好3d版的stylegan2再通过迭代法做Inversion，把扫描数据的latent code拿到，即拿到了(2d图片 - latent code of 3d stylegan)的成对数据，用这些数据便可训练Id Regressor。

stage-1已经搭建出了一个从单图预测3d带纹理形状的过程，为了训练3d生成器，作者从3D Scan Store和Triplegangers里收集了总共431个ID的扫描数据，这个数据量显然不足以训出非常强的模型。

为了提高模型表达能力，同时解决本文提出的核心问题（去除光照、生成中立表情），作者自己又通过算法合成了一批数据(persudo GT)，称之为Normalized Face Dataset。

Normalized Face Dataset

拓展数据集中的示例

这套方案也很朴素，拿到一张网图，通过预训练好的原版stylegan进行2d人脸编辑，把这张图变成正面、中立表情、光照均匀的效果。其实从给出的示例来看，这一步去得不是很干净，比如最右边一列明显还有微笑带来的法令纹、镜面高光等。

拿到这批干净的2d数据之后，我们可以跑训好的stage1，把这些数据的3d信息预测出来，这里纹理的处理有些小tricks，首先用前作的方法又做了一次光照normalization（猜测是为了干掉残留的镜面高光），然后把2d像素值直接映射到uv space作为albedo map。

但是刚刚说到，stage1的数据量少，网络能力一般，得到的3d信息不怎么准，于是又拿来另一个线性3dmm的模型(Face2Face)通过迭代优化fitting，得到更准的shape和texture。

we first run our inference pipeline to generate the 3D geometry and take it as the initialization for the Face2Face optimization.

原文提到可以通过stage1得到的shape为迭代过程做初始化，这个操作一笔带过了，猜测是拿这个shape先估一套3dmm的参数；总之，有了更准的shape和texture之后，我们就可以来finetune第一步的两个网络了。

这个finetune过程原文也是一笔带过。。猜测还是分开finetune的，对于生成器还是用原来的方法训练，但是Id Regressor可以用没有经过normalized的数据(带光照、带表情)，预测normalized后的shape和texture，这样Id Regressor就实现了从原图预测normalized stylegan vector的功能。

结束finetune过程后，才结束了stage-1的训练过程，接下来就是stage-2的迭代优化过程。

stage 2 - refinement stage

这里引用了一篇文章，认为人脸识别网络学出来的embedding space不靠谱：

A small perturbation of the latent code may not affect the identity feature training at all. On the other hand, such a small error in the identity code may cause greater inconsistency in our inference pipeline after passing R and G.

说实在没太看明白作者想表达什么，但人脸识别的embedding不靠谱是正常的，比如同样一个id，pose改一下、光照改一下，出来的embedding距离可能很大。