facescape
facescape主要贡献:
- 使用先进的设备采集了一组多人、高质量、包含20个表情表情的视频数据集,可申请下载。多为亚洲人、覆盖了各个年龄段、 还有年龄性别工作等信息。
- 基于上面数据集提出了一组基准模型,可以高精度、可迁移的进行人脸重建。
数据集
上图是数据预处理的PipLine,第一列为图片、第二列为原始扫描数据、第三列将扫描数据表示为Base Model和Disp Map、第四列为利用第三列进行渲染后的结果。
数据配准
Base Model是将原始扫描数据用一组固定点数表示,过程如下:
- 通过3D landmark约束进行粗配准。
- 利用nicp进行精配准。
因为Base Model会损失部分信息,这时就用Disp Map来补气这部分丢失的信息,Disp Map中的数值为重建Base Model中每个点到对应原始扫描点的距离,过程为:
- 将Base Model中每个点投影到UV图上。
- 将UV图上的点投影到原始扫描数据上。
- 计算Base Model中点和对应原始扫描数据点的偏差,写入Disp Map。
基准模型生成
这里没采用3DMM的shape和exp分离那一套逻辑,而是采用Bilinear Model。Bilinear Model可以链接到Facesfitting算法以提取facemesh,拟合的facemesh可以进一步转换为可装配的混合形状。 原始数据可表示为26317 vertices × 52 expressions × 938 identities的三维矩阵,利用Tucker decomposition生成一个通道压缩的矩阵
C
r
C_r
Cr,两个低维矩阵(分别用来表示shape和exp),新shape可由以下公式生成:
V
=
C
r
×
w
e
x
p
×
w
s
h
a
p
e
V=C_r\times w_{exp}\times w_{shape}
V=Cr×wexp×wshape
v1.6的 C r C_r Cr的维度为78834_52_50,78834表示26278个点,52表示exp,50表示shape。
人脸预测
Base Model Fit
本质就是预测shape参数和exp参数。采用多loss的训练方式:
- landmark loss( E l a n E_{lan} Elan)
- pixel-level consistency loss( E p i x e l E_{pixel} Epixel,用来描述合成图像对原始图像的表示性如何)
- shape,exp和alb的正则loss
Disp Map Predict
Disp Map是用pixel2pixelHD算法,直接由Base Model的UV图预测得到。
静态动态detail有些为了写论文瞎扯的嫌疑。
借鉴
- 不用深度学习、用优化库进行facemesh学习。
- bilinear model可能效果会好,但对数据要求很高。
- Disp Map细节还原更好,但看需求吧。