2021-10-16


facescape主要贡献:

  1. 使用先进的设备采集了一组多人、高质量、包含20个表情表情的视频数据集,可申请下载。多为亚洲人、覆盖了各个年龄段、 还有年龄性别工作等信息。
  2. 基于上面数据集提出了一组基准模型,可以高精度、可迁移的进行人脸重建。

数据集数据预处理的pipline

  上图是数据预处理的PipLine,第一列为图片、第二列为原始扫描数据、第三列将扫描数据表示为Base Model和Disp Map、第四列为利用第三列进行渲染后的结果。

数据配准

  Base Model是将原始扫描数据用一组固定点数表示,过程如下:

  1. 通过3D landmark约束进行粗配准。
  2. 利用nicp进行精配准。

  因为Base Model会损失部分信息,这时就用Disp Map来补气这部分丢失的信息,Disp Map中的数值为重建Base Model中每个点到对应原始扫描点的距离,过程为:

  1. 将Base Model中每个点投影到UV图上。
  2. 将UV图上的点投影到原始扫描数据上。
  3. 计算Base Model中点和对应原始扫描数据点的偏差,写入Disp Map。

基准模型生成

  这里没采用3DMM的shape和exp分离那一套逻辑,而是采用Bilinear Model。Bilinear Model可以链接到Facesfitting算法以提取facemesh,拟合的facemesh可以进一步转换为可装配的混合形状。 原始数据可表示为26317 vertices × 52 expressions × 938 identities的三维矩阵,利用Tucker decomposition生成一个通道压缩的矩阵 C r C_r Cr,两个低维矩阵(分别用来表示shape和exp),新shape可由以下公式生成:
V = C r × w e x p × w s h a p e V=C_r\times w_{exp}\times w_{shape} V=Cr×wexp×wshape

v1.6的 C r C_r Cr的维度为78834_52_50,78834表示26278个点,52表示exp,50表示shape。

人脸预测

Base Model Fit

本质就是预测shape参数和exp参数。采用多loss的训练方式:

  1. landmark loss( E l a n E_{lan} Elan
  2. pixel-level consistency loss( E p i x e l E_{pixel} Epixel,用来描述合成图像对原始图像的表示性如何)
  3. shape,exp和alb的正则loss

Disp Map Predict

Disp Map是用pixel2pixelHD算法,直接由Base Model的UV图预测得到。
静态动态detail有些为了写论文瞎扯的嫌疑。

借鉴

  1. 不用深度学习、用优化库进行facemesh学习。
  2. bilinear model可能效果会好,但对数据要求很高。
  3. Disp Map细节还原更好,但看需求吧。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值