使用图卷积网络从野外图像实现高保真3D人脸重建

英文论文:Towards High-Fidelity 3D Face Reconstruction from In-the-Wild Images Using Graph Convolutional Networks
论文链接:https://arxiv.org/abs/2003.05653
摘要:
基于三维变形模型(3DMM)的人脸复原方法已取得了很大的成功。然而,这些方法恢复的人脸纹理的保真度低于输入图像。最近的研究表明,可以使用生成网络进行高质量的面部纹理恢复,生成网络是从一个大规模的高分辨率面部纹理UV图数据库中训练出来的,生成网络很难准备,也不能公开获得。在本文中,我们介绍了一种方法,以高保真纹理重建三维面部形状从单视图的野外图像,而不需要捕获大规模的人脸纹理数据库。主要的想法是细化最初的纹理由一个基于3DMM的方法产生的面部细节从输入的图像。为此,我们提出使用图卷积网络重建网格顶点的详细颜色,而不是重建对应作者的UV地图。实验表明,我们的方法可以产生高质量的结果,并在定性和定量的比较优于先进的方法。
现有方法存在的问题:
1)从3DMM计算出的纹理无法捕获输入图像的面部细节,尤其是对于野外图像。
2)针对上诉问题,虽然最近有一些工作试图从2D图像中重建高质量的纹理,但他们的方法需要一个大规模的高分辨率UV地图数据库,而这是无法公开获得的。此外,捕获这样的数据库相当费力,对于普通用户来说是不可行的。
文章的创新点:
1)提出了一个由粗到细的框架,用于从单一图像重建具有高保真纹理的三维人脸,而不需要捕获大规模的高分辨率人脸纹理数据。
2)用图卷积网络来生成高保真人脸纹理的人,它能够从图像中为网格顶点生成详细的颜色。
fig2 我们方法的总体由粗到细的框架。黄色的方块是预先训练好的,灰色的方块是不可训练的,蓝色的方块是可以训练的。回归器对输入图像I中的3DMM系数、人脸姿态和光照参数进行回归,其中使用3DMM系数通过PCA模型计算人脸形状S(坐标,如x, y, z)和粗糙纹理T(反照率,如r, g, b)。利用FaceNet从i中提取一个嵌入的人脸,然后将粗纹理和嵌入的人脸分别输入GCN细化器和GCN解码器。两个GCNs的输出沿通道轴连接(捐赠as)并送入联合网,联合网产生精细纹理T0。鉴别器尝试通过对抗性训练来提高纹理细化模块的输出
提出了一种从粗到精的3D人脸重建方法。 如图2所示,我们的框架由三个模块组成:
1)特征提取模块。特征提取模块包括一个用于回归3DMM系数,面部姿势和照明参数的回归器,以及一个FaceNet [32],用于提取图像特征以进行后续的细节优化和身份保留。
具体做法:
第一步是使用CNN从输入图像中回归3DMM系数和渲染参数。
第二步:利用预先训练好的FaceNet[32]从人脸图像中提取一个特征向量。提取的特征有两个用途。首先,它可以作为图像特征的嵌入,用于我们的解码器,以生成网格顶点的详细反照率颜色,这在第3.3节中描述。第二,在3.4秒的身份保留损失中,可以用来测量身份距离。
第三步:利用从回归器生成的形状S,纹理T和姿势,我们可以计算投影在输入图像上的面部反照率。 由于投影的面部反照率不是最终结果,因此我们用估计的光照进一步照亮了面部网格,并将其渲染以获得最终图像R,将其与输入图像进行比较以计算损失。 照明和渲染的示例如图3所示。
在这里插入图片描述
fig3.从左到右:输入图像,只有反照率的渲染图像,和有光照纹理的渲染图像。
2)纹理优化模块。纹理优化模块由三个图形卷积网络组成:用于解码从FaceNet提取的特征并为网格顶点生成详细颜色的GCN解码器,用于优化从回归器生成的顶点颜色的GCN精化器,以及将两种颜色组合在一起的组合器 产生最终的顶点颜色。

  1. 解码器以FaceNet的特征向量作为输入,并为每个顶点生成反照率RGB值。译码器的结构是按照残差网络的思想建立的,残差网络由四个频谱残差块组成;
  2. GCN精化器使用光谱卷积层来精细3DMM模型的顶点颜色。它还包含光谱残差块类似于解码器。但在网络的底部和顶部分别部署了一个下采样层和一个上采样层;
  3. 组合网络将沿着通道轴将解码器和细化器的输出连接起来,并将它们送入一个图形卷积层;
  4. 最后采用可区分的渲染器来监督我们的纹理细化模块的训练,具体来说,我们用光照将3D人脸网格渲染到R0,并将其与输入图像进行比较。
    3)鉴别器。鉴别器试图通过对抗训练来改善纹理细化模块的输出,被部署在输入的2D图像和重建的3D人脸网格的渲染图像上。
    损失函数:
    采用了四个损失函数:像素损失(pix-wise-loss),身份损失(Identity-Preserving Loss),Vertex-wise Loss,对抗损失(Adversarial loss)
    实验细节:
    在训练之前,每个人脸图像都按照[8]方法进行对齐。然后使用在Halen数据集[21]上预先训练的[33]网络进行人脸分割,为每张人脸图像生成一个人脸区域掩模。
    实验结果:
    在这里插入图片描述
    评价标准:L1距离,峰值信噪比(PSNR)和结构相似性指数(SSIM)
    在这里插入图片描述
  • 0
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值