(TP-GAN)Beyond Face Rotation: Global and Local Perception GAN for Photorealistic and Identity

https://arxiv.org/abs/1704.04086

摘要

由单一人脸图像合成逼真的正面视图在人脸识别领域有着广泛的应用。尽管数据驱动的深度学习方法已经被提出,通过从大量的面部数据中寻找解决方案来解决这个问题,但这个问题仍然具有挑战性,因为它本质上是不适定的。本文提出了一种能同时感知全局结构和局部细节的Two-Pathway生成对抗网络(TP-GAN),用于真实感正面视图的合成。除了常用的全局编码解码网络外,还提出了四种特征点定位patch网络。除了新颖的结构外,我们通过引入对抗损失、对称损失和同一性保留损失的组合,很好地约束了这个不适定问题。综合损失函数利用正面面孔分布和预先训练的鉴别deep face 模型来指导从侧面的正面视图的身份保持推断。与以往的深度学习方法主要依靠中间特征进行识别不同,我们的方法直接利用合成的身份保持图像进行人脸识别和属性估计等下游任务。实验结果表明,该方法不仅能获得引人注目的感知结果,而且在大姿态人脸识别中也能取得较好的识别效果。

1 引言

  得益于深度学习方法的快速发展和大量带注释的人脸图像的易于获取,无约束人脸识别技术[31,32]近年来取得了显著进展。虽然在一些基准数据集[28]上已经实现了超越人类的性能,但是姿态变化仍然是许多实际应用场景的瓶颈。现有的处理姿态变化的方法可以分为两类。一类尝试采用手工制作或学习的姿态不变特征[4,28],另一类则利用合成技术从一个较大的姿态人脸图像中恢复正面视图图像,然后使用恢复的人脸图像进行人脸识别[45,46]。
  对于第一类,传统方法通常使用鲁棒的局部描述符,如Gabor[5]、Haar[35]和LBP[2]来考虑局部失真,然后采用度量学习[4,36]技术来实现位姿不变性。相比之下,深度学习方法通常使用池化操作来处理位置方差,并使用三元组损失[28]或对比损失[31]来确保对非常大的类内变化的不变性。但是,由于不变性和可判别性之间的权衡,这些方法不能有效地处理大的位姿情况。
  对于第二类,早期的正面视图合成通常利用3D几何变换来渲染正面视图,方法是将2D图像与总视图[12]或特定身份的3D模型对齐[32,44]。这些方法对小姿态人脸的归一化效果较好,但在大姿态人脸下,由于严重的纹理丢失,其归一化效果会下降。最近,基于深度学习的方法被提出,以一种数据驱动的方式恢复正脸。例如,Zhu等人[46]提出,在学习估计正面视图时,可以解开身份和姿态表示的纠缠。尽管他们的结果令人鼓舞,但合成的图像有时缺乏细节,在较大的姿态下往往会变得模糊,因此他们只使用中间特征进行人脸识别。合成的图像还不能很好地完成其他的面部分析任务,比如法医取证和属性估计。
  此外,从优化的角度来看,从未完全观察的剖面恢复正面视图是一个病态或未定义的问题,如果不考虑先验知识或约束,该问题会有多个解。因此,恢复结果的质量严重依赖于训练过程中利用的先验或约束条件。以往的工作[17,41,45,46]通常采用两两监督,在训练过程中很少引入约束,结果往往比较模糊。
  当人们尝试进行视图合成时,我们首先根据我们的先验知识和观察到的剖面来推断一个正面的全局结构(或草图)。然后我们的注意力转移到局部区域,在那里所有的面部细节将被填写。受到这个过程的启发,我们提出了一个有两条路径的深层结构(TP-GAN)用于正面视图合成。这两种路径分别侧重于全局结构的推断和局部纹理的变换。然后将它们对应的特征映射融合在一起,进一步生成最终的合成。我们还通过将正面分布的先验知识与生成对抗网络(GAN)[9]结合,使恢复过程得到很好的约束。GAN在建模二维数据分布方面的突出能力显著提高了许多不适定的低层次视觉问题,如超分辨率[19]和图像修复[24]。特别地,从人脸的对称结构中得到启发,提出了一种对称损失来填充被遮挡部分。此外,为了忠实地保留个体最突出的面部结构,我们在压缩特征空间中除了像素的L1损失外,还采用了感知损失[16]。融合身份保持损失对于一个可靠的合成是至关重要的,并且极大地提高了它在人脸分析任务中的应用潜力。我们在图1的上半部分(每个元组的左侧)显示了由TP-GAN生成的一些样本。
在这里插入图片描述
图1.由TP-GAN合成的正面视图。上半部为90°剖面图像(中部)及其对应的合成和真实地面正面。我们邀请读者来猜测哪一边是我们的合成结果(答案请参考第1节)。下半部分显示从90°,75°和45°分别生成的正面
  我们工作的主要贡献有三方面:1)我们提出了一种用于从单一图像合成正面视图的类人的全局和局部感知GAN结构,该结构可以在非常大的姿态下合成逼真的和身份保持的正面视图图像。2)结合来自数据分布的先验知识(对抗式训练)和人脸的领域知识(对称和身份保留损失),精确恢复三维物体投射到二维图像空间中固有的丢失信息。3)我们证明了“通过生成识别”框架的可能性,并在大姿态下优于最新的识别结果。虽然已经有一些深度学习的方法被提出用于人脸合成,但我们的方法是第一次尝试有效的合成人脸识别任务。

2 相关工作

2.1 正面人脸合成

  正面视图合成,或称为人脸归一化,由于其病态的性质是一个具有挑战性的任务。传统的方法要么通过2D/3D局部纹理扭曲来解决这个问题[12,44],要么通过统计建模[27]来解决。例如,Hassner等人[12]使用了一个平均3D模型进行面部归一化。在带约束的低秩最小化模型的[27]中,提出了一种联合前视图合成和特征点定位方法。最近,研究人员将卷积神经网络(CNN)用于联合表示学习和视图合成[17,41,45、46]。具体来说,Yim等人[41]提出了一种多任务CNN预测身份保持旋转的图像。Zhu等人[45,46]开发了新的架构和学习目标,以在估计正面视图时分离身份和姿态表示。Reed等[25]提出使用玻尔兹曼机对变化因素建模,通过位姿流形遍历生成旋转图像。虽然将合成的图像直接用于人脸分析任务更为方便,但以往的人脸识别方法主要是利用中间特征进行人脸识别。

2.2 对抗生成网络(GAN)

  GAN[9]作为深度生成模型研究中最显著的改进之一[18,26],受到了深度学习和计算机视觉社会的广泛关注。min-max双方博弈提供了一种简单而强大的方法来估计目标分布和生成新的图像样本[6]。利用其分布建模能力,GAN可以使得生成的图像向真实图像流形移动,从而生成具有合理高频细节的真实感图像。近年来,改进的GAN体系结构,特别是条件GAN[21]已经成功地应用于图像修复[24]、超分辨率[19]、风格转换[20]、人脸属性操作[29]甚至数据增强等视觉任务,以提高分类模型的性能[30,43]。GAN的这些成功应用促使我们开发基于GAN的正脸合成方法。

3.方法

  正面视图合成的目的是从不同姿态下的人脸图像,如侧面图像 I P I^P IP中恢复出逼真且保持身份的正面视图图像 I F I^F IF。要训练这样的网络,需要在训练阶段从多个身份y中获得对应的 { I F , I P } \{I^F, I^P\} { IF,IP}对。输入 I P I^P IP和输出 I F I^F IF都来自尺寸为 W × H × C W×H×C W×H×C的像素空间,其中C是彩色通道。
  我们的目标是学习一个综合函数,它可以从任何给定的侧面图像中推断出相应的正面视图。具体地说,我们用双通道CNN G θ G G_{θ_G} GθG的综合函数建模,它是由参数 θ G θ_G θG表示。每个路径包含一个编码器和一个解码器,表示为 { G θ E g , G θ D g } \{G_{θ^g_E},G_{θ^g_D}\} { GθEg,GθDg} { G θ E l , G θ D l } \{G_{θ^l_E},G_{θ^l_D}\} { GθEl,GθDl}, 其中,g和l分别代表全局结构路径和局部纹理路径。在全局路径中,

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值