Learning Pose-Aware Models for Pose-Invariant Face Recognition in the Wild

摘要

  我们提出了一种方法,旨在推动边界的无约束的人脸识别在野外,以极端平面外姿态变化的重点。现有的方法要么期望单个模型通过对大量数据的训练来学习姿态不变性,要么期望通过将人脸对准一个正面姿态来对图像进行归一化。与此相反,我们的方法被设计来明确处理姿态变化。我们提出的姿态感知模型(PAM)使用几个特定于姿态的深度卷积神经网络(CNN)处理人脸图像。3D渲染用于从输入图像中合成多个面部姿态,既训练这些模型,又为测试时的姿态变化提供额外的鲁棒性。本文对IARPA Janus基准测试A (IJB-A)进行了广泛的分析,评估了地标检测精度、CNN层选择和位姿模型选择对识别管道性能的影响。它进一步提供了对IJB-A和PIPA数据集的比较评价。这些测试表明,我们的方法优于现有的方法,甚至惊人地匹配了专门针对目标数据集进行微调的方法的准确性。这项工作的部分内容已经出现在[1]和[2]中。

1 引言

  近年来,人脸识别技术有了突飞猛进的发展,一些技术声称达到了[3]甚至超过了[4]、[5]的人脸验证性能。这尤其反映在LFW基准[6]的特定条件下报告的饱和结果中。
  认识到在现实世界条件下,当前的人脸验证系统仍然存在不足,最近在[8]中提出了一个新的基准:IARPA Janus benchmark a(IJB-a)。IJB-A的设计目的是鼓励人们在无约束人脸识别的新方面开展工作。其中一个方面是,与之前的基准(最显著的是LFW)相比,强调了更广泛的面部姿势。因此,IJB-A代表了更具挑战性的观看条件,并为面部识别系统提供了一个更高的门槛。
  IJB-A面部姿势的更广泛范围如图1所示。它显示了面部偏航角的分布(头部的平面偏航旋转之外),比较了LFW和更新的、更大的CASIA Web面部集合[7]与IJB-A中的面部。显然,IJB-A图像包含的头部姿势比之前的两组更广泛。IJB-A分布极端边缘的两个凸起进一步表明,在设计它时,特别强调注入大量的剖面图和近剖面图。
在这里插入图片描述
图1.LFW[6]和CASIA WebFaces[7]中头部偏航角的分布(后者用于训练我们的系统),与我们的系统测试的新IJB-A基准相比[8]。这些显示了IJB-A中更广泛的姿势和更多的近剖面图。
  这些极端姿态的一个含义如图2所示,它提供了从LFW和IJB-A中可用的偏航角范围中选择的示例面。每个示例都附有其正面(对齐、正面)视图。这些例子强调了将此类近侧面图与正面位置对齐的挑战,例如[9]。该图显示,在处理近侧面图中的图像时,单一的正面参考坐标系是不够的;将纵断面面渲染到纵断面参考视图中会引入更少的伪影,并更好地保留面部外观。
在这里插入图片描述
图2.在LFW和IJB-A基准中从可用的偏航角度范围中选择面。从左到右偏航角度增加显示的面孔。每个面都显示其正面视图,在IJBA中,也显示近侧对齐视图。(a)在LFW图像中,frontalization通常是补偿姿态变化的一种手段。(b)如果在[9]、[12]之后进行,极端姿态的IJB-A面孔的正面化会带来严重的伪影。这些问题可以通过将图像对齐到近轮廓视图来解决。

  除了强调姿势外,IJB-A还引入了集对集匹配的概念,即集合由异构媒体组成,而不是像LFW基准那样匹配两个单一图像,或者像YouTube Faces(YTF)基准测试[10]那样,IJB-A匹配两个混合媒体类型的集合。每一组包含来自多个来源的图像和视频。这种特定的集合匹配案例也被设计用来反映真实世界中的人脸验证设置,在这种情况下,可以收集来自多个来源的视觉信息并用于表示受试者的外观。由于集合可以包含一个物体在多个姿态上的图像,因此考虑如何处理集合到集合的匹配以及姿势变化如何参与匹配过程变得非常重要。
  因为大部分现有的人脸识别工作主要是在LFW上开发和测试的,所以对极端姿势的关注从来都不是真正必要的。据我们所知,也正如其他[11]的人所注意到的,极端的姿势在之前的作品中从未直接提到过。因此,我们的工作旨在解决广泛的姿态变化和大量的近侧视图。
贡献: 本文提供了以下贡献。
(i)面向人脸识别的姿势感知模型:我们提出了一种明确考虑和处理姿势变化的人脸识别方法,包括极端、侧剖面图中的人脸。我们的方法训练了多个特定于姿势的模型,并有效地利用了这些模型来匹配不同姿势的人脸。以前的大多数方法只依赖于单个的正面姿态模型[13],[14],可能通过正面化对图像进行标准化[3],[9]。我们展示了为什么这些方法不能应用于更广泛的姿势变化。与这些方法相反,我们建议通过学习PoseAware模型(PAMs)来处理姿势的变化,包括正面姿势、半侧面姿势和全轮廓姿势。与[15]、[16]相似,PAMs还允许我们克服姿势缺陷训练集的一个主要限制,从而得到更好的训练系统。
(ii)平面外人脸对齐的多个理想坐标:我们将frontalization扩展到多个姿势,以减轻在极端姿势下对人脸进行frontalization时产生的严重伪影(图2中也有演示)。我们描述了一个完整的人脸识别流程,为了在执行姿势感知的人脸识别时利用这些多姿态模型。
(iii)协同训练:我们开发了一种有效训练深卷积神经网络(CNN)位姿感知模型的方法。协同训练的目的是解决训练CNN模型的问题,在极端姿势中,可供训练的示例脸相对较少(参见图1b)。为了澄清,我们将我们的贡献与最近的贡献区分开来:[17]的工作使用多任务学习,以及[18]的多视角感知(MVP)。这两种方法都训练深层网络在视图之间进行插值,而我们的PAM使用渲染技术来生成合成的新视图。
  我们的PAM模型经过了严格的测试,并在IJB-A基准测试中分析了它的各个组成部分及其对识别性能的影响。我们进一步将PAM与IJB-A和PIPA[19]基准的现有替代方案进行比较。值得注意的是,PAM在PIPA上的表现要优于DeepFace[3]和[20],尽管PAM的训练数据要少得多,而且没有针对这一集合进行定制。最后,为了便于我们作品的复制,我们公开了PAM-CNN模型

2 相关工作

  长期以来,研究者们都承认,当人们以极其不同的姿势呈现人脸图像时,人脸匹配技术会遇到困难[21]、[22]、[23]、[24]。为了解决这些问题,早期的研究建议针对不同的姿势训练人脸分类器,例如[25]将基本特征脸方法扩展到多个姿势。处理多个姿势的后续方法主要考虑在受控条件下获得的面部图像,例如在Multi-PIE数据集中可用的那些图像[26]
  基于CNNs的人脸识别。最近一个非常流行的方法是通过训练cnn来处理面部姿势的变化。这些方法的目的是获得单姿态不变的表示。FaceNet[5]表明,通过一个训练在2.6亿张图像上的端到端学习系统,可以学习到一个紧凑的人脸嵌入。虽然DeepID[27]使用了CNN表示的集合,但是这些表示是在不同的面部patch上训练的,而不是不同的姿势,目的是在patch级别学习姿势不变性。与他们的联合Bayesian度量一起,他们在LFW基准测试中显示了显著的性能。他们的工作后来在[28]中得到了扩展,展示了CNN如何学习隐含地编码诸如性别等属性信息的稀疏特征。最后,为了训练CNN在[7]、[29]、[30]中的表现,我们努力制作出更加丰富多样的数据。
  之前的一些工作试图通过执行多任务学习[17]或使用多视图感知器[18]来让网络分离身份和视角。这些后一种方法的缺点是,它们只对Multi-PIE数据集中的受限图像进行训练,其中的姿态是手动控制的。因此,这些方法没有在无约束的基准测试(如IJB-A)上进行测试。
  与此相反,Wang et al.[13]最近的工作使用CNNs在8000万的图像库和IJB-A基准上显示了准确的人脸识别。Chen等人[14]、[31]在IJB-A上展示了引人注目的结果,他们使用了一个CNN在正面视图上从零开始训练,并对其进行微调以学习目标数据集上的有效度量。
  最后,最近的研究使用3D渲染技术,通过合成新的姿势、表情和使用不同的3D通用形状来扩充训练集[15];其他人改进了[32]中的方法,用新的3D视图和照明变化抖动VGFace集合[30]。与我们的方法相反,他们使用三维渲染来大规模扩充训练集,并在扩充集上学习单一的CNN。
  使用3D模型来处理面部姿势。三维计算机图形学可以用来模拟不同姿势的脸的外观。在[33]中,使用了三维平均人脸模型,而不是依赖于早期工作中的三维圆柱形或椭球体模型。Prabhu等人[34]提出了一种使用通用弹性模型(GEM)从单个正面图像估计3D模型的有效方法。通过考虑不同种族群体的深度平均值[35],进一步改进了该方法。他们的工作值得注意,因为这是第一个使用渲染技术来匹配正面和侧面图像的方法之一。三维数据特别用于匹配无约束二维人脸的渲染图像,说明了[36]中的小姿态变化。其他人后来提出了旋转脸部以获得不同训练姿势的想法[37]。
  近年来,一些研究者提出通过在一个典型的正面视图中合成一个新的人脸视图来规范化面部姿势。[38]的工作是第一个报告通过将侧面人脸呈现到正面视图来提高人脸识别性能的。另一些人则提出了不同的方法来实现同样的frontalization(例如[3]、[9]、[39]、[40]、[41]、[42])。[3]的DeepFace在[12]中提出的一种三维人脸形状估计方法应用于无约束人脸图像。然后,这些3D估计值被用于他们的CNN系统的训练集的前沿化。
  最近,与我们的工作特别相关的是[9]的frontalization。它提出使用一个单一的通用三维脸型,不修改,以简化这个frontalization过程,提高结果。我们在这里使用类似的单一泛型方法,不过我们将其扩展到多个姿势,并在一个完全不同的识别流程中应用它。
  最后,Zhu等人[43]没有使用显式的3D模型,而是使用CNN直接将近正面恢复到正面视图,并将其作为另一种对齐技术。

3 我们的方法概述

  给定图像I,我们将面部姿势分布定义为 p ( p ∣ I ) p(p|I) p(pI),其中p是头部三个3D旋转角度的向量。在这项工作中,我们不假设这种分布是主要由近正面脸构成的。相反,我们建议学习多姿态特定的CNN模型。我们的面部匹配流程的概述如图3所示。给定两个被试,每个被试由一组包含多个图像和视频的集合表示,我们首先检测所有图像和视频帧上的面部标志点。这些特征点用于将每个图像与五个不同的参考姿势对齐(见第4节)。姿态感知的CNN模型,在CASIA WebFace数据集[7]的500k图像上训练,并在第5节中描述,用于提取每个姿势下图像的特征。这些特征在两组中是匹配的。我们开发了两种不同的匹配这些特征的方法,并在第6.2节中进行了描述。我们在第7节中提供了实验结果。
在这里插入图片描述
图3.给定要匹配的两组人脸图像和视频,采用位姿分类,选择相应的姿态感知CNN模型进行处理。对于多幅图像,每个模型分别提取特征并在设定的层次上进行匹配。最后,每个模型的贡献被合并成一个单一的最终分数。注意我们的方法是如何使用3D渲染来调整姿态为正面(0度),半侧面(40度)和全侧面(75度)。

4 多比对

  检测到的面部标志点提供了一种简单的方法,通过使用基本的平面内对齐,可以在面部靠近正面时补偿面部侧倾,以及面部靠近侧脸时补偿俯仰。因此,我们通过假设 p ( p ∣ I ) ≈ p ( φ ∣ I ) p(p|I)≈p(φ|I) p(pI)p(φI),其中φ代表面部偏航角,集中精力补偿偏航变化。我们还注意到,[3]、[9]使用frontalization来补偿平面外变化可能是一个噪声过程,随着输入面旋转到更靠近剖面图的位置,该过程变得更加困难(参见图2)。因此,我们提出了一种将frontalization的概念扩展到姿态分布的多种模式的方法。
  最后,我们没有选择单一的人脸对齐方法,而是融合了多个面对齐流程的结果。这样做是为了防止特征点定位中的错误产生错位或损坏的面。当使用平面外对齐方法(例如,当未正确检测到特征点时,会将面投影到输出视图之外)时,这是一个特别值得关注的问题。在这种情况下,平面内对齐(例如,使用简单的相似性变换)是一种更稳健的变换,需要较少的检测锚定点。

4.1 扩展训练集位姿分布

  学习多姿态感知模型的一个关键挑战是,用于训练对每个姿势的有效cnn的可用数据有限,尤其是在开发一个用于处理极端视图中的人脸的系统时,例如IJB-A基准中的系统。在我们的工作中,我们使用CASIA WebFace集合作为训练集。虽然它远大于LFW,但它仍然强烈偏向于正面姿势,并且包含的近侧轮廓图像数量非常有限(见图1)
  与依赖于多任务学习[17]或[18]并用单个网络对身份和视角进行建模的方法不同,我们独立地处理每种类型的对齐和数据。也就是说,我们学习每种对齐类型(平面内和平面外)和姿势分布的每种模式的特定模型。除了允许在不同视图中对外观进行更好的建模之外,这种方法的一个关键优势是它允许网络协同训练,从而提高所学特征的可迁移性(更多关于协同训练的内容,请参阅第5.2节)。我们发现这对于推广到其他数据集特别重要。然而,这种方法假设有足够的例子来训练每个模型,而CASIA的情况并非如此。
  为了解决这个问题,我们在CASIA训练集中自动拉伸面部姿势的分布,以产生涵盖从正面到整个侧面的例子。为此,我们开始将CASIA偏航角的范围划分为子集。每个子集中的脸会被人为地映射到极端姿势。
  具体地说,给定2维特征点,将其转换为齐次坐标 l ∈ R 3 × ∣ J ∣ l∈R^{3×|J|} lR3×J和J一组特征点索引,我们以类似于[12]的方式计算3D姿势,方法是考虑相同面部标志J在通用3D面部形状M的表面上的位置,用齐次坐标表示它们为: L = M ( J ) ∈ R 4 × ∣ J ∣ L=M(J)∈R^{4×|J|} L=M(J)R4×J。固定的三维通用形状M取自一组混合形状[44],选择一个中性表达式。然后我们可以估计一个透视相机模型,将3D人脸M上的点L映射到图像上,如
在这里插入图片描述
其中
在这里插入图片描述
  尽管最近的深度方法在3D人脸对齐[45]和[46]中显示出了更高的精度,但我们使用受限的局部神经场(CLNF)[47]来检测68个面部特征点。然后在PnP方法[48]中使用这些参数来估计相机的外部参数,假设主点在图像中心,通过最小化特征点重投影误差来修正焦距。
  从p中提取代表模型M相对于图像的三维旋转参数的旋转矩阵 R ∈ R 3 × 3 R∈R^{3×3} RR3×3。通过分解R,我们得到了在通用三维模型的坐标系中,整个数据集的面部偏航值φ。为了估计训练姿势分布 p ( φ ∣ I ) p(φ|I) p(φI),我们累加了所有 { φ i } i = 1 N \{φ_i\}^N_{i=1}

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值