Joint Registration and Representation Learning for Unconstrained Face Identification

http://openaccess.thecvf.com/content_cvpr_2017/html/Hayat_Joint_Registration_and_CVPR_2017_paper.html

摘要

  最近在深度学习方面的进步已经使得在流行的非限制人脸数据集上的表现接近人类水平,这些数据集包括LFW和YouTube中的人脸。为了进一步推进研究,最近引入了IJB-A基准,这带来了更多的挑战,特别是在极端头部姿势的形式。这类人脸的配准要求很高,通常需要像人脸地标定位这样复杂的程序。在本文中,我们提出了一种基于卷积神经网络的数据驱动方法,该方法学习同时登记和表示人脸。在基于模板的无约束人脸识别中验证了该方法的有效性。这里,模板包含图像和视频帧形式的多种媒体。与现有的模板媒体信息在特征层次上综合的方法不同,我们提出保持模板媒体的完整性。相反,我们使用训练好的one-vs-rest判别模型来表示画廊模板,然后使用贝叶斯策略,在查询模板中最优地融合所有媒体的决策。我们在IJB-A、YouTube名人和COX数据集上展示了该方案的有效性,我们的方法分别实现了3.6%、21.6%和12.8%的相对性能提升。

1 引言

  人脸识别具有广泛的应用前景,在计算机视觉领域中得到了广泛的研究。人脸识别中的挑战与常见的面部数据的困扰有关,包括头部姿态旋转、光照变化和表情变形。在最初的日子里,面部数据是在受控环境中系统地捕获的,算法被开发出来单独处理[24]这些烦人的问题。在限制环境中,这些算法可以达到很好的性能,但在真实生活场景中效果并不好。为了推进无约束人脸识别的研究,分别于2007年和2011年发布了LFW[15]和YouTube Faces (YTF)[39]数据集。在发布时,现有的方法(使用受约束的数据开发)在LFW和YTF上表现不佳。从那时起,人脸识别研究的一个大焦点就集中在在LFW和YTF上取得优异性能的算法的发展上。随着深度学习的最新进展,目前最先进的算法[33,27]可以在这些数据集上达到人类水平的性能。然而,非限制的人脸识别很大程度上仍然被认为是未解决的[22]。这主要是因为LFW和YTF都有一个众所周知的正脸选择偏差。具体来说,这两个数据集中的人脸图像都是使用Viola和Jones[34]自动检测出来的,而这在非正面人脸检测中经常失败。因此,先进的YTF和LFW在存在大的头部旋转和极端头部姿态时表现不佳[22,6]。
  在这篇论文中,我们的目标是解决头部极端旋转的人脸识别。这类人脸图像的注册准是一项非常具有挑战性的任务,通常需要复杂的预处理步骤,如特征点定位和正面化。我们提出自动学习人脸图像注册和特征编码,作为端到端可训练卷积神经网络的一部分。提出的网络(第3节)有两个模块:一个是用于学习一组变换参数的配准模块,另一个是用于学习输入人脸图像有意义的特征编码表示的模块。该网络对2622名受试者[27]的260万张图像进行了训练。然后在IJB-A[22]、YouTube名人[20]和COX[16]数据集上对提出的方案进行评估,用于基于模板的人脸识别。IJB-A基准测试特别具有挑战性,它包含了跨越极端头部姿态和侧面视图的人脸图像和视频帧(见图4)。该方法在所有评估数据集上实现了显著的性能提升(第5节)。
  在验证和识别任务下研究了人脸识别问题。为了验证,我们计算给定probe脸的一对一相似度来验证其声称的身份。为了识别,probe的一对多相似性被计算,以便在已登记受试者的图库中找到它的最佳匹配。因此,与人脸验证相比,人脸识别更具挑战性。然而,在过去的几年里,非限制的人脸识别在很大程度上被忽视了。这主要是因为大部分研究是由LFW和YTF数据集驱动的,它们的评估协议仅用于验证。在本文中,我们研究了基于模板的无约束人脸识别。模板可以包含静态图像或视频帧形式的多媒体。根据模板进行人脸识别在许多商业系统中都很重要(比如FBI的通缉名单),在这些系统中,一个人的多个图像可以同时获得。尽管模板包含更多的信息,但同时也带来了有效利用这些信息的挑战。与现有的在特征层合并所有模板媒体的方法不同,我们建议保持其完整性。为了利用大量的信息,我们训练了gallery模板的one-vs-rest判别模型(第4.3节),并使用贝叶斯方法来优化给定查询模板的媒体分类决策(第4.4节)。

2 相关工作

  一个通用的人脸识别系统有三个主要部分:原始人脸图像的注册,已注册的人脸的特征编码,最后分类(验证或识别)。在现有的文献中,技术已经被开发来单独处理这三个部分中的每一个。针对注册 ,设计了2D和3D的人脸对准方法[27,33,1]。这些方法通常将检测到的人脸特征点自动扭曲到具有典型正面视图的人脸上。对于人脸特征的表示 ,描述符可以是人工设计的,也可以从大规模的人脸数据中自动学习。局部二进制模式[25]、方向梯度直方图[7]和Gabor小波[42]是设计特征的常用例子。最近大多数性能最好的人脸识别方法都使用了卷积神经网络(CNN)从大量训练数据中学习到的特征。例如DeepFace [33], VGG-Face [27], FaceNet[30]和DeepID[32]。DeepFace和vggg - face基于常见的CNN架构,而FaceNet和DeepID使用专门的inception架构。作为特征学习的最后一步,其中一些方法使用度量学习(如triplet loss embedding[29])来学习最优的任务特定特征嵌入(如使用LFW和YTF数据集进行人脸验证[33,27])。注册和特征编码完成后,最后进行分类。任何现成的分类器都可以用于验证或识别。与以往的工作不同,本文结合了注册和表示两个步骤。我们建议将它们作为单个网络的一部分来学习。这就避免了像特征点定位这样的预处理过程,这不仅在计算上非常昂贵,而且还会引入许多挑战,特别是在具有极端头部姿势的场景中(例如在IJB-A数据集中)。
  随着深度学习在图像分类中的应用[23,18,13],YTF和LFW数据集上的人脸识别性能已经达到人的水平[33,30,32,27],并开始达到饱和。为了进一步推进研究,最近引入了IJB-A数据集作为非限制人脸识别的基准。与现有的人脸数据集相比,IJB-A具有很大的挑战性,因为它包含了广泛的外观变化,特别是极端头部姿态和图像质量的变化(示例见图4)。在IJBA上表现最好的方法是从一个大型外部数据库中学习到的特征表示。例如在[4,29]中,CNN的特性结合了三元组损失的嵌入。Chen等人[3]结合CNN的特征使用联合Bayseian度量学习。利用[1]中三维位姿渲染生成的面部数据,训练5个特定姿态的CNN模型。[4]中使用了双线性CNN结构的特征。目前在IJB-A数据集上表现最好的方法[6]使用了结合学习特征[27]的模板适应策略。为了计算X、Y两个模板之间的相似性,训练了 X 、 Y X、Y XY两个二元分类器。分类器X是使用媒体X作为正类,大量负类媒体集。Y分类器训练以类似的方式使用媒体在Y作为正类。X与Y的相似度度为: 1 2 X ( y ) + 1 2 Y ( x ) {1\over2}X(y)+{1\over2}Y(x) 21X(y)+21Y(x),其中X(y)为模板Y的媒体编码(y)对分类器X的相似度。
  IJB-A评估协议用于基于模板的人脸识别,其中probe和gallery实例都用多个视觉项表示。在IJB-A数据集发布之前,基于图像集分类的人脸识别已经被积极研究[40,21,2,37,41,43,9,10,11,12]。与模板类似,图像集是多媒体(如拍照图像或视频帧)的无序集合。虽然基于模板(或图像集)的分类提供了大量可用数据的形式,但它同时带来了来自此类数据在质量和内容方面的不同性的建模挑战。文献中已经提出了许多方法来有效地建模这种信息。例如,在非线性流形几何上表示的模板(例如格拉斯曼流形上的点[38]或黎曼流形的李群[37])或通过媒体组合(例如平均池[8,26])。在本文中,我们建议不要用一个实体来表示所有的模板媒体,而是保持它的完整性。所提出的方案被证明是非常有效的(通过它在Sec.5中的优异性能证明了这一点) 因为它避免了模板中包含的任何潜在信息的丢失。

3 联合登记及代表

  人脸与正视图的配准对于后续的特征表示和分类步骤至关重要。虽然最近提出的数据驱动方法可以自动学习人脸(特征)表示,但它们需要使用特殊的工程技术来注册。例如, DeepFace[33]利用检测到的面部特征点将人脸扭曲成标准3D模型。在本文中,我们提出了将学习人脸配准与学习表示结合起来。为此,我们训练了一个卷积神经网络(CNN),它由两个相互关联的模块组成(图2)。首先,配准模块学习一组变换参数,从而对人脸图像进行最优配准。第二,学习注册人脸图像的特征编码的表示模块。所述两个模块与被输入到所述表示模块的注册模块的输出相连接。下面将描述这些模块。
在这里插入图片描述
图2:人面注册和表示联合。

3.1 Registration 模块

  人脸图像的配准通常包括裁剪最相关的人脸区域(背景最小),并对裁剪的区域进行变形操作,将其转换为标准的正面视图。这通常需要复杂的面部预处理程序(如特征点自动定位),这是相当具有挑战性的,特别是在头部姿势极端的情况下。在本文中,我们采用一种动态学习机制,自动估计一组最优参数,以适应输入的空间变换的人脸图像。我们的方法是以CNN为基础的,部署一个由三个部分组成的空间变换网络[17]:一个用于回归一组配准参数的定位网络。这些参数然后被一个网格生成器使用,它输出一个采样网格。最后,一个采样器将输入图像映射到生成的网格上。该定位网络的结构如图3所示。请注意,第一个池化层进行平均池化,而其余的执行最大池化操作。在所有层中使用2×2像素的池过滤器。每个参数层之后是修正线性单元(ReLU)层,除了最终的全连接层(FC),它回归了转换参数。
在这里插入图片描述
图3:注册模块中的定位网络。
  对于给定的输入图像,定位网络输出一组仿射变换的六个参数,用于生成采样网格。然后将输入图像的像素值采样到网格上。这将导致输入图像的仿射变换(裁剪、平移、旋转、缩放和倾斜)。然后,注册的面部图像将输入到后续特征表示模块中(下面描述)。

3.2 Representation模块

  为了学习人脸特征编码,我们采用VGG-16 [27]。它由8卷积层和3个全连接层组成,每个层后面是一个或多个非线性(ReLU,池化)。架构相对简单,VGG-16在YTF和LFW基准[27]上显示了优越的性能。然后,由Parkhi等人[27]使用公开可用的人脸数据集对完整的网络(包括两个模块)进行训练。该数据集拥有2622名受试者的260万张面部图像。为了进行训练,将检测到的人脸区域(与数据集一起提供)进行松散的裁剪。裁剪的图像包含正面区域,也可能有一些背景。在非正面和侧面视图中,背景区域的数量较多。因此,网络的registration模块只关注相关的人脸感兴趣区域,而忽略任何背景。随后的representation模块对输入的人脸图像进行识别和显著特征编码。为了更全面的训练,我们使用VGG-Face模型[27]初始化representation模块的参数。分别训练registration模块的参数来输出恒等变换参数。在学习了网络的参数后,我们将representation模块的第一全连接层的输出作为输入图像的特征编码。

4 基于模板的人脸识别

  模板是同一主题的一组图像或视频帧。在观察的历史记录随时可用的情况下,模板中的人脸识别是相关的,应该利用它来提高系统性能。它可以直接应用于许多真实世界的商业系统,其中一个科目的多重登记是同时可用的。例如,法医搜索场景中在逃罪犯的面部照片历史,国家数据库中的终身登记图像(护照、国家身份证和驾照),以及监视名单场景(如FBI通缉名单)中感兴趣的人的多个图像。虽然模板中的大量异构数据可用于提高人脸识别性能,但同时也带来了许多建模挑战,以有效地利用这些信息。为了利用这些信息,我们建议为图库中的每个注册对象学习一个判别模型,然后为probe模板部署一个分数级融合策略。下面将给出详细信息。

4.1 问题描述

  对于基于模板的人脸识别,gallery中包含N个模板 T 1 , T 1 , T 1 , … T N {T_1,T_1,T_1,…T_N} T1,T1,T1TN对应N个登记受试者。每个模板 T i = x 1 , x 2 , … x M T_i={x_1,x_2,…x_M} Ti=x1,x2xM有M个媒体(媒体是一幅图像或视频帧)。注意,每个登记受试者的M都可以不同。在测试时,我们得到一个查询模板 T q T_q Tq,我们的任务是找到它在已登记的gallery模板中的最佳匹配,或者确定Tq是否登记在gallery中。

4.2 模板媒体表示

  给一个模板 T i = x m : m = 1 ⋅ ⋅ ⋅ M T_i={x_m}:m=1···M Ti=xmm=1M,我们通过把 x m x_m xm喂入训练好的卷积神经网络模型进行前馈来编码每个媒体 x m x_m xm(如第3节)。第一个全连接的输出表示模块的连接层被认为是模板媒体的特征编码。对于多个模板媒体编码,文献中提出了不同的策略来有效地建模它们。他们中的大多数为所有模板媒体找到了一个合适的单一实体表示。例如,模板中的所有图像和视频帧都可以用几何表面上的点表示,例如,格拉斯曼流形[36],或黎曼流形[37]的李氏群。模板介质也可以通过取所有介质编码的平均值来表示[26,8]。
  在本文中,我们提出保持媒体编码的完整性,而不是为异构模板数据寻找单一的实体表示。这有助于避免模板中包含的任何潜在信息的丢失。为了优化使用图库模板中包含的大量数据,我们提出为gallery中每个受试者学习一个个人特定模型(详情见4.3节)。为了在分类时最佳地使用probe模板数据,我们采用了一种融合策略(详情见4.4节)。在我们的实验评估中(第5.2节),我们表明保持模板介质编码完整是非常有效的,并能显著提高性能。

4.3 与用户相关的辨别模型

  对于gallery中的每一个注册对象,我们都学习了一个判别模型。为此,我们训练了一个简单的one-vs-rest二值支持向量机分类器。具体来说,为了学习一个人的模型参数,我们将该人的所有模板媒体的特征编码视为正类,而将其他人的编码视为负类。然后训练一个二元支持向量机来学习两类的最优判别的超平面。
在这里插入图片描述
其中 ℓ t = { 1 , − 1 } ℓ_t=\{1,-1\} t={1,1}。按照这个过程,我们得到一套模型参数 { w i } : i = 1 … N \{w_i\}:i=1…N {wi}i=1N。N是gallery中的受测对象数。

4.4 查询模板分类

  
对不起 我不想看了

6 总结

基于模板的人脸识别适用于许多现实世界中同时可用的人脸图像的应用,如安全和监视系统、观察列表场景和访问控制系统。我们提出了一个简单而有效的策略来处理大量的模板媒体信息。与现有的方法不同,我们使用贝叶斯方法在决策层融合这些信息。对于具有极端头部姿态的无约束人脸数据的配准,我们提出了一种数据驱动方法,在单一卷积神经网络中与表示共同学习配准。在挑战无约束的人脸识别基准时,所提方案的有效性得到了证明。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值