Deep Learning Face Representation by Joint Identification-Verification

该文提出深度学习和人脸识别、验证信号结合用于特征学习,称为DeepID2。通过深度卷积网络学习,DeepID2能减小个体内部差异,增强个体间差异。在LFW数据集上,人脸验证精度达99.15%,显著优于其他深度学习方法。
摘要由CSDN通过智能技术生成

论文地址:https://arxiv.org/abs/1406.4773

摘要

  人脸识别的关键问题是如何发展有效的特征表示,以减少个体内部的差异,同时扩大个体间的差异。在本文中,我们证明了深度学习和使用人脸识别和验证信号作为监督可以很好地解决这个问题。深度身份验证特征(DeepID2)是通过精心设计的深度卷积网络学习到的。人脸识别任务通过分离从不同身份提取的DeepID2来增加不同人之间的差异,而人脸验证任务通过将从同一身份提取的DeepID2拉到一起来减少同一个人内部的差异,这两者对于人脸识别都是必不可少的。学习的DeepID2特征可以很好地推广到训练数据中未发现的新身份。在具有挑战性的LFW数据集[11]上,人脸验证精度达到99.15%。与LFW上的最佳深度学习结果[21]相比,错误率显著降低了67%。

1 引言

  当以不同的姿势、照明、表情、年龄和遮挡呈现时,相同身份的面孔看起来会有很大的不同。同一身份内的这种差异可能会大过因身份差异而产生的差异,使人脸识别具有挑战性,尤其是在不受约束的条件下。因此,在缩小个体内部差异的同时扩大个体之间的差异,是人脸识别中一个永恒的话题。它可以追溯到早期子空间人脸识别方法,如LDA[1]、贝叶斯人脸[17]、统一子空间[23、24]。例如,LDA通过使用两个线性子空间近似不同的人和同一个人的面部变化,并找到投影方向来最大化它们之间的比率。最近的一些研究也明确或含蓄地瞄准了同样的目标。
  在这项工作中,我们展示了深度学习提供了更强大的工具来处理这两种类型的变化。由于其深度架构和大的学习能力,人脸识别的有效特征可以通过分层非线性映射学习。我们认为,必须同时使用两种监控信号,即人脸识别和验证信号来学习这些特征,所学习到的特征称为深度识别-验证特征(Deep identification -verification features, DeepID2)。识别是将输入的图像分类成大量的身份类,而验证是将一对图像分类成是否属于同一身分(即二分类)。在训练阶段,给定一个带有识别信号的输入人脸图像,在学习的分层非线性特征表示的顶层隐藏层中提取其DeepID2特征,然后通过另一个函数g(DeepID2)映射到大量身份中的一个。在测试阶段,学习到的DeepID2特征可以推广到其他任务(如人脸验证)和训练数据中未出现的新身份。识别监督信号往往拉开不同身份的深度,因为他们必须被划分为不同的类别。因此,习得特征具有丰富的身份相关变化或不同人的变化。但是,由于不同的DeepID2可以通过函数g(·)映射到同一身份,因此识别信号对从同一身份提取的DeepID2的约束相对较弱。这导致了当DeepID2特征在测试中推广到新的任务和新的身份时,g不再适用。我们通过使用一个额外的人脸验证信号来解决这个问题,该信号要求从同一身份提取的每两个DeepID2向量都非常接近,而从不同身份提取的DeepID2向量则保持距离。DeepID2上的强元素约束可以有效地减少个人内部的变化。另一方面,单独使用验证信号(即一次只识别一对DeepID2)提取与身份相关的特征不如使用识别信号(即一次只识别一对DeepID2)有效。一次区分数千个身份)。因此,这两种监控信号在特征学习中侧重不同的方面,应该同时使用。
  为了从不同的方面来表征人脸,我们从不同区域和分辨率的人脸中提取互补的DeepID2特征,并将其拼接在一起,PCA降维后形成最终的特征表示。由于学习的DeepID2特征在不同的身份之间是不同的,而在相同的身份内是一致的,这使得下面的人脸识别更加容易。利用学习到的特征表示和最近提出的人脸验证模型[3],我们在具有挑战性和广泛研究的LFW数据集上人脸验证准确率最高达到99.15%[11]。这是第一次只有人脸区域的机器能够达到99.20%的准确率,将包括人脸区域和大背景区域在内的整个LFW人脸图像提供给人类进行验证。
  近年来,人们在深度学习人脸识别方面做了大量的工作[5,10,20,27,8,22,21]。在深度学习中,[5,20,8]利用验证信号学习特征或深度度量,[22,21]利用识别信号学习特征,LFW的准确率在97.45%左右。我们的方法大大提高了目前最先进的技术水平。将分类和验证任务联合解决的思想应用到一般的物体识别[16]中,重点提高固定对象类的分类精度,而不是隐藏特征表示。我们的工作目标是学习可以很好地推广到新的类(身份)和验证任务的特征,而身份在训练集中的分类精度对我们来说并不重要。

2 识别验证引导的深度特征学习

  我们通过深度卷积神经网络[13]的变化来学习特征。深度卷积网络的卷积和池化操作是为了分层提取视觉特征,从局部低层特征到全局高层特征而设计的。我们的深卷积网的结构与[21]相似。它包含四个卷积层,前三个后接最大池。为了学习不同数量的高级特征,我们不需要在更高的卷积层[10]中对整个feature map进行权值共享。具体地说,在我们的深度卷积网络的第三卷积层中,神经元的权重在每2×2个局部区域共享。在第四卷积层中,更恰当地称为局部连接层,权值在神经元之间完全不共享。卷积神经网络进行特征提取的层叠的最后一层提取出一个160维的DeepID2向量。要学习的DeepID2层与第三和第四卷积层完全连接。由于第四卷积层比第三卷积层提取更多的全局特征,DeepID2层将多尺度特征作为输入,形成了所谓的多尺度ConvNets[19]。对于卷积层和DeepID2层中的神经元,我们使用修正线性单元(ReLU)[18]。对于大型训练数据集[12],ReLU比sigmoid单元具有更好的拟合能力。当RGB输入尺寸为55×47时,用于提取DeepID2的ConvNet结构如图1所示。当输入区域的大小改变时,后面层的映射大小也会相应改变。将DeepID2提取过程记为 f = C o n v ( x , θ c ) f = Conv(x,θ_c) f=Conv(x,θc),其中Conv(·)为ConvNet定义的特征提取函数,x为输入的人脸patch, f为提取的DeepID2向量,θc代表ConvNet需要学习的参数。
在这里插入图片描述
  DeepID2特征是在两种监控信号下学习的。第一种是人脸识别信号,将每张人脸图像分成n个(如n = 8192个)不同的身份。识别是通过在DeepID2层后使用n路softmax层实现的,该层输出n个类的概率分布。通过最小化交叉熵损失来训练网络,我们称之为识别损失。写作:
I d e n t ( f , t , θ i d ) = − ∑ i = 1 n p i l o g ˆ p i = l o g ˆ p t , Ident(f,t,θ_{id})=-∑^n_{i=1} p_ilogˆp_i=logˆp_t , Ident(f,t,θid)=i=1npilo

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值