L2-constrained Softmax Loss for Discriminative Face Verification

https://arxiv.org/abs/1703.09507

摘要

  近年来,利用深度卷积神经网络(DCNNs),人脸验证系统的性能得到了显著改善。一个典型的人脸验证流程包括:使用softmax loss训练一个用于目标分类的深度网络,使用倒数第二层输出作为特征描述子,对一组人脸图像生成余弦相似度评分。softmax loss函数没有优化特征,使正对相似度更高,负对相似度更低,这导致性能差异。在本文中,我们对特征描述符增加了一个L2约束,限制它们位于一个固定半径的超球面上。这个模块可以使用现有的深度学习框架轻松实现。我们表明,将这一简单的步骤集成到训练过程中可以显著提高人脸验证的性能。具体来说,我们实现了IJB-A数据集上最先进的性能,人脸验证协议的真接受率为0.909,假接受率为0.0001。此外,我们在LFW数据集上的性能达到了最先进的水平,准确率为99.78%,在YTF数据集上的性能与96.08%的精度相当。

1 引言

  无约束条件下的人脸验证是一个具有挑战性的问题。尽管最近的人脸验证系统在野外标记人脸(LFW)[14]等经过整理的数据集上有出色的性能,但在视点、分辨率、遮挡和图像质量等极端变化的人脸上仍然很难达到类似的精度。从传统算法在公开可用的IJB-A[16]数据集上的性能可以明显看出这一点。训练中数据质量的不平衡是直接导致表现差距的原因之一。现有的人脸识别训练数据集中包含了大量的高质量和正面的人脸,很少出现无约束和困难的人脸。大多数使用softmax loss训练的基于dcnn的分类方法容易对高质量数据过度拟合,无法对困难条件下获得的人脸进行正确分类。
  使用softmax loss函数进行训练人脸验证系统有其自身的优缺点,一方面,可以很容易地使用Caffe[15]、Torch[7]、TensorFlow[1]等公开的深度学习工具箱的内置功能实现。与 triplet loss[28]不同,它对输入批大小没有任何限制,并且收敛速度很快。在不进行任何度量学习的情况下,学习到的特征具有足够的识别能力,可以有效地进行人脸验证。
  另一方面,最大损失与样本分布有偏倚。不像contrastive loss [29]和triplet loss[28],它们特别关注硬样本,softmax loss使所有样本在小规模批内的条件概率最大化。因此,它选择了高质量的面孔,而忽略了训练小批量中罕见的困难面孔。我们观察到,使用softmax损失学到的特征L2-norm提供了面部[23]质量的信息。高质量的正面脸特征具有高L2-norm,而极端姿态的模糊脸特征具有低L2-norm(图1(b))。此外,softmax loss并没有优化验证的要求,保持密切的正对和负对彼此远离。由于这个原因,许多方法在softmax特性之上应用度量学习[27,3,24],或者在softmaxloss的同时训练一个辅助损失[33,29,32],以获得更好的验证性能。
在这里插入图片描述
图1.(a) IJB-A数据集的人脸验证性能。根据模板的L2-norm将模板分为3组。‘1’表示低L2-norm的集合,‘3’表示高L2-norm的集合。图例’ x-y ‘表示计算对,其中一个模板来自集合’ x ‘,另一个来自集合’ y '。(b)来自高、中、低L2-norm的IJB-A数据集的样本模板图像

  在这篇论文中,我们提供了一个与softmax损失相关的问题的对症处理。我们提出了一个L2softmax损失,它在训练过程中增加了对特征的约束,使它们的L2-norm保持不变。换句话说,我们把特征限制在一个半径固定的超球面上。提出的L2-softmax损失具有双重优势。首先,它对质量好的和不好的人脸都提供了相似的关注,因为现在所有的特征都具有相同的L2-norm,这对于在无约束设置中获得更好的性能是至关重要的。其次,通过强迫同一主体特征在归一化空间中靠近,不同主体特征在归一化空间中远离来增强验证信号。因此,它最大化了正负对之间的归一化L2距离或余弦相似度评分的边界。因此,它克服了常规softmax损失的主要缺点。
  L2-softmax loss也保留了常规softmax loss 的优势。与softmax损失类似,它是一个网络,一个损失的系统。不像最近许多方法那样需要联合监督[33,24,32,29]。使用Caffe [15], Torch[7]和TensorFlow[1]的内建函数,它可以很容易地实现,收敛速度非常快。它只向网络引入了一个单一的尺度参数。与常规的softmax loss相比,L2-softmax loss 获得了一个显著的提高性能。它在IJB-A数据集上取得了新的最先进的结果,并在LFW和YouTube的人脸数据集上取得了竞争结果。它的性能超过了使用多个网络或多个损失功能或两者兼用的几个最先进的系统。综上所述,本文在以下几个方面做出了贡献:
1.提出了一种简单、新颖、有效的特征描述符L2-softmax loss算法,该算法将特征描述符的L2-norm限制为一个定值约束α。
2.我们研究了性能随尺度参数α的变化,并为其值提供了合适的界限,以实现持续的高性能。
3.该方法对LFW[14]、YouTube face[19]和IJB-A[16]三个具有挑战性的人脸验证数据集都有一致且显著的提升
  此外,L2-softmax loss的增益是度量学习的补充(如:TPE[27],联贝叶斯[3])或辅助损失函数(如:中心损失[33],对比损失[29])。在L2-softmax损失的基础上应用这些技术可以进一步提高验证性能。结合TPE[27],在具有挑战性的IJB-A[16]数据集上,L2-softmax损失的记录真接受率(TAR)为0.909,假接受率(FAR)为0.0001。

2 相关工作

  近年来,使用深度学习方法进行人脸验证的准确率有了显著提高[28,30,24,27,29,33]。在LFW[14]数据集上,这些方法中的大多数甚至超过了人类的性能。尽管这些方法都是有效的,但它们因用于训练的损失函数类型不同而有所不同。在人脸验证中,positive pair主体对特征的距离越近越好,negative pair主体对特征的距离越远越好。为了解决这个问题,研究人员主要采取了两种方法。
  第一种方法是将成对的人脸图像输入到训练算法中,学习正对距离较近,负对距离较远的特征嵌入。在这个方向上,Chopra等人[5]提出了具有对比损失的 siamese 网络用于训练。Hu等人[13]设计了一个具有正负面对之间的边界的鉴别深度度量。FaceNet[28]引入了 triplet loss 来学习使用硬 triplet 人脸样本的度量。
  第二种方法是利用人脸图像及其目标标签在分类框架中学习识别特征。大多数最近的方法[29,30,24,37]训练一个带有softmax损失的DCNN来获取这些特征,这些特征要么直接计算一对脸的相似度评分,要么训练一个鉴别度量嵌入[27,3]。另一种策略是训练网络进行联合识别验证任务[29,32,33]。Xiong等人[36]提出了转移深度特征融合(TDFF),其中包括不同网络和数据集的两阶段融合。采用模板适应[8]进一步提高了性能。
  最近的一种方法[33]引入了中心缺失来学习更好的识别面部特征。我们提出的方法与中心损失有以下几个不同之处。首先,我们使用一个损失函数(即。而[33]在训练中使用中心损失和softmax损失。第二,center loss在训练过程中引入了C×D的附加参数,其中C为类数,D为特征维数。另一方面,L2-softmax丢失只引入了一个定义特征的L2范数的单一参数。此外,中心损耗也可以与L2-softmax loss一起使用,其性能比常规softmax损耗更好(见5.1.4节)。
  最近,一些算法在训练中使用了特征归一化来提高性能。SphereFace[20]提出angular softmax (A-softmax)损失,使DCNNs能够学习角度区分特征。另一种方法叫做Deep Visage[10],在应用softmax loss之前,使用批处理归一化技术对特征描述进行归一化。我们提出的方法不同,因为它对特征描述符使用l2约束,强制它们位于给定半径的超球面上。

3 动机

  我们首先总结了使用DCNN训练人脸验证系统的一般流程,如图2所示。给定一个包含人脸图像和相应身份标签的训练数据集,DCNN被训练为一个分类任务,在这个任务中,网络学习将给定的人脸图像分类为其正确的身份标签。使用softmax损失函数来训练网络,如公式1所示。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值