Joint Face Detection and Alignment Using Multitask Cascaded Convolutional Networks

Abstract

  • 由于各种姿势,照明和遮挡,在无约束环境中的面部检测和对准是具有挑战性的。最近的研究表明,深度学习方法可以在这两项任务上取得令人瞩 在这封信中,我们提出了一个深度级联多任务框架,它利用检测和对齐之间的内在联系来提高其性能。特别是,我们的框架利用级联架构,通过三个阶段精心设计的深度卷积网络,以粗略的方式预测面部和地标位置。此外,我们提出了一种新的在线硬样本挖掘策略,可进一步提高实践中的性能。 我们的方法在具有挑战性的人脸检测数据集和基准测试和WIDER FACE人脸检测基准测试方面取得了最先进的技术,并在面部对齐的野外基准测试中注释了面部标志,同时保持了实时性能。

Introduction

  • 面部检测和对齐对于许多面部应用是必不可少的,例如面部识别和面部表情分析。 然而,面部的大的视觉变化,例如遮挡,大的姿势变化和极端的照明,对于实际应用中的这些任务提出了巨大的挑战。
  • Viola和Jones [2]提出的级联人脸检测器利用Haar-Like功能和AdaBoost训练级联分类器,实现了具有实时效率的良好性能。 然而,相当多的作品[1],[3],[4]表明,即使有更先进的功能和分类,这种探测器在人脸的视觉变化较大的实际应用中可能会显着降低。除了级联结构,Mathias等人[5] - [7]引入了用于人脸检测的可变形零件模型,并实现了卓越的性能。然而,它们在计算上是昂贵的并且通常在训练阶段需要昂贵的注释。最近,卷积神经网络(CNN)在各种计算机视觉任务中取得了显着进步,例如图像分类[9]和人脸识别[10]。受到计算机视觉任务中深度学习方法的重大成功的启发,一些研究利用深度CNN进行人脸检测。杨等人[11]训练深层CNN进行面部属性识别,以获得面部区域的高响应,进一步产生面部候选窗口。然而,由于其复杂的CNN结构,这种方法在实践中耗时。李等人[19]使用级联CNN进行人脸检测,但它需要从面部检测中进行边界框校准,并且需要额外的计算费用,并忽略了面部标志定位和边界框回归之间的内在相关性。
  • 面部对齐也吸引了广泛的研究兴趣。 该领域的研究工作大致可分为两类,基于回归的方法[12],[13],[16]和模板拟合方法[7],[14],[15]。 最近,张等人[22]提出使用面部属性识别作为辅助任务,以使用深CNN增强面部对齐性能。然而,大多数先前的面部检测和面部对齐方法忽略了这两个任务之间的固有相关性。 虽然现有的几个作品试图共同解决它们,但这些作品仍然存在局限性。 例如,陈等人[18]利用像素值差异的特征,与随机森林联合进行对齐和检测。 但是,这些手工功能限制了它的性能。 张等人[20]使用多任务CNN来提高多视图人脸检测的准确性,但检测召回受到弱脸检测器产生的初始检测窗口的限制。
  • 另一方面,在训练中挖掘硬样品对于增强探测器的功率至关重要。 然而,传统的硬样本采矿通常以不同的方式执行,这显着增加了手动操作。 期望设计一种用于面部检测的非线性硬样本挖掘方法,其自动适应当前训练状态。
  • 在这封信中,我们提出了一个新的框架,通过多任务学习使用统一的级联CNN来集成这两个任务。 拟议的CNN包括三个阶段。 在第一阶段,它通过浅CNN快速生成候选窗口。 然后,它通过更复杂的CNN拒绝大量非面部窗口来重新定义窗口。 最后,它使用更强大的CNN再次重新获得结果并输出五个面部地标位置。 由于这个多任务学习框架,算法的性能可以显着提高。 本函的主要贡献概括如下:
  1. 我们提出了一种新的级联CNNs框架,用于联合面部检测和对齐,并精心设计轻量级CNN架构以实现实时性能。
  2. 我们提出了一种有效的方法来进行在线硬样本挖掘,以提高性能。
  3. 在具有挑战性的基准测试中进行了大量实验,以显示与人脸检测和面部对齐任务中的最新技术相比,所提出的方法的显着性能改进。

Approach

  • 我们的方法的总体流程如图1所示。给出一个图像,我们最初将其调整为不同的尺度以构建图像金字塔,这是以下三级级联框架的输入。阶段1:我们利用称为提议网络(P-Net)的完全卷积网络来获得候选面部窗口及其边界框回归向量。 然后基于估计的边界框回归向量校准候选者。 之后,我们采用非最大抑制(NMS)来合并高度重叠的候选者。阶段2:所有候选人都被送到另一个CNN,称为refine网络(R-Net),它进一步拒绝大量错误候选者,使用边界框回归执行校准,并进行NMS。阶段3:这个阶段类似于第二阶段,但在这个阶段,我们的目标是识别更多监督的面部区域。 特别是,网络将输出五个面部地标的位置。
  • 在[19]中,已经设计了多个用于面部检测的CNN。然而,我们注意到它的性能可能受到以下事实的限制:1)一些过滤器无法解决层数缺乏可能限制其辨别能力的多样性; (2)与其他多类异议检测和分类任务相比,人脸检测是一项具有挑战性的二元分类任务,因此每层可能需要不必要的过滤器数量。为此,我们减少滤波器数量并将5×5滤波器更改为3×3滤波器以减少计算,同时增加深度以获得更好的性能。通过这些改进,与[19]中的先前架构相比,我们可以以更少的运行时间获得更好的性能(训练阶段的结果显示在表I中。为了公平比较,我们在每个组中使用相同的训练和验证数据) 。我们的CNN架构如图2所示。我们将PReLU [30]应用为卷积和完全连接层(输出层除外)之后的非线性激活函数。
  • 我们利用三个任务来训练我们的CNN探测器:面部/非面部分类,边界框回归和面部地标定位。

Conclusion

  • 在这封信中,我们提出了一种多任务级联CNNs框架,用于关节面检测和对齐。 实验结果表明,我们的方法在几个具有挑战性的基准测试中始终优于最先进的方法(包括用于人脸检测的FDDB和WIDER FACE基准,以及用于面部对齐的AFLW基准测试),同时实现640×480 VGA的实时性能 最小面部尺寸为20×20的图像。 性能改进的三个主要贡献是精心设计的级联CNN架构,在线硬样本挖掘策略和联合面部对齐学习。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值