Joint Face Detection and Alignment using Multi-task Cascaded Convolutional Networks

本文提出了一种深度级联多任务框架,利用深度卷积网络提高人脸检测和对准性能。通过级联结构和在线硬样本挖掘策略,实现对遮挡、姿态变化等复杂情况的高效处理,同时在FDDB和AFLW基准上表现出优越的精度和实时性。
摘要由CSDN通过智能技术生成

https://arxiv.org/abs/1604.02878v1

摘要

在无约束环境下,由于姿态、光照和遮挡等因素的影响,人脸检测和对准具有挑战性。最近的研究表明,深度学习方法可以在这两个任务上取得令人印象深刻的表现。在本文中,我们提出了一个深度级联多任务框架,利用它们之间的内在关联来提高它们的性能。特别是,我们的框架采用了一种级联结构,该结构包含精心设计的深度卷积网络的三个阶段,可以粗略地预测人脸和特征点的位置。此外,在学习过程中,我们提出了一种新的在线困难样本挖掘策略,可以自动提高性能,无需人工选择样本。我们的方法在具有挑战性的FDDB和更广泛的技术上取得了优越的精度用于人脸检测的人脸基准,用于人脸对齐的AFLW基准,同时保持实时性。

1 引言

  人脸的检测和对齐是人脸识别和表情分析等许多人脸应用的关键。然而,人脸的巨大视觉变化,如遮挡、位姿变化和极端光照等,给这些任务在现实应用中带来了很大的挑战。
  Viola和Jones[2]提出的级联人脸检测器利用Haar-Like特征和AdaBoost对级联分类器进行训练,取得了良好的性能和实时性。然而,相当多的研究[1,3,4]表明,在现实应用中,即使使用更高级的特征和分类器,这种检测器也可能在人脸视觉变化较大的情况下显著退化。除了级联结构外,[5,6,7]还引入了可变形部分模型(DPM)用于人脸检测,取得了显著的性能。但是,它们需要较高的计算开销,在训练阶段通常需要昂贵的注释。近年来,卷积神经网络(CNNs)在各种计算机视觉任务,如图像分类[9]和人脸识别[10]方面取得了显著进展。
  近年来,由于神经网络在计算机视觉任务中的良好表现,一些基于神经网络的人脸检测方法被提出。Yang等人[11]训练深度卷积神经网络进行人脸属性识别,在人脸区域获得高响应,进而产生人脸的候选窗口。但是,由于CNN结构复杂,这种方法在实际应用中花费了大量的时间。Li等人[19]使用级联CNNs进行人脸检测,但在人脸检测中需要标定边界框,计算开销较大,忽略了人脸特征点定位和边界框回归之间的内在相关性。
  面部对齐也吸引了广泛的兴趣。基于回归的方法[12,13,16]和模板拟合方法[14,15,7]是两个比较流行的类别。最近,Zhang等人[22]提出利用深度卷积神经网络将面部属性识别作为辅助任务来增强人脸对齐性能。
  然而,现有的人脸检测和人脸对齐方法大多忽略了这两个任务之间的内在相关性。虽然已有多部作品试图共同解决这一问题,但仍存在一定的局限性。例如,Chen等[18]利用像素值差的特征,联合使用随机森林进行对齐检测。但是,使用的手工特征限制了它的性能。Zhang等[20]使用多任务CNN来提高多视角人脸检测的准确率,但检测准确率受到初始检测窗口的限制。
  另一方面,在训练过程中,挖掘训练中的难样本对于增强检测器的能力至关重要。然而,传统的硬样本挖掘通常采用脱机方式,这大大增加了手工操作。设计一种能够自动适应当前训练过程的人脸检测与对齐的在线硬样本挖掘方法是理想的。
  在本文中,我们提出了一个新的框架,使用统一的级联网络网络多任务学习来整合这两个任务。我们提出的神经网络包括三个阶段。在第一阶段,它通过一个浅层的CNN快速生成候选窗口。然后,通过一个更复杂的CNN对窗口进行细化,以剔除大量的非人脸窗口。最后,使用功能更强大的CNN对结果进行细化并输出面部特征点位置。该多任务学习框架可以显著提高算法的性能。本文的主要工作概括如下:(1)提出了一种基于级联CNNs的联合人脸检测与对齐框架,并仔细设计了轻量级CNN体系结构,实现了实时性。(2) 提出了一种有效的在线硬样本挖掘方法。(3) 在具有挑战性的基准上进行了广泛的实验,以表明与最新技术相比,该方法在人脸检测和人脸对齐任务中的性能有了显著的提高。

2 方法

在这一节中,我们将描述我们的联合人脸检测和对齐的方法。

A.总体框架

  我们的方法的总体流程如图1所示。给定一幅图像,我们首先将其调整为不同的尺度,构建一个图像金字塔,它是以下三级级联框架的输入:
在这里插入图片描述
图1所示。我们的级联框架流程,包括三级多任务深卷积网络。首先,通过一个快速提议网络(P-Net)生成候选窗口。在此之后,我们在下一个阶段通过优化网络(R-Net)对这些候选人进行优化。在第三阶段,
输出网络(O-Net)产生最终的边界盒和面部特征点位置。
阶段1: 我们利用一个完全卷积的网络[?],被称为建议网络(P-Net),以类似[29]的方式获取候选窗口及其边界框回归向量。然后利用估计的边界框回归向量对候选点进行标定。在此之后,我们使用非最大抑制(NMS)来合并高度重叠的候选对象。
阶段2: 所有候选都被送到另一个CNN,叫做Refine网络(R-Net)进一步剔除大量的假候选数据,使用边界框回归进行标定,并合并NMS候选数据。
阶段3: 这一阶段与第二阶段相似,但是在这一阶段我们的目标是更详细地描述脸部。特别是,该网络将输出五个面部特征点的位置。

B.CNN架构

在[19]中,已经设计了多个cnn用于人脸检测。但是,我们注意到,它的性能可能受到以下因素的限制:(1)一些滤波器缺乏权值的多样性,这可能限制了它们产生有区别的描述。(2)与其他多类目标检测和分类任务相比,人脸检测是一项具有挑战性的二分类任务,它可能需要较少的滤波器数量,但需要更多的辨别能力。为此,我们减少滤波器的数量,将5×5滤波器改为3×3滤波器,以减少计算量,同时增加深度以获得更好的性能。通过这些改进,与[19]中以前的架构相比,我们可以用更少的运行时获得更好的性能(结果如表1所示)。为了公平比较,我们对两种方法使用相同的数据)。我们的CNN架构如图2所示。
在这里插入图片描述

C.训练

  我们利用三个任务来训练我们的CNN检测器:人脸/非人脸分类、边界框回归和人脸特征点定位。
1)人脸分类:将学习目标表述为一个两类分类问题。对每个样本 x i x_i xi,我们使用交叉熵损失:
在这里插入图片描述
其中, p i p_i pi为网络产生的表示样本为人脸的概率。符号 y i d

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值