Joint Face Detection and Alignment using Multi-task Cascaded Convolutional Networks阅读笔记

Abstract:

挑战:(1)人脸不同的姿态(2)光照(3)遮挡。
本文研究:提出了一种深度级联的多任务框架,利用框架之间的内在相关性来提高它们的性能。
框架:级联结构——三层深度卷积网络,以粗到细的方式预测人脸和地标位置。
策略:在线困难样本挖掘策略——自动提高算法的性能而不需要人工样本筛选。
优势:在人脸检测方面:以FDDB和WIDER FACE为基准。
   在人脸对齐方面:以AFLW为基准。
   在准确率远超其他工具的同时,保持实时性能

I.INTRODUCTION:

人脸检测以往研究
(1)Viola和Jones提出的级联人脸检测器利用Haar-Like特征和AdaBoost训练级联分类器。缺点:实际应用中性能会显著下降。
(2)deformable part models (DPM)。缺点:贵。
(3)Yang等人训练用于人脸属性识别的深层卷积神经网络。缺点:CNN结构复杂,花时间。
(4)Li等人使用级联CNNs进行人脸检测。缺点:需要额外的计算费用用于基于人脸检测的包围盒标定,忽略了面部地标定位与包围盒回归之间的内在相关性。

人脸对齐以往研究
(1)基于回归的方法和模板拟合方法是两种流行的方法。Zhang等人提议利用深度卷积神经网络,以人脸属性识别为辅助任务,提高人脸对齐性能。缺点:忽略了这两个任务之间的相关性。
(2)Chen等人利用像素值差异的特征与随机森林共同进行对准和检测。缺点:手工特性限制性能。
(3)Zhang 等人使用多任务 CNN 提高多视点人脸检测的准确性。缺点:由弱人脸检测器产生的初始检测窗口限制了精确性。

传统困难样本挖掘:脱机方式,增加了手动操作。

这篇论文的研究
(1)新的框架:通过多任务学习,使用统一的级联CNN来集成这两个任务。
(2)三层网络
第一阶段:通过浅层CNN,快速生成候选窗口。
第二阶段:通过更复杂的CNN,细化窗口以拒绝大量的非人脸窗口。
第三阶段:使用更强大的CNN,细化结果并输出面部标志位置。

这篇论文主要贡献
(1)提出了一种新的基于级联CNNs的人脸检测和对齐框架,为实时性能设计轻量级的 CNN 架构。
(2)提出了一种有效的在线困难样本的挖掘方法。
(3)在基准上进行了大量实验,以表明与目前最先进的人脸检测和人脸对齐任务相比,本文提出的方法在性能上有了显著的提高。

II. APPROACH:

A. Overall Framework:

整体流程
在这里插入图片描述
三级多任务深卷积网络
P-net(全卷积网络):a fast Proposal Network。(1)生成候选窗口及其边界框回归向量(2)利用估计的边界框回归向量标定候选框(3)使用非最大抑制(NMS)来合并高度重叠的候选框。
R-net:a Refinement Network。(1)进一步拒绝大量虚假候选框(2)使用边界框回归进行校准(3)NMS候选框合并。
O-net:the output Network。与R-net类似,产生最后的边界框和5个面部标志位置。

B.CNN Architectures:

CNN人脸检测的性能受限
(1)滤波器权重一样,限制它们产生区分性的描述。
(2)二分类任务需要较少的滤波器数目,但需要更多的区分识别。

为此,mtCNN
(1)减少了滤波器的数量(5×5滤波器->3×3滤波器),以减少计算量
(2)增加计算深度.
这样减少了运算时间。
在这里插入图片描述
网络架构
在这里插入图片描述

C.Training:

我们利用三项任务来训练CNN探测器:人脸/非人脸分类、边界盒回归和面部地标定位。

1)Face classification:
学习目标是一个二分类问题,使用交叉熵损失

L i d e t = − ( y i d e t l o g ( p i ) + ( 1 − y i d e t ) ( 1 − l o g ( p i ) ) ) L_i^{det}=-(y_i^{det}log(p_i)+(1-y_i^{det})(1-log(p_i))) Lidet=(yidetlog(pi)+(1yidet)(1log(pi)))

pi指示的是一个样本是一张脸的概率。
是0,1标注是否为真的标签。

2)Bounding box regression:
对于每个候选窗口,我们预测它与最近的真实数据之间的偏移(即边界框左顶部、高度和宽度)。
学习目标是一个回归问题,采用欧几里德损失

L i b o x = ∣ ∣ y i ^ b o x − y i b o x ∣ ∣ 2 2 L_i^{box}=||\hat{y_i}^{box}-y_i^{box}||_2^2 Libox=yi^boxyibox22

y i ^ b o x \hat{y_i}^{box} yi^box是网络计算出来的回归目标,
y i b o x y_i^{box} yibox是真实的坐标。
y i b o x ∈ R 4 y_i^{box}\in\Bbb{R}^4 yiboxR4:有4个坐标——左边、顶部、高度、宽度。

3)Facial landmark localization:
学习目标是一个回归问题,将欧几里德损失最小化。

L i l a n d m a r k = ∣ ∣ y i ^ l a n d m a r k − y i l a n d m a r k ∣ ∣ 2 2 L_i^{landmark}=||\hat{y_i}^{landmark}-y_i^{landmark}||_2^2 Lilandmark=yi^landmarkyilandmark22

y i ^ l a n d m a r k \hat{y_i}^{landmark} yi^landmark是网络计算出的人脸地标坐标,
y i l a n d m a r k y_i^{landmark} yilandmark是真实的坐标。
y i l a n d m a r k ∈ R 10 y_i^{landmark}\in\Bbb{R}^{10} yilandmarkR10:有5个人脸地标坐标——左眼、右眼、鼻子、左嘴角、右嘴角。

4)Multi-source training:
由于我们在每个CNN中进行不同的任务,因此在学习过程中有不同类型的训练图像,例如脸、非人脸和部分对齐的脸。因此,一些损失函数不能使用。
例如,对于背景区域的样本,我们只计算 L i d e t L_i^{det} Lidet ,另外两个损失设置为0。这可以通过示例类型指示符直接实现。
可以将整个学习目标表述为:

m i n ∑ i = 1 N ∑ j ∈ { d e t , b o x , l a n d m a r k } α j β i j L i j min\sum_{i=1}^N\sum_{j\in{\{det,box,landmark\}}}\alpha_j\beta_i^jL_i^j mini=1Nj{det,box,landmark}αjβijLij
N是训练样本的数量。
α j \alpha_j αj表示任务的重要性。
在这里插入图片描述
随机梯度下降来训练CNN。

5)Online Hard sample mining:
本篇论文:在人脸分类任务中进行在线困难样本挖掘适应训练过程。
操作方法
(1)在每一个小批量中,从所有样本中对在前向传播阶段计算的损失进行排序,选择最前面的70%作为困难样本
(2)只计算从困难样本在后向传播阶段的梯度,忽略那些对训练时加强探测器没有帮助的简单样本。

III. EXPERIMENTS:

概括
(1)评估在线困难样本挖掘策略的有效性。
(2)将mtCNN人脸检测和对齐与先进技术方法进行比较。
(3)评估了mtCNN人脸检测器的计算效率。

A. Training Data:

4种不同的数据标注:
(1)Negatives:真实数据中IoU低于0.3的区域;
(2)Positives:真实数据中IoU高于0.65的区域;
(3)Part faces:IoU在0.4-0.65之间;
(4)Landmark faces:有5个特征地标标记的脸。

Negatives和Positives用于人脸分类任务,Positives和Part faces用于边界框回归,Landmark faces用于人脸地标定位。

每个网络的训练数据如下
1)P-Net:
从WIDER FACE随机地裁剪出几个小块来收集positives,negatives和part face。
从CelebA中收集脸作为landmark faces。
2)R-Net:
从WIDER FACE中用第一层网络探测脸,来收集positives,negatives和part face。
从CelebA中收集脸作为landmark faces。
3)O-Net:
与R-net相似,不过采用前两层网络探测脸收集数据。

B.The effectiveness of online hard sample mining:

评估在线困难样本挖掘策略
训练了两个O-net(在线和不在线困难样本挖掘),并比较了它们的损失曲线。
只训练面向人脸分类任务的O-net,使比较更加直接。
在两个O-net中,所有的训练参数(包括网络初始化)都是一样的,并且使用了固定的学习率。
在这里插入图片描述
图片显示两种不同训练方式的损失曲线。

C.The effectiveness of joint detection and alignment:

评估联合检测和对齐
评估了两个不同的O-net(联合的和不联合的)的性能(使用相同的P-net和R-net),并我们比较了这两种O-net的边界框回归的性能。
在这里插入图片描述
图片表示联合的网络对人脸分类和边界框回归任务都有很大的帮助。

D.Evaluation on face detection:

评估人脸检测方法的性能
比较了mtCNN和最先进的方法,以FDDB和WIDER FACE为基准。
在这里插入图片描述
图片表示在这两个基准测试中,mtCNN始终在很大程度上优于以前的所有方法。

E.Evaluation on face alignment:

比较了mtCNN与下列方法的人脸对齐性能:RCPR, TSPM, Luxand face SDK, ESR, CDM, SDM, TCDCN。
在测试阶段,有13幅图像用mtCNN无法检测到。因此,将这13幅图像的中心区域进行裁剪,并将它们作为O-net的输入。
在这里插入图片描述

F. Runtime efficiency:

在给定级联结构的情况下,该方法在联合人脸检测和对齐方面取得了非常快的速度。我们目前的实现是基于未优化的MATLAB代码。

IV. CONCLUSION:

(1)提出了一种基于多任务级联CNN的集合人脸检测和对齐的框架。
(2)一系列实验表明,mtCNN在准确性上超越了当前先进的方法,并且mtCNN还能保持实时性能。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值