这篇文章主要记录了《Joint Face Detection and Alignment using Multi-task Cascaded Convolutional Networks》链接
在人脸检测和特征点定位的任务上,这篇文章提出的方法比现有最先进的技术有明显的额提升,而且具有实时处理的性能。
在这篇文章中,提出了一个深度卷积多任务的框架,这个框架利用了检测和对准之间固有的关系来增强他们的性能。特别是,在预测人脸及脸部标记点的时候,通过三阶的级联卷积神经网络对任务进行从粗到精的处理。而且还提出了一种新的在线困难样本生成策略来进一步提升性能。
论文最主要的一点应该是三阶的级联卷积神经网络。我们应该能从下图直观地看出其特点:
stage 1(P-Net):一个浅层的全部由卷积层组成的CNN快速生成候选窗口,获取候选人脸窗口以及人脸回归向量,再基于估计的边框进行校准,之后才有NMS来合并高度重叠的候选。
stage 2(R-Net):用stage1得出的结果,放到R-Net进一步排除大量错误的候选,使用边框回归执行校准并进行NMS。
stage 3(O-Net):这个和stage 2 有点类似,但是这个阶段目的是识别出更准确的脸部区域,最后输出5个特征点位置。