前言
在复杂且不受约束的环境中,人脸检测和人脸对齐是两项极具挑战性的任务。由于人脸的姿态、光照条件以及可能的遮挡等多种因素。本文提出了一种深度级联多任务框架,该框架充分利用了人脸检测和人脸对齐之间的内在关联性,旨在进一步提升两者的性能。作者设计了一个具有三个阶段的级联结构,每个阶段都包含精心设计的深度卷积网络,用于以由粗到细的方式预测人脸和特征点的位置。
一、MTCNN背景
MTCNN算法设计了一种级联的卷积神经网络结构,通过多个阶段的网络预测,以由粗到细的方式逐步精确定位人脸和特征点的位置。这种结构充分利用了人脸检测和人脸对齐之间的内在关联性,从而实现了性能的提升。
此外,MTCNN还引入了一些创新的学习策略,如在线困难样本挖掘策略,这些策略有助于自动提升性能,无需手动选择样本。这使得MTCNN在应对复杂多变的人脸图像时具有更好的适应性。
综上所述,MTCNN的背景是基于人脸检测和人脸对齐的挑战性问题,通过设计级联的卷积神经网络结构和引入创新的学习策略,实现了性能的提升和更好的适应性。这使得MTCNN在人脸相关的计算机视觉任务中具有重要的应用价值。
二、MTCNN的网络结构
mtcnn分为三层结构p_net,R_net,O_net。
这三层逐层细分最后的的与之相最为匹配的图像
图像金字塔
每次我们取12*12的像素图像,然而有的人脸是小的或者大的。所以我们需要把图像进行缩放进行检测运算。
p_net
1,首先对图片进行Resize操作,将原始图像缩放成不同的尺度,生成图像金字塔。
然后P_net层削减去一部分不需要的背景P_net如下图的结构
然后对原图和生成出来的p_net再进行操作如下图
结果分为一个二分类的二维数据,和一个4*32的调整数组调整之前·的图像最后加一个NM
S进行极大抑制削减边线框
R_net
进行更进一步精细操作,减少图片框的范围
o_net
这里比p_net多出了一个检验人面孔的分类器需要注意