MTCNN论文阅读笔记

最新推荐文章于 2022-07-08 12:52:42 发布

坎幽黑尔弥？

最新推荐文章于 2022-07-08 12:52:42 发布

阅读量477

点赞数

分类专栏：深度学习文章标签： mtcnn facedetection

本文链接：https://blog.csdn.net/qq_38469553/article/details/84966388

版权

深度学习专栏收录该内容

55 篇文章 4 订阅

订阅专栏

二，Approach

1.总体框架

下图是总体的流程。

首先将给定的图片resize到不同的尺度，构建一个图片金字塔，用于下面的三步级联的网络的输入。

stage1：

提出了一个名为proposal network（P-net）的全卷积网络，用于获得候选人脸窗口和和bounding box回归向量。之后这些候选人脸框根据估计出的bounding box回归向量进行校准。之后使用非极大值抑制NMS合并高度重叠的候选框。

stage2：

上一步中所有的候选框被输入到refine network（R-net），这个R-Net进一步排除了大量的错误的候选框，使用bounding box回归和NMS进行校正。

stage3：

这一步与第二步相似，不过在这一步我们的目标是利用更多的监督来确定出人脸区域。特别地，这一步网络会输出五个面部定位地标点的坐标。

2.CNN结构

在前人的研究中，多cnn被设计用于人脸检测。但是我们注意到它的表现具有局限性，原因如下：1）卷积层的一些滤波器缺乏多样性，导致可能会限制它们的识别能力。2）与其他的多分类目标检测问题，人脸识别是一个具有挑战性的二分类问题，因此每个层需要的滤波器数目较少。因此我们减少了卷积核的数量，并且将5x5改为了3x3，用于降低计算量，与此同时增加网络的深度来获得更好的效果。结果是：检测效果更好且运行时间更少。网络结构如下图。除了最后的输出层，在卷积层和全连接层后使用PReLU作为非线性激活函数。

3.训练（training）

我们使用三个task来训练：是/不是人脸的分类，bounding box回归，人脸标定点的定位。

（1）人脸分类：

学习目标是一个二分类问题的形式。对于每一个样本xi使用交叉熵损失：

其中pi是网络预测出的xi是人脸的概率。记号yi^det∈ {0,1}，为标签。

（2）bounding box回归：

对于每一个候选窗口，我们预测它和最近的ground truth框的偏移量offset（框用左上点的坐标和框的高度，宽度表征）。学习目标是一个回归问题，我们对每个样本xi使用欧氏损失：

其中前一个yi^box是通过网络获得的回归目标，后一个yi^box是ground truth坐标。坐标值有四个：左上角坐标，高度和宽度。

（3）人脸标定点定位：

与框回归问题相似，人脸标定点检测为一个回归问题，目标是最小化欧氏损失：

其中前一个yi^landmark表示网络获得的人脸标定点的坐标，后一个yi^landmark表示真实的坐标（都针对第i个样本而言）。一共有五个人脸标定点，包括左眼，右眼，鼻子，左嘴角和右嘴角。

（4）训练：

由于我们在每个cnn中运用了不同的任务，因此在学习过程中有不同类型的训练数据，例如人脸，非人脸，以及局部对齐的人脸。这种情况下，一些损失函数（公式1-3）会没有用到。例如，对于是背景区域的样本，我们只计算Li^det，另外两个损失设为0.这可以直接用一个样本类型指示器来实现。综上，学习目标如下：

其中N为训练样本的数目，aj为任务重要程度的系数。在P-Net和R-Net中我们使用（adet=1，abox=0.5，alandmark=0.5），在O-Net中（adet=1，abox=0.5，alandmark=1）为了得到更精确的人脸标定点定位。bi^j属于{0，1}，是类别指示器。此时，使用随机梯度下降来训练上述CNN就很自然了。

（5)在线困难样本挖掘Online Hard sample mining：

与在原始的分类器训练完成之后执行传统的困难样本挖掘不同，我们在人脸/非人脸分类任务中执行在线困难样本挖掘，这很适合训练过程。具体而言，在每一个最小批次（mini-batch）中，我们选取所有样本的前向传播计算出的损失loss，并且挑选出loss排在前70%的样本作为困难样本。然后我们只对这些困难样本在反向传播的过程中计算梯度。这就意味着我们将容易样本忽略，因为这些容易样本对于检测器性能的提升帮助不大。