人脸检测论文SSH

最新推荐文章于 2022-06-15 20:54:57 发布

hanjiangxue_wei

最新推荐文章于 2022-06-15 20:54:57 发布

阅读量1.2k

点赞数 1

分类专栏：人脸检测文章标签： SSH 人脸检测 face detection

本文链接：https://blog.csdn.net/hanjiangxue_wei/article/details/87905641

版权

人脸检测专栏收录该内容

4 篇文章 0 订阅

订阅专栏

tags: 人脸检测；face detection

论文题目《SSH：Single Stage Headless Face Detector》
作者 Mahyar Narjibi 与 Pouya Samangouei 2017
代码地址：https://github.com/mahyarnajibi/SSH

论文背景

SSH为single stage headless的缩写，为单阶段检测器。所谓的headless指的就是只保留基础网络，将原始分类网络中的全连接层去掉的意思，比如VGG16中的全连接层。这样做可以去掉大量的参数，同时加速运算，毕竟卷积的运算量和参数量相比全连接来说少了太多。相比较别的算法在检测不同尺度的人脸时所采用的图像金字塔，SSH中采用的是特征金字塔，也就是使用了卷积层的特征，有点SSD的意思。作者对卷积层使用了3种类型的检测模块，利用不同的卷积步长来同时检测大、中、小三种人脸。相比较基于RPN的网络，SSH不再是先用RPN生成anchor，然后进行分类和回归，而是直接进行分类和回归。在速度上会有5倍以上的提升，如果同时采用图像金字塔的话，会在精度上有进一步的提升，但是会导致网络前向变慢。

SSH

SSH使用的基础网络为VGG16，将其中的全连接层全部去掉，只使用了卷积层。
SSH的网络结构如下：

SSH网络结构

图1 SSH网络结构

可以看到，SSH的网络为全卷积网络，网络的连接方式为：

在conv4-3之后接了1个检测模块M1，用来检测小人脸。
在conv5-3之后接了检测模块M2，用来检测中型人脸。
对conv5-3进行一次max pool之后，接了检测模块M3，用来检测大型人脸。

每一个检测模块都同时完成两个任务：分类（人脸/非人脸）+回归（bbox框坐标）
这里在进行bbox回归的时候，借鉴了RPN的想法，对于每个检测模块所对应的特征图，在每个像素出都生成K的anchor。但有一个不同的地方是，原始RPN在每个像素点出都会生成不同尺度的框，这里作者只使用一种纵横比，多种尺度，从而使得每个像素处生成的anchor数量大量减少。比如对于模块 $M_i$ ，如果其检测的特征图大小为 $W_i \times H_i$ ，那么该特征图每个像素点所对应的anchor数量为 $W_i \times H_i \times K_i$ 个， $K_i={S_i^1, S_i^2,...S_i^{K_i}}$ 表示不同的尺度

detection module & context moudle

检测模块的结构如下：

detection module

图2 detection模块语义模块的结构如下：

context module

图3 context模块

可以看到，detection模块包含一个context模块，这部分内容是为了增大感受野而设计的。通常的目标检测算法都会通过大的卷积核（5*5、7*7)来增大感受野，而作者这里为了减少参数和计算量，将其进行了拆分，从而用多个3*3的卷积核来代替，因此才会在context模块中出现两种方式的感受野增大方式。外面的3*3和上面3*3的分支结合起来代替5*5卷积核，与下面的两个3*3卷积核结合起来代替7*7卷积核。因此，该context模块的工作方式为：首先通过一个3*3的卷积将输入维度减少为原来的一半，然后通过上下两个分支进行卷积，完成增大感受野的工作，最后再将结果进行拼接。M1模块的输出为128维。而对于M2和M3模块而言也是这样的，只不过context模块的输出通道为256。

而在detection模块中，上面的3 $\times$ 3部分相当于一个skip connection。最终detection模块的输出包含两部分内容，一部分进行人脸/非人脸的分类预测，有2K个结果，另一部分进行bbox的回归预测，有4K个结果。

另外需要注意的一个地方是，从SSH的网络结构中可以看到，conv4-3之后没有直接接入M1，而是在M1模块之前让conv4-3的结果和conv5-3的结果进行了特征融合后，才接入M1。这部分的安排实际上来源于语义分割，主要是为了增加语义信息。

总体而言，相对于原始图像来说，输入M1的特征图大小是在原始图上进行了stride=8的下采样，输入M2的特征图大小是在原始图像进行了stride=16的下采样，而输入M3的特征图大小是在原始图像进行了stride=32的下采样。

训练过程

1. 检测器分配
由于算法是同时处理三种不同尺度的人脸，那么在训练的时候需要为每种模块分配不同尺度的anchor从而来进行反向传播训练。这里，作者是根据anchor的大小来进行区分的。对于产生的小的anchor，则分配给M1模块进行检测，对于中等大小的，则分配给M2，对于大的则分配给M3。

Faster RCNN中对anchor与ground-truth的处理方式是：目标区域产生的anchor都与ground-truth之间进行IOU计算，结果中排序最大的则认为是该目标的目标anchor，将来就对该anchor进行回归，使其逼近ground-truth，这样可以保证每个ground-truth都有一个anchor与其对应。而本文的处理方式是，仅仅对anchor与ground-truth之间的IOU大于0.5的则为该anchor对应这个ground-truth。这样做的好处是：如果某一个anchor比较小，那么其与小的人脸的IOU会满足大于0.5这个条件，而对一个中等大小的人脸的IOU则不会满足这样的条件，因此，可以通过这样的方式，将该anchor分配给M1来进行分类和回归；同理，对于另外一些中等大小的anchor，其与中等大小的人脸之间的IOU大于0.5，则分配给M2来进行分类和回归。对于大的anchor则分配给M3。这样就解决了不同尺度的人脸的检测器分配问题。即使有多个anchor对应一个ground-truth，那么后期也可以通过NMS进行处理，保证结果的唯一性。

2. 损失函数

图4 损失函数形式

$l_c$ 为分类损失。k表示三种检测模块中的某一个，假设是M1模块，则k=1；N则表示M1模块中与ground-truth之间的IOU大于0.5的所有anchor总数。A表示M1模块所要检测的特征图中所产生的所有anchor总数。p和g分别表示预测概率和真实标签。而负样本定义为任何与ground-truth之间的IOU小于0.3的anchor。
$l_r$ 为bbox回归损失。这里要学习的目标与Faster RCNN一致：
$\begin{aligned} t_x&=(x-x_a)/w_a \\ t_y&=(y-y_a)/h_a \\ t_w&=log(w/w_a) \\ t_h&=log(h/h_a) \\ \end{aligned}$

损失函数为smooth-L1：
$smooth_{L1}(x) = \begin{cases} 0.5x^2, & \text {if |x|<1} \\ |x|-0.5 &, \text{otherwise} \end{cases}$

OHEM

OHEM是所有目标检测算法都要面临的一个问题，因为实际中正负样本太不均衡了。本文作者对每个detection模块都进行了OHEM：使用负样本中与ground-truth之间IOU最大的样本与正样本中与ground-truth之间IOU最小（但大于0.5）的样本组成一个mini-batch来进行训练。但由于负样本实在太多，作者有25%的mini-batch中仅仅使用了正样本。OHEM对于SSH的表现起到了很关键的作用。

训练中所采用的尺度为M1：{1，2}， M2：{4，8}， M3：{16，32}。纵横比是固定的，最小的anchor尺寸为16*16。每张图像中，每个检测模块输出256个检测结果。而在预测的时候，每个模块输出1000个最佳检测结果，最终将这些结果进行阈值为0.3的NMS合并。
另外提一句，作者使用了4块GPU进行并行训练，一个mini-batch是4。