人脸检测
高性能人脸检测仍然是一个非常具有挑战性的问题,特别是在有很多小尺度人脸的情况下。今天分享的作者就提出了一种新的single-shot人脸检测方法-选择性细化网络(SRN),它将新的两步分类和回归操作选择性地引入到基于锚点的人脸检测器中,以减少假阳性,同时提高定位精度。
特别是SRN由两个模块组成:选择性两步分类(STC)模块和选择性两步回归(STR)模块。STC的目的是从低层检测层中筛选出大多数简单的负样本锚,以减少后续分类器的搜索空间,而STR的目的是粗略地调整高层次检测层中锚的位置和大小,以便为后续的回归器提供更好的初始化。
此外,还设计了一个感受野增强(RFE)模块,以提供更多样化的感受野,这有助于更好地捕捉一些极端姿势的面孔。因此,所提出的SRN检测器在所有广泛使用的人脸检测基准(包括AFW、PASCAL人脸、FDDB和WIDER FACE数据集)上都取得了最优的性能。
上世纪90年代,人脸检测就是一个极具挑战性的研究领域。Viola和Jones首先使用Haar特征和Adaboost对人脸检测器进行训练,具有很好的准确性和效率,之后激发了几种不同的方法(【1】Liao, S.; Jain, A. K.; and Li, S. Z. 2016. A fast and accurate unconstrained face detector. TPAMI;【2】Brubaker, S. C.; Wu, J.; Sun, J.; Mullin, M. D.; and Rehg, J. M. 2008. On the design of cascades of boosted ensembles)。除了那些之外,另一个重要的工作是引入可变形的部件模型(DPM)。
最近,基于CNN的方法已经在人脸检测占据了重要位置。Cascade CNN通过训练一个复杂的CNN提高了检测精度。Qin等人建议对级联的CNNs进行联合训练,实现端到端优化(Qin, H.; Yan, J.; Li, X.; and Hu, X. 2016. Joint training of cascaded CNN for face detection. In CVPR.)。MTCN提出了多任务级联的检测和对齐方法。Faceness将人脸检测作为对人脸部件进行评分,以检测严重遮挡下的人脸。UnitBox引入IoU损失用于边界框预测。EMO提出了一个预期的最大重叠分数,以评估锚匹配质量。SAFD开发了一个尺度候选阶段,该阶段自动标准化检测前的人脸尺寸。SSAP注意力在图像金字塔中的特定比例和每个刻度层中的有效位置。最近的工作(Bai, Y.; Zhang, Y.; Ding, M.; and Ghanem, B. 2018. Finding tiny faces in the wild with generative adversarial network. In CVPR)设计了一种新的网络,从一个很小的模糊中以直接产生清晰的超分辨率人脸。
此外,人脸检测还继承了一般目标检测器的一些成就,如 Faster RCNN、SSD、FPN和RetinaNet 。
Face R-CNN(Ren, S.; He, K.; Girshick, R. B.; and Sun, J. 2017. Faster R-CNN: towards real-time object detection with region proposal networks. TPAMI)将Faster R-CNN 与难样本挖掘结合起来,并取得了优秀的结果。Face Boxes引入了一种基于SSD的CPU实时检测器。Face R-FCN在人脸检测中应用R-FCN ,并做出相应的进行改进。人脸检测模型为了寻找微小人脸为不同的尺度训练单独的探测器。S3FD在SSD上提出了多种策略,以补偿小面孔的匹配问题。SSH在每个预测模块上使用大型过滤器对上下文信息进行建模。PyramidBox利用具有改进的SSD网络结构的上下文信息。FAB提出了一个anchor-level的注意力引入RetinaNet,以检测被遮挡的人脸。
作者受RefineDet中的多步分类和回归启发和RetinaNet的focal loss,开发了一种最先进的人脸检测器。
框架的主干是ResNet-50,有着6层特征金字塔结构用于SRN。特征图主要从C2、C3、C4和C5提取获得,C6和C7仅仅通过两个简单的下采样得到。自下而上和自上而下通道之间的横向结构是相同的。
Dedicated Modules
STC模块选择C2、C3、C4、p2、p3和p4执行两步分类,而STR模块选择C5、C6、C7、p5、p6和p7进行两步回归。RFE模块负责丰富特征的感受野用于预测目标的类别和位置。
Selective Two-Step Classification
Selective Two-Step Regression
然而,盲目地在特定任务( 即人脸检测)中添加多步回归往往适得其反,实验结果(见下表 )表明三个较低金字塔水平的两步回归损害了性能。
这种现象背后的原因有两个: 1) 三个较低的金字塔层次是相关的,有大量的小锚来探测小面孔。 这些小面孔的特征是非常粗糙的特征表示,因此这些小锚很难进行两步回归; 2) 在训练阶段,如果让网络太关注难样本的回归,在低金字塔水平上的任务,它会导致更大的回归损失和阻碍更重要的分类任务。
在上述分析的基础上,我们选择性地对三个较高的金字塔水平进行了两步回归。这种设计背后的动机是充分利用三个较高金字塔层次上大面的详细特征来回归更精确的边界框位置,并使三个较低的金字塔层次更加关注分类任务。这种分而治之的策略使整个框架更加有效。STR损失如下:
Receptive Field Enhancement
各种设计的有效性
在不同数据集上的评估
END
如果想加入我们“计算机视觉战队”,请扫二维码加入学习群。计算机视觉战队主要涉及机器学习、深度学习等领域,由来自于各校的硕博研究生组成的团队,主要致力于人脸检测、人脸识别,多目标检测、目标跟踪、图像分割等研究方向。
我们开创一段时间的“计算机视觉协会”知识星球,也得到很多同学的认可,我们定时会推送实践型内容与大家分享,在星球里的同学可以随时提问,随时提需求,我们都会及时给予回复及给出对应的答复。