#今日论文推荐# 超越YOLO5-Face | YOLO-FaceV2正式开源Trick+学术点拉满，让你欲罢不能_yolo-facev2: a scale and occlusion aware face dete-CSDN博客

#今日论文推荐# 超越YOLO5-Face | YOLO-FaceV2正式开源Trick+学术点拉满，让你欲罢不能

近年来，基于深度学习的人脸检测算法取得了长足的进步。这些算法通常可以分为两类，即像 Faster R-CNN 这样的两阶段检测器和像 YOLO 这样的单阶段检测器。由于精度和速度之间更好的平衡，单阶检测器已广泛用于许多应用中。
在本文中提出了一种基于单阶检测器 YOLOv5 的实时人脸检测器，命名为 YOLO-FaceV2。
作者设计了一个名为RFE的感受野增强模块来增强小人脸的感受野，并使用NWD Loss来弥补IoU对微小物体位置偏差的敏感性。对于人脸遮挡提出了一个名为 SEAM 的注意力模块并引入了排斥损失来解决它。
此外，使用权重函数 Slide 来解决简单样本和困难样本之间的不平衡问题，并使用有效感受野的信息来设计Anchor。
WiderFace 数据集上的实验结果表明，YOLO-FaceV2优于 YOLO。

人脸检测是很多人脸相关应用中必不可少的步骤，例如人脸识别、人脸验证和人脸属性分析等。随着近年来深度卷积神经网络的蓬勃发展，人脸检测器的性能得到了极大的提升。已经提出了许多基于深度学习的高性能人脸检测算法。一般来说，这些算法可以分为两个分支。

典型的基于深度学习的人脸检测算法的一个分支使用神经网络的级联方式作为特征提取器和分类器来检测从粗到细的人脸。尽管它们取得了巨大的成功，但值得注意的是，级联检测器存在一些缺点，例如训练困难和检测速度慢。

另一个分支是从通用目标检测算法改进而来的。通用目标检测器考虑了目标更常见的特征和更广泛的特征。因此，特定于任务的检测器可以共享这些信息，然后通过特殊设计强制执行这些壮观的属性。一些流行的人脸检测器，包括 YOLO、Faster R-CNN 和 RetinaNet 都属于这一类。

在本文中，受 YOLOv5、TridentNet 和 FAN 中的注意力网络的启发，提出了一种新颖的人脸检测器，它实现了单阶段人脸检测的最新技术。

尽管深度卷积网络显著改善了人脸检测，但在现实场景中检测具有高度变化的人脸、姿势、遮挡、表情、外观和照明仍然是一个巨大的挑战。在之前的工作中提出了 YOLO-Face，这是一种基于 YOLOv3 的改进人脸检测器，主要关注尺度方差问题，设计适合人脸的Anchor比率，并利用更准确的回归损失函数。WiderFace 验证集上 Easy、Medium 和 Hard 的 mAP 分别达到了 0.899、0.872 和 0.693。从那时起，出现了各种新的检测器，人脸检测性能得到了显著提高。

然而，对于小目标，单阶段检测器必须以更细的粒度划分搜索空间，因此容易造成正负样本不平衡的问题。此外，复杂场景中的人脸遮挡会显著影响人脸检测器的准确性。针对人脸尺度变化、样本不平衡、人脸遮挡等问题，本文提出了一种基于 YOLOv5 的人脸检测方法，称为 YOLO-FaceV2。

通过仔细分析人脸检测器遇到的困难和YOLOv5检测器的不足，提出了以下解决方案：

多尺度融合：

在很多场景下，图像中通常存在不同尺度的人脸，人脸检测器很难将它们全部检测出来。因此，解决不同尺度的人脸是人脸算法非常重要的任务。

目前，解决多尺度问题的主要方法是构建金字塔来融合人脸的多尺度特征。例如，在 YOLOv5 中，FPN 融合了 P3、P4 和 P5 层的特征。但是对于小尺度的目标，经过多层卷积后信息很容易丢失，保留的像素信息很少，即使在较浅的P3层也是如此。因此，提高特征图的分辨率无疑有利于小目标的检测。

注意力机制：

在很多复杂的场景中，经常会出现人脸遮挡，这是导致人脸检测器准确率下降的主要原因之一。

为了解决这个问题，一些研究人员尝试使用注意力机制来提取面部特征。FAN 提出了Anchor-Level Attention。他们提出解决方案是保持无遮挡区域的响应值，并通过注意力机制来补偿遮挡区域降低的响应值。但是，它并没有充分利用通道之间的信息。

困难样本：

在单阶段检测器中，许多边界框没有被迭代过滤掉。所以单阶段检测器中的简单样本数量非常大。在训练过程中，它们的累积贡献支配了模型的更新，导致模型的过拟合。这被称为不平衡样本问题。

为了解决这个问题，Lin 等人提出 Focal Loss 为困难的样本示例动态分配更多权重。与focal loss类似，Gradient Harmonizing Mechanism (GHM) 抑制正负简单样本的梯度，以更多地关注困难样本。Cao等人提出的Prime Sample Attention (PISA)。根据不同的标准为正负样本分配权重。然而，目前的硬样本挖掘方法需要设置的超参数过多，在实践中非常不方便。

Anchor design：

CNN特征图中的一个区域有两种感受野，理论感受野和实际感受野。实验表明，并非感受野中的所有像素都响应相同，而是服从高斯分布。这使得基于理论感受野的anchor尺寸大于其实际尺寸，使得bounding box的回归更加困难。Zhang等人根据S3FD中的有效感受野设计了anchors的大小。FaceBoxes设计了多尺度anchor来丰富感受野，并在不同层上离散anchors来处理各种尺度的人脸。因此，anchor box的尺度和比例的设计非常重要，这对模型的准确性和收敛过程有很大的好处。

回归损失：

回归损失用于衡量预测边界框和地面实况边界框之间的差异。目标检测器中常用的回归损失函数有 L1/L2 损失、平滑 L1 损失、IoU 损失及其变体。YOLOv5 将 IoU 损失作为其目标回归函数。然而，对于不同尺度的物体，IoU 的敏感性差异很大。不难理解，对于小目标，轻微的位置偏差会导致 IoU 显著下降。Wang等人提出了一种基于Wasserstein距离的小目标评价方法，有效减轻小目标的影响。然而，他们的方法对大型目标的执行并不那么重要。

在本文中，针对上述问题设计了一种基于 YOLOv5 的新人脸检测器。目标是找到一个最优的组合检测器，有效地解决小人脸、大尺度变化、遮挡场景和不平衡的难易样本问题。

首先，融合 FPN 的 P2 层信息，以获得更多的像素级信息并补偿小人脸的信息。但是这样一来，大中型目标的检测精度会因为输出的特征图感知场变小而略微降低。为了改善这种情况，为 P5 层设计了感受野增强 (RFE)，它通过使用扩张卷积来增加感受野；
其次，在 FAN 和 ConvMixer 的启发下重新设计了一个多头注意力网络来补偿被遮挡的面部响应值的损失。此外，还引入了 Repulsion Loss 来提高类内遮挡的召回率。
第三，为了挖掘硬样本，受 ATSS 启发，设计了具有自适应阈值的 Slide 权重函数，使模型在训练期间更加关注硬样本。
第四，为了让anchor更适合回归，根据有效感受野和人脸比例重新设计anchor尺寸和比例。
最后，借用了 Normalized Wasserstein Distance 度量并将其引入回归损失函数中，以平衡 IoU 在预测小人脸方面的不足。

总之，提出了一种新的人脸检测器 YOLO-FaceV2，其中突出的贡献如下:

对于多尺度人脸检测，感受野和分辨率是关键因素。因此，设计了一个感受野增强模块（称为 RFE）来学习特征图的不同感受野并增强特征金字塔表示。
将人脸遮挡分为两类，即不同人脸之间的遮挡，以及其他物体对人脸的遮挡。前者使得检测精度对 NMS 阈值非常敏感，从而导致漏检。作者使用排斥损失进行人脸检测，它惩罚预测框转移到其他真实目标，并要求每个预测框远离具有不同指定目标的其他预测框，以使检测结果对 NMS 不太敏感。后者导致特征消失导致定位不准确，设计了注意力模块 SEAM 来增强人脸特征的学习。
为了解决难易样本不平衡的问题，根据IoU对易难样本进行加权。为了减少超参数调整，作者将所有候选正样本的 IoU 的平均值设置为真实样本和负样本之间的分界线。并设计了一个名为 Slide 的加权函数来赋予难样本更高的权重，这有助于模型学习更难的特征。

论文题目：YOLO-FaceV2: A Scale and Occlusion Aware Face Detector
详细解读：https://www.aminer.cn/research_report/62f11ec27cb68b460ffe8e80https://www.aminer.cn/research_report/62f11ec27cb68b460ffe8e80
AMiner链接：https://www.aminer.cn/?f=cs