1st Place Solutions for UG2+ Challenge 2021 - (Semi-) supervised Face detection in the low light con

本文介绍了团队在CVPR 2021 UG2+挑战中解决低光照条件下半监督人脸检测的方法。通过图像增强和域转移技术，结合多种检测框架（如级联RCNN），在测试集上达到mAP 74.89，排名第一。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

论文地址：https://arxiv.org/pdf/2107.00818.pdf

摘要

在本技术报告中，我们简要介绍了我们的团队“TAAI”解决CVPR 2021中UG2+挑战的（低）光条件下半监督人脸检测的解决方案。通过使用流行的图像增强方法和图像变换方法进行一些实验，我们将弱光图像和正常图像拉到一个更接近的区域。并且观察到使用这些数据进行训练可以获得更好的性能。我们还采用了几种流行的对象检测框架，例如检测器、级联RCNN和大型主干网（如Swin transformer）。最后，我们整合了几个模型，这些模型在测试集上达到了mAP 74.89，在最终排行榜上排名第一。

1 引言

CVPR 2021微光环境挑战中的半监督人脸检测是UG2+奖挑战工作坊的一部分。在这个任务中，我们需要检测弱光图像中的人脸。此外，给定的DARKFACE数据集有6000个弱光图像和相应的人脸注释（一些是图1所示的极弱光条件）作为训练集和验证集，最终测试集由4000个微光图像组成。根据[17]，这些样本是在北京周边的几个繁忙街道上采集的，这些街道上包含各种比例和姿势的人脸，这些图像的分辨率为1080×720（从6K×4K向下采样）。
在这里插入图片描述

2 方法概述

在[17]中所述的先前工作中，两阶段方法获得了最佳结果。他们的方法通常使用WIDER FACE[16]预训练模型，然后在适当预处理的DARK FACE集上进行微调。我们遵循这个想法来探索我们的方法，但不同的是，训练集不仅包括预处理的DARK FACE集，还包括外部集。此外，我们使用WIDERFACE和UFDD[10]作为外部集合。
在这项工作中，我们试验了图像增强方法[8,6]和几种目标检测框架。对于图像增强方法，我们按照[8]和[6]中的实验设置来处理给定的弱光图像。此外，在[14]之后，我们将普通图像（如WIDERFACE、UFDD数据集）传输到处理后的DARK FACE图像的较近域。此外，我们将每个图像的显著性映射[7]聚合到网络的输入，以抑制假阴性结果。之后，我们评估了不同目标检测框架的性能[3,11,5]。最后给出了实验结果和结论。

2.1 低光照图像增强

为了增强弱光图像的暗照明，我们采用了MSRCR[8]，实现了同步的动态范围压缩/颜色一致性/亮度再现。增强图像如图3所示。此外，还使用了另一种数据驱动的亮度恢复方法[6]，该方法将光增强作为使用深度网络进行图像特定曲线估计的任务。亮度恢复结果如图5所示。
在这里插入图片描述

此外，从增强的弱光图像 $R_{msrcr}$ 中提取的显著性图 $R_{saliency}$ [7]已在 $R_{msrcr}$ 上融合以抑制假阴性结果，融合结果 $R_{saliency enhanced}$ 具有：
在这里插入图片描述
其中α在我们的工作中设置为0.3，结果如图4所示

2.2. 正常图像域传输

与使用WIDERFACE和UFDD作为预训练集不同，我们将它们与预处理的DARKFACE作为一个整体进行合并，以构建更健壮的检测器。考虑到预处理的DARKFACE样本与[14]中所述的正常图像（WIDERFACE，UFDD）之间的域间隙，我们首先将WIDERFACE和UFDD转移到处理的暗面集的更近的域。有两种不同的方法来实现它，传统的方法是将正常图像变暗，添加噪声，然后用MSRCR进行处理[8]，结果如图6所示。另一种类似于[14]的方法，使用Pix2Pix网络来合成噪声，如图7所示。基于上述微光增强和域转移方法，我们可以获得由微光增强图像和域转移正常图像组成的更接近域的训练样本。
在这里插入图片描述

2.3 检测方法

我们基于两级检测框架构建了一个弱光人脸检测器，包括级联R-CNN[3]，检测器[11]。以Cascade R-CNN为例进行详细描述，整个框架如图2所示。
在这里插入图片描述
数据集分割首先，根据每幅图像中的人脸数量将DARKFACE集分割成若干组，然后随机选取每组10%的样本作为验证部分，其余90%的数据作为训练部分。我们使用第2.1节中描述的数据增强方法来预处理DARKFACE样本。我们还将WIDERFACE和UFDD数据集添加到我们的训练集中，这些数据集通过2.2描述的方法进行预处理
训练策略 论文进行了多尺度训练，调整样本范围从[2160,1440]到[4320,2880]，并对其应用大小为[1000,800]的随机裁剪。并且使用图像增强工具来在线处理训练样本，包括随机亮度，颜色抖动等。此外，还要使用AdamW优化器，初始学习率为0.0001，在27和33个epoch中进行线性衰减，共36个epoch，权重衰减为0.05。
模型重构 特征表示一直是物体检测任务的关键点，而骨干网络对特征表示的能力有非常重要的影响。因此，论文采用Swin-Transformer和ResNet两个架构。此外，还采用了PAFPN来代替级联R-CNN中的FPN。在分析了DARKFACE数据集的人脸大小分布后，研究人员注意到小尺寸的人脸占主导地位。因此，论文设置了更多的小锚点来捕捉更多小的人脸。论文在主干中加入了注意力模块GCnet，从而获得更强大的表征，同时RoI-align模块也被用来预测更精确的边界框。
在这里插入图片描述
模型组合 最后，论文用Swin-large、Swin-base、ResNet50等不同的骨架训练Cascade R-CNN和DetectorRS，以获得更好的检测器多样性结果。论文使用加权边界框融合(WBF)和测试时数据增强(TTA)方法将检测器的预测组合，并在模型组合过程中使用了Soft-NMS。
在这里插入图片描述

3.结论

在对CVPR 2021中UG2+激发的弱光条件下（半监督）人脸检测中，我们采用两种低光图像增强方法来实现亮度再现。此外，为了获得更多的训练图像，我们将大量的普通图像（WIDERFACE和UFDD）转移到一个更接近亮度再现图像的区域。最后，我们使用几个强大的检测器来定位人脸的边界框。在我们未来的工作中，我们将探索端到端的解决方案处理这项工作的检测方法。