AI技术 | 过年黑夜中也可以准确检测识别（附论文下载）-CSDN博客

本文链接：https://blog.csdn.net/gzq0723/article/details/122780316

计算机视觉研究院专栏

作者：Edison_G

在弱光图像中进行人脸检测具有挑战性，因为照片数量有限，而且不可避免地会有噪声，而这些噪声往往在空间上分布不均匀，使得这项任务更加困难。

长按扫描二维码关注我们

一、简要

在弱光图像中进行人脸检测具有挑战性，因为照片数量有限，而且不可避免地会有噪声，而这些噪声往往在空间上分布不均匀，使得这项任务更加困难。一个自然的解决方案是借用多重曝光的想法，即在具有挑战性的条件下捕捉多个镜头以获得良好曝光的图像。然而，对单一图像进行高质量的多重曝光的实现/近似是很重要的。

幸运的是，如今天分享的所示，由于现在的任务是人脸检测而不是图像增强，因此也不需要如此高质量。具体来说，有研究者提出了一种新的经常性曝光生成（Recurrent Exposure Generation，REG）模块，并将其与多重曝光检测（MED）模块无缝耦合，从而通过有效地抑制不均匀的照明和噪声问题来显着提高人脸检测性能。REG逐步有效地生成与各种曝光设置相对应的中间图像，然后由MED融合这些伪曝光，以检测不同照明条件下的人脸。所提出的方法名为REGDet，是第一个用于弱光人脸检测的“增强检测”框架。它不仅鼓励在不同照明水平上进行丰富的交互作用和特征融合，而且还使REG组件的有效端到端学习更适合于人脸检测。

此外，正如发布的实验清楚显示的那样，REG可以灵活地与不同的面部检测器耦合，而无需对额外的低/正常光图像进行训练。研究者在DARK FACE微光面部基准测试中通过彻底的消融测试对REGDet进行了测试，其中REGDet仅以微不足道的额外参数就大大超过了现有技术水平。

二、背景

作为许多人脸相关系统的基石，人脸检测一直吸引着长期的研究关注。

它在以人为中心的重识别，人工分析中有广泛的应用。尽管近十年取得了巨大的进展，但人脸检测仍然具有挑战性，尤其是在恶劣光照条件下的图像。在弱光条件下捕获的图像通常会使其亮度降低，强度对比度被压缩，从而混淆了特征提取，损害了人脸检测的性能。光照差也会引起恼人的噪音，进一步破坏人脸检测的结构信息。更糟糕的是，一张图像中的照明状态可能在空间上变化很大。为了对不利光照条件下的人脸检测算法进行系统评估，最近构建了一个具有挑战性的基准-DARK FACE，它显示了最先进的人脸检测器有明显的性能下降。例如，DSFD产生的mAP为15.3%，与流行的WIDER FACE基准测试的90%以上形成鲜明对比。DARK FACE数据集上的人脸探测器的显著性能退化清楚地表明，在弱光条件下检测人脸仍然极具挑战性，这是本此分享的主要重点。

可以通过下图简单了解下检测的效果对比：

然而如上图所示（b-c），还有一个很大的改进空间。由于一个原因，图像增强的目的是提高整个图像的视觉/感知质量，而这与人脸检测的目标并不完全一致。例如，增强有噪声图像的平滑操作可能会破坏对检测至关重要的特征可识别性。这表明增强和检测组件之间的紧密集成，并指出了端到端“增强检测”解决方案。

Low-Light Face Detection

弱光人脸检测一直吸引着长期的研究。在手工制作特征的时代，人们一直在努力理解和解决非均匀照明的问题。近年来，人们对低分辨率图像、低光图像、弱光图像等低质量图像的数据驱动人脸检测的方法越来越感兴趣。光照变化是现代人脸检测算法的一个主要挑战。开创性的方法是通过强度映射来预处理图像，如对数变换和伽马变换。光度归一化是另一种常用的方法，它可以在手工制作的特征和基于深度学习的方法中抵消不同的光照条件。手工制作的基本特征的方法从图像差异或梯度等各种先验得到光照不变性，而基于深度学习的方法使用随机光度作为增强，以隐式地增强光照不变性。

尽管之前有研究，在极其恶劣的光条件下的人脸检测已经被探索中，部分原因是缺乏高质量的标签数据。针对这个问题，有研究者提出了一个大型的人工标记的低光人脸检测数据集——DARK FACE，并表明现有的人脸探测器在任务上表现很差。因此，今天分享的工作是在基准上的激励和评估，并明显优于以前的艺术。基线实验表明，尽管现在取得了显著的成功，但即使只是使用现有的低光增强方法预处理图像，即使是训练良好的人脸检测器也不太理想。

三、新框架及分析

Recurrent Exposure Generation Module

所提出的REG模块利用历史生成的图像来维护递归神经网络(RNN)框架中的关键区域细节。从I和初始隐藏状态H=0开始，REG递归生成递归的T中间伪曝光I，表述为：

其中，Fθ和Gω分别表示该模块的编码器和解码器，并具有对应的参数θ和ω。由四个级联卷积递归层组成的编码器负责将输入图像转换为多个尺度（层）的特征图，而由两个卷积层组成的解码器学习将特征映射解码回图像，如上图所示。

第l层中的REGUFL可用以下方程式来描述：

Pseudo-Supervised Pre-Training of the REG Module

研究者采用了[Z. Ying, G. Li, and W. Gao. A Bio-Inspired Multi-Exposure Fusion Framework for Low-light Image Enhancement. arXiv:1711.00591 [cs]]中提出的相机响应模型，该模型可以描述在没有相机信息可用时像素值和曝光比之间的一般关系。它的BTF是贝伽玛修正的形式：

作为一个端到端系统，REGDet允许在学习期间联合优化REG和MED模块。直观地说，MED提供了面部位置信息来引导REG，以便面部区域可以被特别地增强来进行检测。下图的最右栏显示了一个示例检测结果。结果表明，REGDet成功地定位了更多的中间图像，而不是简单地应用基础检测器定位更多的人脸。

值得注意的是，MED在选择基础探测器方面很灵活。在实验中，一些最先进的算法，如DSFD、PyramidBox和S3FD，在嵌入REGDet时都显示了明显的性能改进。

四、实验及可视化

Alternative pseudo-exposure generation modules

𝐼𝐼 𝐼𝐼
Results of a4blation study on the proposed REG module

计算机视觉研究院学习群等你加入！

计算机视觉研究院主要涉及深度学习领域，主要致力于人脸检测、人脸识别，多目标检测、目标跟踪、图像分割等研究方向。研究院接下来会不断分享最新的论文算法新框架，我们这次改革不同点就是，我们要着重”研究“。之后我们会针对相应领域分享实践过程，让大家真正体会摆脱理论的真实场景，培养爱动手编程爱动脑思考的习惯！