本研究全面回顾了低光行人检测方法的最新发展。系统地分类和分析了从基于区域的到非区域的以及基于图的机器学习方法论,突出他们的方法论、实现问题和挑战。全面了解暗光条件下的目标检测算法

行人检测已成为许多高级任务的基础,包括自动驾驶、智能交通和交通监控。针对可见图像的行人检测研究主要集中在白天。然而,当环境条件变为恶劣的照明或夜间时,这个任务变得非常有趣。

最近,由于使用替代来源的想法被激发,例如使用远红外(FIR)温度传感器输入用于在低光条件下检测行人。本研究全面回顾了低光行人检测方法的最新发展。它系统地分类和分析了从基于区域的到非区域的以及基于图的机器学习方法论,通过突出他们的方法论、实现问题和挑战。

它还概述了可以用于研究和发展高级行人检测算法的关键基准数据集,特别是在低光情况下。

1 Introduction

行人检测已成为现代智能交通系统(ITS)、安全和监控等视觉应用的基础。它是从数据采集设备(如视觉摄像头和热电堆传感器)的输入数据中识别人类运动的过程,用于对场景进行语义理解。与其他形式的物体检测相比,行人检测更重要,因为它直接关系到人们的生命安全。因此,它有严格的操作标准,如更高的检测准确率和实时性能,这对上述智能系统至关重要。为了解决这个问题,计算机视觉和机器学习研究人员通过利用技术进步,提出了几种方法,如图1所示。

目标检测~暗光条件_红外

Evaluation of Pedestrian Detection

行人检测任务主要经历了人工智能(AI)的两个重要时期 - 传统的机器学习(ML)基础的目标检测时期和现代深度学习(DL)基础的目标检测时期。传统方法可能起源于Viola和Jones提出的第一张人脸检测器,使用Haar级联特征。后来,它被用于其他目标检测任务,包括行人检测。

在这个领域,Dalal和Triggs提出了HOG描述子,特别是用于精确行人检测。这个描述子通过计算输入图像中特定局部区域的梯度幅度和边缘方向来关注目标的结构性信息。由于它使用梯度幅度和角度创建直方图特征,因此优于其他当代描述子。

随后,Felzenszwalb等人引入了DPM用于目标检测,该模型可以使用滑动窗口将行人分类到多种不同的部分。这种算法在多个应用中一直产生最佳检测结果;然而,滑动窗口方法在遍历所有可能的位移和窗口大小时比计算资源更加沉重,因为它需要遍历每个可能的位置和窗口大小比例。

在深度学习时代的出现中,RCNN被引入用于使用结构化的多层神经网络中的卷积操作进行层次特征提取。这种方法主导了目标识别/检测任务的发展,并完全将其转移到深度学习范式中。在RCNNs中ROI是通过在选择性搜索操作上进行训练的目标分类器和边界框回归器来提出的。这种策略通常被认为是一种两阶段的检测框架,其中第一阶段是特征提取器,第二阶段是目标检测器。

为了克服RCNN的缺点,如严格的训练过程和延长的检测时间,开发了Fast-RCNN 和 Faster-RCNN 模型作为基线RCNN模型的改进版本。然而,基于区域的途径仍然面临检测速度慢的局限性,这对于实时应用来说是不希望的。

例如,当涉及到检测行人,特别是自动驾驶应用以防止事故时,检测速度至关重要。为了应对基于区域的物体检测器的局限性,也称为非区域技术的一阶段检测器,包括YOLO,SSD和 RetinaNet 等技术被引入。这些模型的检测速度显著提高,因为每个区域的物体边界框和类别概率是同时预测的。通过在特征图上放置一系列Anchor点,与两阶段检测框架相比,一阶段检测模型可以立即预测物体中心和物体边界框。

Motivation

在自动驾驶环境中,在瞬间检测到行人的鲁棒机制是一项艰巨的任务,特别是在低光环境中。为了解决这个问题,最近的研究工作集中在特征增强和行人准确检测的融合技术上。这激发了本研究对基于融合的低光图像增强技术进行全面回顾,以及使用可见和红外图像在低光环境中进行行人检测。

虽然最近有许多行人检测算法方面的调查文章发布,但关注低光或夜间行人检测的研究非常少。为此,本文实际调查了低光环境下的行人检测关键方法论,以及它们的基本实现问题和挑战。

Overview of the Existing Relevant Surveys and the Contributions of this Study

总的来说,现有的调查主要覆盖了目标检测方法的一些方面,并没有分析最先进的基于图的学习策略,特别是对于在低光条件下的行人检测。例如,Ahmed等人和Sobbahi和Tekli研究了在低光环境中的物体检测改进。

另一方面,Ahmed等人,Cao等人,Xiao等人没有研究低光环境下的行人检测算法的挑战。在现有的调查中,Anirudh等人提供了一种低光物体检测技术的概述。那份调查评估了几种低光图像增强方法,包括灰度变换、直方图均衡化、Retinex-based技术、频域分析、图像融合和去雾。

与传统方法相比,作者认为基于深度学习的模型将低光图像增强视为残差学习问题,并且在提高低光图像质量方面表现出鲁棒性。

另一方面,Ahmed等人关注了各种基于深度学习的物体检测算法,如Faster R-CNN、Mask R-CNN、SSD、YOLO、Retina-Net和Cascade Mask R-CNN,通过实证分析来评估它们的计算效率。Sobbahi和Tekli提供了一项关于低光图像(LLI)增强的基于深度学习方法的比较研究。

他们的研究处理了低光图像增强两种策略:(a)一个离线的独立图像增强任务,(b)将图像预处理阶段集成到端到端训练模型中以实现高级计算机视觉任务的一个在线预处理阶段。然而,[12]并未扩展到低光行人检测的讨论。

Dhillon和Verma回顾了各种CNN架构,突出了它们的特征,重点关注三个应用-野生动物检测、轻武器检测和人类检测。与此同时,另一个调查的作者回顾了行人识别和意图评估的进步。这份调查在算法方面类似于,具体来说是深度学习模型,而在本研究中覆盖了这些模型。然而,它们之间的主要区别如下。

虽然关注于通用物体检测,但从自动驾驶的角度关注行人和自行车检测。Xiao等人也回顾了处理被遮挡和多尺度行人检测问题的基于深度学习的行人检测算法。Cao等人提供了关于行人检测特征选择策略的广泛回顾。他们的研究包括使用人工构建的特征、深度特征(即基于CNN的特征)以及手工制作和深度特征的模型。

目标检测~暗光条件_数据集_02

表1总结了领域内现有调查论文与本篇文章的区别。总的来说,本文的主要贡献如下。

  1. 对可见和红外(IR)融合技术以及深度学习方法进行行人检测在低光环境下的分类审查。
  2. 低光行人检测基准数据集的全面概述。
  3. 深入讨论主要的研究空白和建议新兴研究路径。

Organization

如图2所示,第一部分奠定了行人检测的基础和概念,并阐述了本研究的意义。第二部分详细分析了先进的行人检测算法及其挑战。它分为两个子部分--使用融合策略的输入增强和行人检测模型。输入增强子部分检查了几个RGB和IR数据融合方法和它们的挑战。

目标检测~暗光条件_人工智能_03

进一步细分为基于CNN的融合方案和基于图注意力网络(GAN)的融合方案。行人检测模型子部分关注低光条件下使用深度学习方法检测行人。这个子部分分为几个组成部分,即区域方法、非区域方法和图神经网络(GNN)。

目标检测~暗光条件_行人检测_04

如图3所示,图像融合和行人检测技术的分类,以及通过树状图进行的子部分划分。第3部分关注广泛用于行人检测相关研究的基准数据集。第4部分提出了研究空白以及结论。

2 Review of Current Research on Pedestrian Detection in Low-Light Environment

Information Fusion Techniques for Image Enhancement

目标检测~暗光条件_数据集_05

如图4所示,通常用于低光行人检测特征增强的融合技术概念。它包括三个阶段:

  1. 特征提取器,从源输入中提取特征,
  2. 编码器,从可见和红外(IR)数据的两个流中获取特征
  3. 重构器,将编码信息组合成最终特征增强图像

现有融合方法性能和限制的总体概述和总结,如表2所示,位于第4页。

目标检测~暗光条件_人工智能_06

目标检测~暗光条件_红外_07

目标检测~暗光条件_人工智能_08

2.1.1 CNN-based Fusion

目标检测~暗光条件_行人检测_09

有六个基于CNN的融合技术,分别是输入融合、早期融合、中途融合、晚期融合、分数融合-I和分数融合-II,每个技术在网络的不同阶段(底层提供更精细的视觉信息,顶层提供更大的语义解释)结合颜色和热模态,如图5所示。

目标检测~暗光条件_人工智能_10

如图6所示,Deng等人提出了一种名为MLF-FRCNN的低光行人识别的多层融合(MLF)网络。在此方法中,RGB和红外通道的特征图被部署在各种CNN的各个层中以提取多尺度特征。特征金字塔模块使用提取的多层特征图进行预测。

作者进行了消融研究,以比较在各种照明条件下使用单模态RGB输入、单模态IR输入、中途融合和全MLF的MLF-FRCNN的性能。同样,[20]的作者提出了一种名为BlendNet AI的图像注册和融合模型,以应对在无人驾驶飞机(UAVs)高空和不同视角检测人的困难。因此,[20]中提出的方法使用增强相关系数(ECC)和带自定义权重的算术图像加法。它克服了使用UAV捕获的光学和热成像面临的诸如光线不足和复杂背景的挑战。Song等人[21]提出了一种可靠的Multi-Spectral Feature Fusion Network(MSFFN),它完全结合了来自红外和常规RGB光通道的数据。

他们的模型使用改进版的YOLOv3网络将由两个模块提取的多尺度语义特征融合,以实现鲁棒的行人识别。在KAIST基准数据集上的实验研究(参见第3节)表明,MSFFN模型在不同场景下(包括遮挡、不同物体尺寸和时间变化,如白天或夜晚)的表现优于单输入模态行人检测。

同样,Rashed等人[25]开发了一种融合架构,名为Fusemodnet,以解决自动驾驶中低光条件下移动目标检测问题。另一方面,李和吴[24]使用统计方法(潜在低秩表示(LatLRR))将可见和红外图像进行融合。

在其中,源图像被分解为低秩和突出特征,分别包含全局和局部结构信息。融合过程使用加权平均运算符将源图像的低秩分量组合在一起,而对于突出分量,它使用加法运算符进行源图像的集成。Pei等人[26]开发了一种新颖的架构,专门用于检测尽可能多的行人,通过将RGB和IR图像进行融合,如图7所示。

目标检测~暗光条件_人工智能_11

因此,作者对所提出的结构进行了实证研究,该结构包括两种融合阶段,例如早期融合(在特征学习之前发生)和晚期融合(在特征金字塔网络(FPN)之后发生),以及各种融合策略,如线性串联(在相同的空间位置堆叠两个特征图),应用数学运算符,包括求和、求最大和求平均。

他们的研究揭示了晚期融合与特征方法可以实现最高的检测率。原因如下:

  1. 早期融合模型无法捕获关键的多模态信息
  2. 通过特征金字塔网络(FPN)输出的两个弱特征图的算术求和创建了一个更强的多光谱特征图,该特征图嵌入多尺度物体信息,从而实现准确检测。

论文中的比较分析表明,所提出的模型在减少误率方面取得了最低的误率,并实现了出色的行人检测,同时仅用了最先进框架的一半运行时间。另一方面,Jinan等人使用了一种类似于UNet的融合方法,通过基于注意力的机制将独立的输入模态(IR和RGB)的编码瓶颈特征图融合,并逐步使用残差连接将解码特征图融合,如图8所示。

目标检测~暗光条件_数据集_12

这种对称编码器-解码器融合,带有残差块,被称为SEDRFuse。尽管这种方法的性能与类似的算法相当,但据报道,该模型具有更高的计算效率。

受到更快R-CNN和RPN架构的启发,Konig等人[39]研究了一种多光谱图像融合卷积神经网络,使用三个视觉光学(VIS)光谱通道和一个热红外(IR)通道。他们调整VGG-16,为RPN生成多光谱特征,并像[41]一样进行中途融合。他们使用特征图拼接和Network-In-Network(NIN)在基线网络的第一个五个卷积(Conv)层分析融合使用多光谱特征的行人检测性能。他们的实验研究显示,与其他当时存在的其他方法相比,在第三个卷积层进行融合并使用十个输入提议的方法在可接受的误差率方面达到了可接受水平。

与上述工作相反,Li等人[19]关注使用VGG-16和RPN构建照明感知的融合模型。首先,他们检查了图5中之前阐述的六个融合策略,并提出了一种基于照明条件的权值方案来整合颜色和热模量。权值融合的一个示例如图9所示。他们的消融研究显示,照明条件会影响行人检测的置信度。

目标检测~暗光条件_人工智能_13

然而,实验结果并未在夜间场景中得出关于所提出模型有效性的明确证据,因为仅使用热模量实现了最低的对数平均误率

2.1.2 GAN-based Fusion

最近,生成对抗网络(GANs)已越来越广泛地应用于红外和常规RGB图像的融合。例如,为了在红外和常规RGB输入中完全保留有效信息,作者们利用GAN和马尔可夫判别器,如图10所示。虽然它保持了高对比度的目标,但它保留了重要的背景纹理,并通过联合梯度损失消除了热成分的边缘扩散。

目标检测~暗光条件_红外_14

类似地, 在[28]中也对使用GAN进行红外和常规RGB图像融合进行了研究。在这里, Gao等人开发了一种密集连接解分隔表示生成对抗网络 (DCDR-GAN), 它通过解分隔表示将红外和常规RGB图像的内容和模式特征分开, 然后分别进行融合。[31] 与[28]之间的关键区别在于所使用的密集连接和训练模型的损失函数。

目标检测~暗光条件_红外_15

主观和客观实验研究显示, 这种纹理感知的融合模型可以实现比其他类似的先进融合方法更好的结果。然而, 这项研究并未涵盖该技术在高层次任务中的应用, 包括行人检测。

为了感知输入场景的判别性特征, [33]的研究者引入了一个基于 GAN的融合 (MgAN-Fuse) 的生成器中的多尺度注意力机制。它包括两个编码器模态, 带有注意力头, 以编码红外和常规 RGB图像, 如图11所示。

目标检测~暗光条件_红外_16

编码器的多尺度层产生多尺度注意力图, 有助于模型专注于最具判别性的元素, 使融合结果不仅保留前景目标, 还捕捉上下文信息。然后, 解码器将两个编码器的输出结果进行拼接, 以计算融合结果。与其他基于GAN的融合方法不同, MgAN-Fuse在生成器的总损失中考虑了特征损失, 如 (4) 所示。

目标检测~暗光条件_行人检测_17

在[36]中, 作者为现有的基于U形编码器-解码器架构的热视图像融合和显著性检测提供了逐步改进。为了提取和融合详细的语义信息, 他们在每个编码级别上都对RGB和热信息进行融合,称为局部细节驱动的融合模块。

使用这些融合特征计算跨模态权重, 以挖掘和融合增强后续编码器输入的高层次显著性细节,从而提高特征的有效性。通常, 这是一个从编码同时融合到最终显著性预测的单向网络。他们通过在各种基准数据集上的实验研究证明了他们的模型达到了可接受的性能。

Pedestrian Detection Techniques

近年来,许多行人检测技术已经提出并有效地应用于工业、社交和军事目的。行人检测模型开发的一般流程包括五个关键阶段,如图12所示:预处理、分割、特征提取、分类和评估。预处理阶段执行的操作包括将输入图像缩放到一定尺寸或将变形作为数据增强的一部分引入。

目标检测~暗光条件_行人检测_18

分割阶段根据强度、颜色等各方面将像素分组,其中,每个像素必须遵循一组预定的规则才能被归类为可以相互比较的区域。特征提取阶段,在基于区域的Methodologies中,使用不同的视觉特征,如直方图方向梯度(HOG)、中心对称局部二值模式(CSLBP)和定向角距离(OCD),来提取行人的特征。

目标检测~暗光条件_红外_19

最后,分类阶段旨在确定哪些候选区域对应于人体形式。分类器提供一个二进制标志,表示区域是否为阳性,即包括行人。如图13所示的图表简要地呈现了基于策略的不同行人检测方法,而表3总结了重要的相关工作,包括它们的性能、优点和缺点。

目标检测~暗光条件_数据集_20

目标检测~暗光条件_数据集_21

目标检测~暗光条件_数据集_22

目标检测~暗光条件_人工智能_23

2.2.1 Region-based Pedestrian Detection

基于区域的行人检测方法在自动选择的感兴趣区域(RoI)上执行行人检测。然而,当物体大小和照明条件或遮挡物体出现显著变化时,这些算法面临挑战。

为了应对这些挑战,[43]的作者提出了基于解卷积的信息融合在低尺度特征图上的方法,并使用多个特征尺度上的软最大非极大抑制(NMS)来应用。现有的基于区域的检测器使用默认的Anchor框(具有预定义大小)来生成目标提案。

但是在驾驶环境中,例如道路和高速公路,目标目标的尺寸不能超过一定的范围,例如车辆的宽度不应超过车道宽度。因此,为了更好地估计Anchor框设置,作者利用KITTI训练样本中目标的长宽比统计分布。在忽略推理时间开销的情况下,他们的模型与现有算法相比显示出显著的检测性能改进。

目标检测~暗光条件_人工智能_24

巴西等人[44]通过引入语义分割和行人检测的联合学习框架(如图14所示),改进了更快的R-CNN[6]。他们的研究表明,分割注入的监督有助于模型学习具有语义意义和形状和遮挡鲁棒性的信息丰富的特征。

同样,[45]的作者也采用更快R-CNN作为其基本探测器并对其进行改进。他们认为,由于头部区域具有稳定的结构外观、可见性和相对于身体的相对位置,因此头部区域提供了一个强线索。他们开发了一种新的架构--头部身体对齐网络(HBAN),如图15所示,与传统的并行方法相比,它具有额外的头部检测模块,以及与人体检测模块并行的人体头部检测模块。

目标检测~暗光条件_数据集_25

Ghose 等人[65]提出了一种新颖的方法, 基于更快R-CNN。他们没有将热视图像融合, 而是将选择的原始热输入通道与其显著图进行增强。因此, 他们训练一个来自[66]中的ImageNet预训练更快R-CNN。这样, 他们克服了白天热图像检测性能不佳的问题。他们的方法概述如图16所示。他们解决方案的瓶颈是生成显著图所使用的算法。

目标检测~暗光条件_人工智能_26

目标检测~暗光条件_行人检测_27

相比之下,Devagupatpap等人[51]使用图像到图像(I2I)GAN从原始热图像生成伪RGB图像,如图17所示,类似于UNIT[68]和CycleGAN[69]。从原始热输入和GAN生成的伪可见图像中的空间特征通过卷积滤波器进行学习,它们的瓶颈特征图深度对齐并串联,然后输入到RPN,最终执行目标检测操作。

他们的方法的基本概念是从具有丰富数据的领域学习,如视觉(RGB),而不需要明确要求配对的多元数据集。对基准数据集的实验分析(如KAIST和FLIR)表明,所提出的框架优于现有方法。对于基准模型的总体mAP为49.39%,而作者在[51]中使用这个多元框架实现了53.56%的mAP。

这种模型的局限性在于,它严重依赖于从热到RGB生成器。如果生成器产生了噪声RGB对应物,那么RPN将无法提出具有目标的区域,这将导致处理时间过长或物体检测性能不佳。

2.2.2 Non-region based

Sasagawa和Nagahara[47]提出了一种域适应方法,通过生成学习将用于不同视觉任务的模型集成在一起。它是YOLO和SID的结合,在低光环境下提高了物体检测率。对基准数据集(如暗COCO)的实验分析表明,集成模型可以检测到暗图像中的目标。然而,与基准YOLO模型相比,该模型被发现更敏感。

因此,它需要进一步在计算时间和物体检测精度方面进行改进。同样,研究人员通过引入选择的核注意力机制改进了另一个版本的YOLO目标检测器YOLOv5,通过添加十八个额外的层扩展了阶段间部分连接(CSP),从而增加了红外图像中小物体的检测。这样的变化增加了红外图像中小物体的检测。

根据作者的说法,与基准YOLOv4单阶段目标检测器相比,YOLO-FIRI的检测指标AP、AR和F1在KAIST数据集上的性能分别提高了24.8%、26.9%和26.0%,mAP50分别提高了21.4%。

gnn

最近,GNNs作为强大的表示学习工具,将输入数据处理为图形[48],已在多个高级计算机视觉任务中得到应用,包括行人检测。例如,Cadena等人[49]将级联金字塔网络(CPN)和图卷积网络(GCN)集成,用于预测行人穿越城市道路的意图(非行人检测)。

在其中,他们用人的身体(关节)的关键点表示行人,作为非加权和无向的人体图。同样,在[57]中,引入了一个基于GNN的行人轨迹预测模型,称为GNN-TP。为了同时推断行人与其他人的关系并构建显式图结构,它包括两个模块——编码器和解码器。编码器模块使用观察到的行人轨迹来处理行人之间的交互推理问题,而解码器模块则学习动态模型来预测行人的轨迹。从应用的角度来看,GNN-TP可以用于识别交互和预测方向变化,以避免碰撞。

目标检测~暗光条件_红外_28

同样,[55]和[58]也利用GNN解决行人轨迹预测问题。[55]提出了一种集成注意力基于交互感知的GNN(AST-GNN),该模型从行人过去的轨迹中学习空间时间移动模式,以预测他们的未来轨迹,如图18所示,灵感来自[74,75,76]。

该模型包括三个子网络:一个空间图神经网络(S-GNN),用于学习行人的动态空间交互;一个时间图神经网络(T-GNN),用于构建加权运动特征;以及一个使用扩展卷积神经网络(TXP-CNN)进行时间域轨迹预测的解码模块。与基准模型[76]和其他在[55]中检查的先进方法相比,AST-GNN在行人轨迹预测方面在基准数据集(如ETH)上表现出更好的性能。

为了解决领域特定模型适用性不足的问题,Xu等人[58]开发了一种可迁移的图神经网络(T-GNN),该网络通过在统一的框架中共同学习轨迹模式以及源域和目标域对齐来挖掘域不变特征。在这个框架中,通过共享权重图卷积网络从各自的目标域和源域图中提取图节点表示。

目标检测~暗光条件_红外_29

然后,引入了一种基于注意力的自适应机制,用于学习可迁移的节点表示,并使源域和目标域的轨迹对齐。最后,从源轨迹中,模型通过最小化预测和对齐损失来预测未来轨迹,同时学习。作者报告称,这种域不变表示学习模型在公开可用的数据集(如UCY和ETH)上,与现有类似的接近方法相比,实现了卓越的性能。

除了上述专注于使用GNN进行行人轨迹预测的工作外,一些研究人员还试图利用GNN进行通用物体检测任务。例如,在[50]中,作者们通过级联图神经网络(Cas-Gnn)解决显著物体问题,其中他们使用单独的CNN学习模式(颜色和深度)特定的特征,并将这些模态的更新图信息统一,如图20所示,以进行最终的预测。

目标检测~暗光条件_人工智能_30

为了从两个模态中提取多尺度特征,它利用了金字塔池化模块(PPM)[79],其中模型克服了物体检测区域的模糊性。另一方面,Shi和Rajkumar[56]构建了一个名为point-GNN的GNN,用于在LiDAR点云数据上进行物体检测。

目标检测~暗光条件_人工智能_31

如图21所示,他们的方法包括三个模块:一个从原始点云中构建图表示的图生成器、一个学习节点特征交互层次化的GNN和一个识别物体区域的边界框回归器,如汽车、自行车和行人。为了处理过拟合问题,作者使用标准数据增强方案,如全局旋转、全局翻转、边界框平移和顶点摇晃。

有报道指出,point-GNN在KITTI基准数据集[80]上超过了现有解决方案。尽管该模型对于汽车和自行车的检测率良好,但对于行人检测的表现似乎不佳。因为行人图表示的准确性不如其他两个物体。此外,该模型的推理速度也有待优化。

前面提到的研究显示了使用GNNs进行物体检测和跟踪具有巨大的潜力。然而,在完成本回顾时,还没有针对低光行人检测任务使用GNNs的研究。

3 Benchmark Datasets

本节提供了在行人检测模型研究和开发中使用的重要基准数据集的简要概述。表4总结了这些数据集的详细信息,包括样本数量、维数、摄像机视角、照明条件(白天或夜晚)、使用现有工作的数据集以及最佳记录的性能和评价指标。   

目标检测~暗光条件_行人检测_32

OSU: OSU Thermal Pedestrian Database

该数据集包含了一系列十个帧,总共284张图像,分辨率为240×360像素,使用一台Raytheon Thermal-Eye 300D红外相机在高层建筑上拍摄。它包括了俄亥俄州立大学交叉口和街道上的行人,在不同的环境条件下行走,如白天和夜晚的湿度、天气条件。

UCY Dataset

它包含在公共空间中超过18K个多人类交互样本及其轨迹,在2.5 Hz的频率下从顶部视角捕获。

INO Video Analytics Dataset

该数据集使用永久安装的VIRxCam(具有长波红外(LWIR)波段的可见和红外相机)平台,在全天和各种天气条件下捕捉户外监视视频。这些视频包含人类/行人的真实注释。

ETH: Caltech Pedestrian Dataset

该数据集包含使用向前视野的立体视觉从移动平台上(大约高于地面90厘米)捕捉的视频。它还包括繁忙的人行道区域行驶的挑战性条件,如众多的视点、行人侧面与半正面视角的歧义、运动模糊、低对比度以及天气条件,包括多云。总共包含2293个帧序列和10958个行人注释。

Caltech: Caltech Pedestrian Dataset

它是行人检测领域最全面的标准之一。该数据集包含约10小时的640×480像素视频,记录了一辆行驶中的汽车穿过城市交通的情景,具有挑战性的场景,如物体遮挡和低分辨率。在整个约25万个镜头(每个镜头约一分钟)中,有35万个边界框和2300个独特的行人进行了标记。

KITTI: Karlsruhe Institute of Technology and Toyota Technological Institute Vision Benchmark

这是一个用于各种实时计算机视觉研究的基准,包括物体检测。该数据集包含从平台(约80000像素)上捕获的7481张训练图像和7518张测试图像,总共约80000个标记物体。图像通常具有384×1280像素的尺寸。该基准使用边界框重叠计算识别的精度-召回曲线,并使用鸟瞰视角的方位相似性评估方位估计。

TNO Image Fusion Dataset

该数据集经常用于常规RGB和红外图像融合的图像处理开发。它包括在农村和城市环境中捕获的物体,如人和车辆的夜间图像,这些图像的波段范围从390-700纳米(视觉),700-1000纳米(近红外)到8-12微米(长波红外)。

KAIST Multispectral Pedestrian Detection Benchmark

这是一个广泛使用的多光谱行人数据集,也被称为KAIST。它由在各种白天和夜间常规交通情况下捕获的彩色和热成像图像对组成,以考虑照明条件的变化。它包含了约95k个颜色-热成像图像对,每个图像对具有640×480像素的大小,是从移动车辆上捕获的。它有超过10万个边界框注释,包括人、人和自行车,其中1182个是唯一的行人。

CVC-14: Visible-FIR Day-Night Pedestrian Sequence Dataset

CVC-14数据集由白天和夜晚捕获的常规RGB和远红外(FIR)多模态视频序列组成。它提供了专门的训练和测试集。训练集中包含3695张白天图像和3390张夜间图像,而测试集中包含700个样本。总共约有2000个行人在白天和约1500个行人在夜间。

ExDark: Exclusively Dark 87]

该数据集已经用于支持物体识别和图像增强研究。它包括7,363张低光图片,其中包含12个具有图像级别分类标签和局部物体边界框注释的目标类别。图像通常具有640×480的尺寸。

KITTI-Dark

利用无监督图像到图像转换网络(UNIT),Rashed等人[25]从KITTI原始数据集中生成了近似真实的低光自动驾驶(AD)条件图像,称为KITTI-Dark。它包含12,919个样本,每个样本的大小为256×1224。

FLIR: FREE Teledyne FLIR Thermal Dataset

该数据集专注于使用可见和热(RGB-T)传感器融合技术开发先进的驾驶员辅助系统(ADAS)。它包含26,442个密集注释帧,以及520,000个不同物体的边界框标签,如人、自行车、汽车、摩托车、公交车、火车、卡车、交通灯、消防栓、街道标志、狗、滑板车、推车、滑行板和其它车辆。它包含相互排斥的训练和验证样本集,分别包括9711张热成像图像和9233张RGB图像。

LLVIP: Low-light Visible-infrared Paired

该数据集包含30976张行人注释图像,来自15488对可见和红外图像。大多数样本表示非常黑暗的照明条件。

4 Conclusion

行人检测在低光情况下始终是一项困难的任务,尤其是由于人工智能和计算资源的进步,低光环境下的行人检测已经引起了工业和学术界的关注。常规RGB图像中的信息相对较少,可能导致对行人和其他物体的误解释。

例如,使用来自热成像、激光雷达或远红外(FIR)传感器的信息在实际行人检测应用中已经证明非常成功。本研究回顾了一些专注于常规可见光谱和红外光谱图像融合的关键文章。图像融合技术和行人检测算法系统地进行了分类和讨论。

该研究还总结了在行人检测和跟踪领域广泛使用的关键基准数据集。本研究的未来方向将包括在实际应用的资源受限的硬件平台上对行人检测算法进行基准测试。