原文地址:https://dblp.org/rec/journals/corr/abs-2407-04277.html
研究、应用与前景:基于事件的行人检测综述
摘要:事件相机受生物视网膜启发,是一种新型传感器,具有低功耗、低延迟、高时间分辨率和广泛的动态范围。传统上,行人检测主要依赖于基于帧的图像传感器,但这些传感器因响应速度慢且数据冗余高而受到限制。相较之下,事件相机通过消除多余数据传输,避免了高速成像应用中的运动模糊和数据泄露问题。本文全面回顾了基于事件的行人检测技术,重点探讨其在自动驾驶场景中的应用。我们系统地整理并分析了相关文献,阐述了基于事件的检测方法相对于传统基于帧的检测方法的核心原理、发展轨迹及其优缺点。文章详细讨论了不同事件流输入和相应的网络模型,并评估了它们在不同操作环境中的适用性。此外,还涉及了与这一技术相关的关键数据集、数据获取方法以及处理事件流数据的高级算法。本文在总结当前研究现状的基础上,展望了基于事件的行人检测的独特优势和当前面临的挑战,并对未来的发展方向提出了前瞻性意见。
I. 引言
行人检测是计算机视觉中的一项基本任务,主要关注从图像或图像序列中准确识别和定位行人目标。作为智能交通系统(ITS)的必要组成部分,行人检测在自动驾驶领域的主动安全技术中占有重要地位。研究更高效的行人检测技术具有重要的实际应用价值。结合行人跟踪和行人再识别技术,行人检测已被广泛应用于人工智能系统、车辆辅助驾驶系统、智能视频监控、人类行为分析、智能交通系统以及公共安全等领域。
目前存在三种主要的行人检测方法:基于全局特征的方法、基于身体部位的方法以及基于立体视觉的方法。然而,行人检测仍然面临一些挑战,例如光照条件变化、高速运动导致的运动模糊以及遮挡问题。从边缘计算设备的角度来看,开发者需要在计算资源限制与模型复杂性之间达到优化平衡。预测行人行为是一项重要的挑战。与车辆不同,行人具有更大的灵活性,常常会意外地改变速度和方向,其行为模式往往难以预测。多种复杂因素影响着行人行为,包括个人属性(如运动状态、目的地、年龄和性别),以及与车辆和其他行人的互动。此外,行人检测还需应对光照条件变化、高速运动导致的运动模糊和遮挡问题。从边缘计算设备的角度来看,开发者需要在计算资源限制与模型复杂性之间取得良好的平衡。
事件相机是一种异步传感器,带来了视觉信息获取方式的范式转变。事件像素的主要设计原理是模仿哺乳动物视网膜的性能。基于动态视觉传感器(DVS)和动态活动像素视觉传感器(DAVIS)是事件相机系统中最重要的成员,代表了视觉传感技术的显著进步。DVS的历史可以追溯到1992年,当时Mahowald及其同事提出了“硅视网膜”。2006年,Delbruck的团队引入了DVS,这标志着事件相机技术的发展迈出了重要一步。此后,动态活动像素视觉传感器(DAVIS)于2013年被提出,并于2017年推出了其彩色版本DAVIS346。
DVS的仿生原理基于生物视网膜功能区域的复杂机制。在生物视网膜中,双极细胞分为ON型和OFF型,分别响应光强度的增加和减少;DVS中类似的机制允许像素点对亮度的变化(变亮或变暗)做出不同的反应。水平细胞在生物视网膜中调节并增强信号对比度,DVS则通过其独特的像素响应机制增强动态视觉场景中的对比度辨别能力。另一方面,视神经节细胞编码视觉信息,并沿视神经将其传递到大脑,DVS通过时间戳输出检测到的事件,以高时间分辨率捕捉场景动态。因此,DVS将生物视觉系统的光敏性、信号处理和信息传输原理应用于视觉传感技术,使其能够高效、细致地捕捉复杂的视觉场景。
II. 方法与分类
A. 方法
由于事件传感器的定义较为广泛,且种类繁多,目前尚未建立一个严谨而完整的系统。为了便于研究和调查的开展,我们在进行搜索工作之前,先对以下内容进行了定义:
- 本文中使用的“事件相机”一词采用广义定义,涵盖了所有捕捉动态事件信号的视觉传感器。这包括但不限于被称为动态视觉传感器(DVS)、数字视觉传感器(DIVAS)、事件视觉传感器(EVS)等技术。此广泛分类确保我们的讨论涵盖了事件感知技术的广泛范围。
- 本文讨论的基于事件的行人检测(EB-PD)主要涉及旨在提高智能交通系统中主动安全性的行人检测任务。然而,我们的研究范围也延伸至特定场景下的目标检测任务。这些场景包括姿态检测、静态行人检测和道路目标分割等。
我们通过直接搜索和“雪球式”方法来寻找并收集现有的论文。我们使用了IEEE Xplore数字图书馆、Springer、ScienceDirect、ACM和Google Scholar等数据库进行直接搜索,以覆盖科学数据库和开放获取的预印本。我们的研究覆盖了2014年至2024年间的所有相关主题,总共收集了353篇文章。
我们使用的主要纳入和排除标准旨在识别专注于EB-PD任务的近期高质量研究论文。需要注意的是,不同数据库的搜索方法可能有所不同。关键要求是搜索中使用的关键词必须至少在文章的标题、摘要或关键词中提到一次。在文章选择的初步阶段,我们应用了以下初步排除标准:
- F1. 排除综述和调查类论文。
- F2. 排除非会议或期刊文章的出版物,包括硕士和博士论文。
- F3. 排除提及EB-PD但不以EB-PD任务为重点的论文(例如图像分割)。
- F4. 排除短文和重复文章。
- F5. 排除非英文撰写的论文。
经过初步筛选,我们最终确定在各个平台上纳入了33篇论文。2014年至2024年期间的论文分布情况详见图2。
B. 分类与概述
本节将对广泛的研究领域进行分类,以反映最近的进展,并与当前的技术趋势保持一致。
- 数据输入与特征提取:EBC(事件相机)技术的研究主要集中在如何最佳地利用这些传感器生成的稀疏和异步数据。研究详细介绍了捕捉这些数据的各种方法,强调通过先进的过滤技术减少冗余并提高信号相关性。从EBC数据中提取特征的过程包括将这些“事件”——即特定像素处光强变化的信号——处理为行人检测算法可用的格式。该过程通常集成了时间和空间信息,以利用EBC的高时间分辨率,这对于像城市交通场景等动态环境尤为重要。
- 网络架构与模型集成:由于数据格式的非标准化,将EBC数据与神经网络架构集成带来了独特的挑战。数据输入分为三种主要的输入模式:事件流转为帧流并通过网络处理的方式被广泛用于静态或动态EB-PD,而研究者也尝试将事件流和帧流结合作为输入。研究人员希望利用成熟的基于帧的深度学习模型来挖掘事件流信号中的信息。最近的研究主要致力于开发能够有效处理这些数据的专用网络。卷积神经网络(CNNs)已被改造以处理EBC数据的二进制和稀疏性质,并进行了修改以适应传统视频数据中通常不存在的时间动态。这些模型旨在利用EBC提供的细粒度时间信息来提高行人检测应用中的检测精度和响应速度。
- 数据集、评价指标与标准:专门针对EB-PD的数据集的发展是进一步研究的一个紧迫需求,旨在提供准确反映事件传感器操作挑战和能力的基准。当前开放源代码的EB-PD数据集稀缺,但一些研究者已经在其他可以用于EB-PD的现有数据集上进行了相关实验。这些数据集也包含了大量的行人数据,但并未覆盖行人检测中特别感兴趣的单个场景或领域。标准化的数据集收集方法和明确的模型评估指标是必要的。除了这些数据集之外,还收集了评价行人检测系统在各种操作条件下性能的指标。这些指标涵盖了系统在处理高密度事件数据时的准确性、可靠性和计算效率。
III. EB-PD 管道
大多数EB-PD方法,包括手工设计的、深度学习和混合方法,都集中在四个主要步骤上:数据输入、预处理、特征工程和模型网络。图3展示了这四个步骤的总体流程,注意并非所有方法都遵循这些步骤。例如,[117]直接使用层次聚类,[118]则尝试在事件帧信号上进行语义分割。为了充分考虑通用性,我们将详细讨论这四个步骤。
A. 信号输入
数据输入阶段从获取多模态传感数据开始,分为三种不同的流,每种流都用于捕获视觉环境的不同方面。第一种是直接事件流输入,由事件传感器生成的时间精确的事件流组成,其中每个事件是一个四元组(ti, xi, yi, pi),表示特定像素位置(xi, yi)在时间ti的光强变化,极性pi表示光强变化的方向。这种模式在捕捉动态场景的细粒度时间特性方面表现出色,适用于传统帧相机由于离散采样特性而表现不佳的高速运动环境。
事件流到帧流方法提供了预定时间间隔内的静态帧序列,提供了丰富的空间上下文和完整的场景照明信息,这对于传统的图像处理和特征提取方法非常有利。最后,平行事件和帧流输入方法战略性地结合了事件流的高时间分辨率与帧流的全面空间信息。这种协同方法融合了事件传感器的连续事件流和传统相机的离散帧,生成了既具有动态性又具有上下文丰富性的场景数据流,为更有效的特征提取和行人检测奠定了基础。
B. 预处理
在EB-PD管道中,预处理阶段针对每种数据类型进行了精心设计,旨在提高后续特征提取和识别过程的保真度。
对于直接事件流输入,预处理的重点是时间精度。采用自适应噪声过滤技术清理数据流,事件去重减少冗余,复杂的事件聚合算法揭示时间模式。事件密度的归一化确保了特征提取过程中的一致性,这对于时间特征提取至关重要。
在事件到帧转换输入的背景下,预处理旨在将异步事件流转化为结构化的帧序列,通过事件累积和极性处理,增强了场景中的运动信息。空间过滤和随后的数据增强操作用于提升帧的质量,并加强行人特征的显著性。正则化步骤至关重要,确保与传统的图像处理范式兼容,从而保持帧序列的一致性。
平行事件和帧流输入预处理旨在将时间密集的事件流与空间信息丰富的帧数据进行协同整合。实现这一融合需要精确的时间同步,这是将高分辨率的时间数据与帧数据的空间细节相结合的前提条件。特征标准化程序的实施确保了两种数据流之间的均匀表示。这个对齐的精确性至关重要,为提取包含复杂行人运动动态的综合时空特征奠定了基础。
C. 网络结构
模型特征提取是一个关键步骤,其中预处理后的数据被转化为一组具有区分性和信息量的描述符。
对于直接事件流输入,模型利用事件的时间分布来编码场景的细微动态。局部化的空间时间体积捕捉了特定区域内的小范围运动,为复杂的行人行为提供了洞察。极性分布有助于检测剧烈的光强变化,转换为边缘和运动方向检测的关键线索,而空间深度信息则使模型具备了感知三维环境的能力。
对于事件到帧转换输入,模型通过保持场景内运动的时间连续性来维持连贯的运动叙述。从极性变化中提取的运动信息揭示了移动物体,特别是行人的运动轨迹。通过帧转换过程获得的空间纹理和形状丰富了模型对形式和结构的理解。多尺度分析能够在各个分辨率下捕获特征,确保模型能够关注到既微小又突出的细节。
平行事件和帧流输入处理通过将来自事件流的详细时间特征与来自帧流的丰富空间特征整合,提供了一个全面的特征集。时间-空间融合技术综合了这些特征,产生了一个包含运动和外观的强大表示。来自两种流的极性和颜色信息相结合,为每个检测到的场景对象提供了详细的颜色-纹理描述。动态背景适应特征确保模型在面对不断变化的环境背景时,仍能保持对行人的敏感性。
总体而言,这些特征形成了一个丰富的、多维的特征空间,供高级网络结构使用,装备它们以应对行人检测这一复杂任务。EB-PD管道从这些特征的深度和广度中受益,提供了对于准确检测和跟踪行人在多种场景中的细致理解。
D. 网络结构
最终阶段是利用定制的网络结构来充分利用前面阶段准备的丰富特征集。卷积神经网络(CNNs)在基于事件的行人检测(EB-PD)任务中被广泛验证并应用,利用YOLOv7、YOLOv5、YOLOv3和YOLO-tiny等架构。这些模型因其在处理不同需求和场景复杂性方面的优势而被选择。例如,YOLOv7和YOLOv5因其高精度和实时处理能力而闻名,非常适合需要快速且可靠的行人检测的场景。虽然YOLOv3和YOLOv3-Tiny稍显陈旧,但在检测性能和计算效率之间达到了良好的平衡,适用于硬件资源有限的应用。
除了这些模型外,还根据具体需要使用了其他网络,如遗传算法-反向传播(GA-BP)神经网络和空间注意力模型(SAM)。GA-BP网络将遗传算法的强大优化能力与反向传播的学习效率结合起来,增强了模型在复杂、变化环境中的训练和性能。另一方面,SAM通过空间注意力机制提高了检测精度,通过策略性地增强输入数据中的重要特征来优化特征相关性。这些模型应用于EB-PD中,优化了检测过程,每个模型在应对动态城市景观中所带来的多样化挑战时都展现了独特的优势。
IV. 协同数据输入方法
A. 直接事件流输入处理
在EB-PD系统中,直接事件流输入处理利用事件相机捕捉的精细时间信息。与传统相机以固定间隔输出帧不同,事件相机生成的数据是一个事件流 EEE,其中每个事件是一个元组
:
是检测到光强变化的时间戳。
是发生事件的像素的空间坐标。
表示光强变化的极性。
该数据流本质上是稀疏和异步的,因此需要特定的预处理技术:
-
噪声过滤:首先应用一个过滤步骤,以去除传感器噪声和环境伪影:Efiltered={ei∣ei∈E,Φ(ei)=true}
E_filtered={ei∣ei∈E,Φ(ei)=true}E_{\text{filtered}} = \{e_i \mid e_i \in E, \Phi(e_i) = \text{true}\}
其中 Φ\PhiΦ 是一个函数,根据传感器特定的噪声特性评估事件的有效性。
-
时间聚类:根据时间接近性对事件进行聚类,以识别有意义的运动模式:Cj=i⋃{ei∣ti+1−ti≤ΔT}
Cj=⋃i{ei∣ti+1−ti≤ΔT}C_j = \bigcup_{i}\{e_i \mid t_{i+1} - t_i \leq \Delta T\}
其中 ΔT\Delta TΔT 是一个预定义的时间阈值。
-
事件去重:识别并合并重复的事件,以减少冗余和数据量:Ededup=merge({ei,ei+1∣ei≈ei+1})
Ededup=merge({ei,ei+1∣ei≈ei+1})E_{\text{dedup}} = \text{merge}\left(\{e_i, e_{i+1} \mid e_i \approx e_{i+1}\}\right)
-
密度归一化:通过归一化处理,确保传感器阵列中事件的分布均匀,从而在强度变化时能够获得一致的响应:Enorm=max(Efiltered)−min(Efiltered)Efiltered−min(Efiltered)
Enorm=Efiltered−min(Efiltered)max(Efiltered)−min(Efiltered)E_{\text{norm}} = \frac{E_{\text{filtered}} - \min(E_{\text{filtered}})}{\max(E_{\text{filtered}}) - \min(E_{\text{filtered}})}
通过这些步骤,直接事件流输入被处理为有意义的特征,同时减少了噪声和数据稀疏性。预处理后的事件流为准确提取动态特征奠定了基础,这对于后续的行人检测任务至关重要。
B. 事件流到事件帧输入处理
事件流到事件帧转换输入处理策略将异步事件流数据转化为结构化的帧序列,以便于标准视觉算法处理。这种转换将事件数据的时间精度封装在一个空间连贯的帧表示中。
当前,事件流到事件帧是EB-PD中最常用的数据输入方法。事件流到帧流的常见编码方法分为三种:基于频率的事件流编码、基于活动事件表面的事件流编码以及基于LIF(泄漏整合与发射)神经元模型的事件流编码。我们将围绕这三种方法的共性,全面分析事件流到帧流的EB-PD数据输入过程。
- tit_iti 表示每个事件的精确时间戳,标志着整合到帧中的时刻。
- (xi,yi)(x_i, y_i)(xi,yi) 是帧中对应于发生变化的像素的空间坐标。
- pi∈{−1,+1}p_i \in \{-1, +1\}pi∈{−1,+1} 表示光强变化的极性,区分光强增加或减少。
通过一系列复杂的预处理步骤来实现帧的转换:
-
事件整合:一个时间整合窗口积累事件,形成一个类似于传统帧的视觉表示:It(x,y)=ei∈Wt(x,y)∑pi⋅exp(−τt−ti)
It(x,y)=∑ei∈Wt(x,y)pi⋅exp(−t−tiτ)I_t(x, y) = \sum_{e_i \in W_t(x,y)} p_i \cdot \exp\left(-\frac{t - t_i}{\tau}\right)
其中 Wt(x,y)W_t(x, y)Wt(x,y) 表示在时间 ttt 周围像素 (x,y)(x, y)(x,y) 处的事件窗口,τ\tauτ 是建模事件影响的时间衰减常数。
-
极性融合:通过合成单个极性帧来突出运动引发的变化,并抑制噪声:Pt(x,y)=⎩⎨⎧1−10if∑ei∈Wt(x,y)pi>θpif∑ei∈Wt(x,y)pi<−θpotherwise
Pt(x,y)={1if∑ei∈Wt(x,y)pi>θp−1if∑ei∈Wt(x,y)pi<−θp0otherwiseP_t(x, y) = \begin{cases} 1 & \text{if} \sum_{e_i \in W_t(x,y)} p_i > \theta_p \\ -1 & \text{if} \sum_{e_i \in W_t(x,y)} p_i < -\theta_p \\ 0 & \text{otherwise} \end{cases}
其中 θp\theta_pθp 是一个阈值参数。
-
空间连贯性增强:通过应用高斯卷积核,增强整合帧的空间连贯性,平滑图像同时保留边缘信息:St(x,y)=(Gσ∗It)(x,y)
St(x,y)=(Gσ∗It)(x,y)S_t(x, y) = (G_\sigma * I_t)(x, y)
其中 GσG_\sigmaGσ 表示标准差为 σ\sigmaσ 的高斯平滑核。
-
帧间连续性:通过应用时间滤波器保持连续帧的连续性,减少闪烁并增强帧序列的稳定性:Ft(x,y)=α⋅St(x,y)+(1−α)⋅Ft−1(x,y)
Ft(x,y)=α⋅St(x,y)+(1−α)⋅Ft−1(x,y)F_t(x, y) = \alpha \cdot S_t(x, y) + (1 - \alpha) \cdot F_{t-1}(x, y)
其中 α∈[0,1]\alpha \in [0, 1]α∈[0,1] 是控制当前帧与上一帧贡献的混合因子。
采用这种事件到帧转换的方法,模型不仅利用了事件数据的高时间分辨率,还与为帧输入设计的标准卷积架构保持一致,从而实现了有效且复杂的行人检测。
C. 平行事件与帧流输入处理
在EB-PD的平行输入处理策略中,事件驱动的时间细节与基于帧的空间信息结合在一起,增强了特征提取的能力,从而提升了行人检测的效果。这种复杂的融合需要精确协调异步事件数据与同步帧数据,从而为深度学习模型优化输入。
算法2展示了帧流和事件流的同时输入,这是一种先进的行人检测方法在EB-PD系统中的应用基础。该方法通过将空间帧数据与高时间分辨率的事件数据集成在一起,利用不同的处理技术,构建了一个全面的数据表示,有助于提高行人检测的准确性。
该融合过程首先对事件数据和帧数据流分别进行独立预处理。对于事件数据,预处理的目标是减少噪声和过滤掉无关信号,采用以下技术:
Efiltered=e∈E∣NoiseFilter(e) 和 SignalThreshold(e)E_{\text{filtered}} = e \in E \mid \text{NoiseFilter}(e) \text{ 和 } \text{SignalThreshold}(e)
Efiltered=e∈E∣NoiseFilter(e) 和 SignalThreshold(e)
对于帧数据,空间增强技术用于提高清晰度和细节,这对于提取静态场景元素至关重要。
关键步骤是同步,这一步骤将两种数据类型在时间上对齐,需要算法能够补偿事件数据的异步特性相对于帧数据固定时间间隔的特性。时间对齐算法的一个概念可以表示为:
Esync,Fsync=TemporalAlign(Efiltered,F,τ)E_{\text{sync}}, F_{\text{sync}} = \text{TemporalAlign}(E_{\text{filtered}}, F, \tau)
Esync,Fsync=TemporalAlign(Efiltered,F,τ)
其中 τ\tauτ 是一个用于对齐事件和帧的容忍窗口,确保这两种数据类型之间的时间一致性。
从同步数据中提取特征的过程中,既利用了事件捕捉到的动态信息,又使用了帧提供的上下文细节,从而提供了场景的双重视角:
Features=ExtractFeatures(Esync,Fsync)\text{Features} = \text{ExtractFeatures}(E_{\text{sync}}, F_{\text{sync}})
Features=ExtractFeatures(Esync,Fsync)
这将时间动态和空间属性整合到一个统一的特征集中。
这种通过算法2进行的方法学融合,展示了事件和帧流同时处理背后的复杂逻辑与原理。通过将来自事件流的高时间分辨率数据与帧流的空间丰富数据相结合,这种方法有助于提取更具描述性和代表性的特征,大大提高了模型在各种复杂环境中准确检测行人的能力。
V. 预测模型
为了更直观地描述本节中的方法,表II提供了这些方法的简要比较。我们根据数据输入的方法对这些方法进行分类,这在我们的研究中是一项挑战,因为各篇论文中所使用的数据集未显示出一致的趋势。每篇论文与所选择的主要数据集密切相关,因此下表总结了每种方法所选的数据集。有些方案已经在多个数据集上进行了测试,这里仅展示其中一个数据集的结果。从比较中我们可以得出结论:
- 将事件流直接应用于传统的目标检测算法往往是不现实的。大部分使用深度学习模型作为目标检测算法的工作都使用了一种将事件流作为事件帧输入到网络模型的方法,或者将事件流与帧信号结合。虽然将事件流转换为事件帧的过程中会丢失空间和时间分辨率、动态范围和连续性信息,但它允许工作利用更为成熟和强大的基于帧信号的网络模型。此外,它还消除了与传统图像帧信号相关的冗余数据传输,避免了高速成像应用中的运动模糊或数据泄露。
- 与最先进的传统行人检测算法相比,EB-PD在准确性方面仍然表现逊色。EB-PD的主要优势在于其极高的时间分辨率以及在极端光照条件下表现良好的能力,这是传统相机难以实现的。此外,动态视觉传感器处理快速移动的物体时不会产生运动模糊,这对于行人检测尤其重要,特别是在车辆高速行驶的环境中。因此,即使在常规条件下的准确性不如最先进的传统算法,EB-PD在特定应用场景中仍具有独特的应用价值。
- 大多数方法使用了自收集的数据集进行训练和测试,展示了EB-PD研究中特定环境和场景的优化需求。自收集的数据集可能更适应特定的实验设计条件,但也可能限制模型的泛化能力。
A. 动态场景下的行人检测
在动态场景下的行人检测,尤其是针对自动驾驶领域,代表了基于事件的行人检测(EB-PD)研究的一个关键方向。通常,这类场景涉及将摄像头安装在车辆挡风玻璃上,以捕捉复杂的道路环境数据。此类研究的主要目标是为自动驾驶和主动安全系统提供关键的决策支持信息,这要求所使用的网络模型具备极高的准确性、鲁棒性,并且具有显著的低延迟。此外,这类场景中的挑战比静态设置更为复杂,包括光照的快速变化、高速运动导致的运动模糊以及噪声干扰。
在研究中,提出了一种新的事件到帧转换方法以及一个异步特征提取方案。该方法优化了中间特征的重复利用,从而显著减少了计算负荷。异步编码机制特别适合事件流的固有特性。这项研究是在一个自定义的现实世界数据集上进行的,其中行人检测器在单个CPU上以约26 FPS的速度运行,平均精度(AP)为87.43%,有效地满足了非高速场景下的行人检测标准。尽管研究重点是提高行人检测器的效率,但该研究并未深入探讨在现实世界场景中各种干扰和噪声对检测效果的影响。
另有研究介绍了一种有效的空间注意力机制,该机制通过将浅层特征图与多尺度特征图融合,从而减少噪声并丰富多尺度特征。模型从传统的CNN转向稀疏卷积网络(SCN),通过自我学习和知识蒸馏进行训练。然而,后续在Gen1和1 MP数据集上的实验表明,SCN在仅考虑其感受野内的有效像素以消除卷积膨胀的情况下,难以胜任任务,因为随着深度增加,语义信息减少,这使得CNN在任务表现上优于SCN。
可以预见的是,虽然将事件流转换为事件帧能够利用许多传统基于帧的行人检测模型的优势,但这一过程会丢失异步事件流的许多细节。尽管该方法解决了极端光照问题并减少了计算复杂性,但EBC(事件相机)设备对动态环境背景极为敏感,前述方法在这方面的处理能力有限。有研究认为,直接将事件流应用于传统目标检测算法通常是不可行的。为解决这一问题,论文首先提出了一种新的事件到帧转换方法,更有效地整合了事件的固有特征。此外,还设计了一种改进的特征提取网络,可以重复利用中间特征,从而进一步减少计算负担。实验在最高26 FPS的情况下实现了87.43%的精度。
另有研究利用RGB和DVS(动态视觉传感器)图像的融合,进行四种不同视角的语义分割和深度估计。该方法通过整合多种类型的传感器数据,提高了模型对动态环境的适应性和感知精度,尤其在提高夜间或低光条件下的感知性能方面表现尤为突出。有研究应用了一种过滤方法处理DVS图像中的噪声,并建立了一个恒转率和速度(CTRV)运动模型。为准确聚类重叠或相邻的目标,该论文引入了一种三维增强K-means方法。为了实现稳定的运动估计,研究提出了一种强跟踪中心差分扩展卡尔曼滤波器(SCDEKF),该方法提供了更高的精度和较低的计算需求。这项工作通过实际道路测试展示了其方法在真实环境中的能力。
此外,还有研究首次尝试使用事件数据进行语义分割,通过对比仅使用事件数据与仅使用灰度图像的分割结果,该研究证明了事件相机数据与传统相机数据在任务中的互补价值,并展示了通过融合两者可以获得更准确的结果,尤其是在极端光照条件下或动态目标识别中,事件数据展示了其独特的优势。
B. 静态场景下的行人检测
在静态场景下的行人检测通常侧重于监控大面积区域的行人活动或检测特定的行为、姿势或涉及行人的事件。该检测强调模型在深入挖掘事件数据和特征提取能力方面的表现。
有研究集成了过滤模块和检测模块,在DVS数据处理端基于事件传感器数据和二值神经网络进行处理。过滤模块接收原始事件流信号,减少噪声,并输出经过离散化的霍夫曼编码数据包到检测模块,检测模块解码这些数据包,并使用CNN进行二分类以执行行人检测。另有研究提出了一种遗传算法(GA)与反向传播神经网络(BPNN)相结合的模型,称为GA-BP神经网络,用于使用事件相机进行道路目标分类。这种方法通过遗传算法优化BPNN的权重和偏置参数,从而实现对车辆和行人的高精度分类。
还有研究提出了一种基于事件流的层次聚类方法,用于通过聚类事件和跟踪聚类中心来实现目标跟踪。此外,另有研究介绍了一种基于2D事件点云数据的道路目标分类与识别方法。该方法首先基于目标数据特征进行交通目标样本的视觉分析,提取了长度、宽度、像素数量、距离和长宽比五个特征作为分类标准,然后使用支持向量机(SVM)模型进行分类。研究人员使用CeleX相机在一座人行桥上捕捉了四车道双向公路上的连续行人和车辆交通,最终在训练集和测试集中均实现了100%的准确率。
然而,即使从单一数据源中高效地处理信息,其信息容量的有限性与动态场景检测中面临的挑战相似。一些研究者提出了基于融合的方法。有研究指出,虽然DVS通道输出高动态范围、低延迟和稀疏事件数据,但它缺乏绝对亮度信息,这对目标检测和分类构成了重大挑战。从有源像素传感器(APS)通道生成的帧可以弥补这一缺陷。APS输出适合检测和分类,而DVS输出则非常适合检测和跟踪移动物体。研究人员通过YOLOv3和tinyYOLO网络分析了这两种数据类型,并设计了一种置信度图融合方法,以获得更均匀和精确的结果。通过在交通信号灯处设置设备静态收集大面积数据并识别目标,使用附加的事件数据通道可以使处理频率提高两倍以上,性能较仅依赖标准相机数据的解决方案提高了3-18%。
还有研究通过组合多种线索和不同的融合策略,进一步丰富了事件数据的潜力。具体而言,研究引入了三种不同的事件流编码方法(基于频率的编码、基于活动事件表面的编码和基于泄漏整合与发射神经元模型的编码),并采用了两种融合方法(通道级和决策级)来提高检测性能。这种整合不仅有效地融合了复杂的事件信息,还增强了系统在各种场景下检测行人的适应性和准确性,并在非常低的延迟下过滤掉冗余信息,实现高效的行人检测。这对于需要实时性能和能效的应用(如自动驾驶技术)具有重要意义。
另有研究提出了一种基于事件密度的方法,用于选择活跃的事件立方体,从而定位前景。通过利用神经形态视觉传感器的独特输出,提出了一种新型的事件多尺度时空描述符(EMST),用于从激活的事件立方体中提取特征以进行异常事件检测。该方法有效利用了神经形态视觉传感器输出的独特属性,降低了数据处理的复杂性和计算资源的需求。还有研究介绍了一种多模态神经形态视觉传感器及对数光感受器的优化:在DVS中添加了一个照明测量(IM)设备,能够同时捕捉动态和静态场景。该传感器在行人检测场景中进行了测试,显示数据传输速率比基于帧的相机高434倍,展示了DVS在数据稀疏性方面的优势。
VI. 数据集与评价指标
专门针对基于事件的行人检测的数据集非常少,我们的分析包括针对行人检测的特定数据集以及可以用于行人检测的非特定事件数据集。我们首先介绍这些数据集。然后,我们对这些数据集进行详细的比较和分析,最后讨论不同的评价指标。
A. 数据集
表III显示了我们收集的数据集及其一些基本参数。
- PEDRo:这是一个专注于不同环境和光照条件下人类目标的数据集。数据集包含了手动注释的事件数据和不同人群类型执行不同动作的灰度帧。数据采集过程中使用的摄像头是手持的,因此数据中存在更多的噪声信号,尽管加入了缓冲设备。数据集包含了119个记录,总计43,259个标注的识别个体框。平均样本持续时间为18秒,数据集包括20至70岁的人群。数据集覆盖了几乎所有非极端天气条件和一天中的不同时间,为光照条件提供尽可能多的数据。
- PROPHESEE GEN1:这是目前可用的最大的基于事件的行人检测数据集,主要用于车辆环境。数据集使用安装在汽车挡风玻璃后的GEN1相机以及标准的灰度摄像机进行数据采集。数据收集于法国的各种场景中,包括交通繁忙的城市、低交通量的城市、高速公路、农村地区、小村庄和郊区。数据集包括一年中不同时间和季节以及各种天气条件的数据。它包含了27,658个行人记录和39.32小时的数据,分为121个记录,总计约750 GB的未压缩原始事件数据和超过1.2 TB的帧数据。数据覆盖了一天中的不同时间和一年中的所有季节,提供了各种光照和天气条件的数据。
- Henri:该数据集描绘了从汽车挡风玻璃前看到的苏黎世市区繁忙的城市景观。GEN3相机和HUAWEI P20智能手机的刚性设置用于捕捉这些图像。数据集大小为44.7 GB。事件相机和帧相机的分辨率均为640x480。虽然两台相机的镜头未标注,但它们被动并协同地捕捉了具有变化的天气条件和时间的动态城市场景,包括行人。这增加了数据的丰富性,为普通道路使用者提供了有价值的洞察。数据集包括苏黎世当地的天气数据、道路状况信息以及一天中的不同时间捕捉到的车辆前挡风玻璃视图。此外,还包括近景图像,如进入和退出隧道时光线变化的场景,这为常规道路上的行人行为提供了宝贵的见解。
- PAFBenchmark:该数据集覆盖了行人检测、运动检测和跌倒检测三个场景。运动和跌倒检测也在开放式办公环境中进行记录。它包含642个jAER格式的记录和来自行人检测事件流的4670个标注帧,没有记录APS帧。行人检测数据集包含了诸如行人重叠、遮挡、碰撞等交通监控中常见的场景。动作检测数据集记录了15个主体执行10种不同的动作。跌倒检测数据集记录了15个主体。动作被预定义为跌倒、弯腰、绊倒和系鞋带。数据集使用固定的摄像机三脚架和笔记本电脑进行捕捉。行人检测的场景包括走廊、步行道和广场,而动作和跌倒检测则在空办公室进行。
- FJUPD:这是PADBenchmark数据集的扩展,旨在进行更详细的实验,特别是关注户外场景和低光条件。FJUPD数据按简单和复杂场景进行分类,主要依据光线变化和阴影变化的差异。复杂背景具有丰富的光线变化和移动阴影。设置与PADBenchmark类似,重点是在具有挑战性的光照和阴影移动条件下收集事件数据。数据集区分了不同光照条件和移动阴影的简单和复杂场景,复杂场景具有丰富的光线变化和移动阴影。数据集共包含1000个记录,包含来自行人检测事件流的5912个标注帧,所有这些帧均未记录APS帧。
- DVS-OUTLAB:该数据集使用静态采集方法捕捉在固定方形区域内的活动。数据收集于一个2800平方米的游乐园中,由三个固定传感器进行观察。高度约为6米,与地面的倾斜角度约为25度。整个系统由独立的太阳能储能系统供电。数据集提供了200 bps的高速事件输出,允许对人物行为进行多角度立体建模。
- DHP19:这是首个使用DVS进行3D人体姿态估计的数据集,通过多个同步DVS摄像头的事件流捕捉人体关节的3D位置。数据集使用四个DAVIS摄像头和Vicon动作捕捉系统录制,Vicon系统包括十个红外摄像头围绕一个电动跑步机,允许主体进行不同的运动。数据集包含了来自17个主体的33种运动,提供了大量用于详细运动分析的数据。
- NU-AIR:该数据集包括70.75分钟的事件相机视频,由配备DVS的四轴飞行器捕捉。数据集捕捉了包括人群、各种车辆和繁忙街景的多种城市场景,为行人和车辆提供了每秒30帧手工绘制的边界框标注,共计93,204个标签。标注包括手工绘制的行人和车辆边界框,为空中监控和基于事件的视觉研究提供了独特的数据集。
B. 评价指标
在EB-PD(基于事件的行人检测)中,算法的有效性通过三个基本指标进行定量评估:对数平均遗漏率(MR)、平均精度(AP)和交并比(IoU)。MR量化了检测失败的情况,反映了模型的敏感性,表示未被检测到的地面真实目标的比例。相反,AP通过考虑精度和召回率,提供了一个全面的指标,用于评估在不同阈值水平下的正检测准确性。
为了进行这种分类,采用了一种称为贪婪匹配策略的算法。该策略优先选择具有最高IoU的检测结果与真实值进行匹配,并将其分类为TP(真阳性)和FP(假阳性),通过排除法确定漏报的负样本(FN)。这种分类排序对于计算MR和AP至关重要。MR直接反映了模型的召回率,通过显示漏报来衡量,而AP结合了精度和召回率的影响,反映了模型的真实准确性。
总体而言,这些指标概括了检测模型的性能。MR评估了检测的敏感性,AP全面评估了精度和召回率,IoU提供了空间精度的衡量。在行人重叠较多的拥挤环境中,IoU尤其重要。通过汇总TP、FP和FN,可以对模型准确可靠地检测行人的能力进行全面评估,特别是在密集行人场景中处理DVS数据的独特挑战。
贪婪匹配检测结果的算法
贪婪匹配策略具体如下:
- 输入:D,检测到的边界框列表及其评分;G,真实值边界框列表;α,匹配检测与真实值的IoU阈值。
- 输出:TP,真阳性列表;FP,假阳性列表;FN,漏报列表。
程序步骤:
- 将检测结果D按得分降序排序。
- 初始化TP、FP、FN为空列表。
- 对每个检测结果d(来自D):
- 计算d与每个真实值(来自G)的IoU。
- 如果最高的IoU ≥ α,将d标记为TP,并从G中移除匹配的真实值。
- 否则,将d标记为FP。
- 对所有未匹配的真实值,标记为FN。
- 返回TP、FP、FN列表。
交并比(IoU)
交并比(IoU)类似于Jaccard指数,用于衡量预测边界框Bd与真实边界框Bg之间的空间重叠精度,定义如下:
IoU(Bd,Bg)=Bd∩Bg的面积Bd∪Bg的面积IoU(Bd, Bg) = \frac{Bd \cap Bg的面积}{Bd \cup Bg的面积}IoU(Bd,Bg)=Bd∪Bg的面积Bd∩Bg的面积
其中,较高的IoU表示较精确的重叠。检测结果需达到预定阈值(通常为0.5),才能被分类为真阳性(TP)。交集区域|Bd ∩ Bg|简化为:
max(0,min(xmaxd,xmaxg)−max(xmind,xming))×max(0,min(ymaxd,ymaxg)−max(ymind,yming))max(0, min(xmax_d, xmax_g) - max(xmin_d, xmin_g)) \times max(0, min(ymax_d, ymax_g) - max(ymin_d, ymin_g))max(0,min(xmaxd,xmaxg)−max(xmind,xming))×max(0,min(ymaxd,ymaxg)−max(ymind,yming))
并集区域|Bd ∪ Bg|可以表示为:
ABd+ABg−∣Bd∩Bg∣ABd + ABg - |Bd ∩ Bg|ABd+ABg−∣Bd∩Bg∣
其中,ABd和ABg分别是Bd和Bg的面积。
平均精度(AP)
平均精度(AP)是精度-召回曲线的一部分,反映了检测器在不同召回水平下的精度。它是各个阈值下精度的加权和,其中加权因子为与前一个阈值相比召回率的增加。数学上,AP的表达式为:
AP=∑k=1n(R(k)−R(k−1))P(k)AP = \sum_{k=1}^{n} (R(k) - R(k-1)) P(k)AP=∑k=1n(R(k)−R(k−1))P(k)
其中,P(k)和R(k)分别表示第k个阈值下的精度和召回率。精度P是正确检测的真阳性在总检测(真阳性加假阳性)中的比例,而召回率R是正确检测的真阳性在实际正样本(真阳性加假阴性)中的比例。
遗漏率(MR)
遗漏率(MR)是另一种特别适用于类别不平衡数据集的性能指标,其中负类别(背景)远多于正类别(目标)。MR通过对几个预定义的图像每张误报率的对数级进行平均来计算。在每个图像每张误报率下的遗漏率是漏报(假阴性)在实际正样本中的比例。计算公式为:
MR=1−TPR=1−TPTP+FNMR = 1 - TPR = 1 - \frac{TP}{TP + FN}MR=1−TPR=1−TP+FNTP
其中,TPR是真阳性率,TP代表真阳性,FN代表假阴性。对数平均通过在通常为10^(-2)到10^0的图像每张误报率的对数尺度上进行平均来计算。
VII. 当前研究的挑战与未来展望
A. 现实世界的挑战与未来展望
EB-PD 已经取得了显著进展;然而,许多挑战阻碍了其在现实世界中的广泛应用。这些挑战涵盖了技术、经济和实际应用等方面,需要综合策略来解决。
-
工业化和成本挑战:事件摄像机广泛应用的主要障碍之一是其工业化进程。目前,许多基于事件的系统主要依赖现场可编程门阵列(FPGA)作为其主要控制单元【73, 74】,虽然这种选择具有灵活性,但也显著增加了这些系统的成本和复杂性。这对高成本组件的依赖阻碍了这些摄像机的大规模商业化,使其无法应用于诸如主流汽车市场等对成本敏感的领域。这些系统的高成本是其在自动驾驶行业中更广泛部署的一个关键障碍,而在该行业中,成本效益至关重要。
-
数据集标准化:缺乏专门为使用事件摄像机进行行人检测而设计的标准化大规模数据集是一个重大挑战。目前的数据集在质量和格式上差异很大,这使得新算法的开发和基准测试变得复杂。建立统一的数据集标准对于加速研究与开发以及促进创新检测技术在学术界和工业界之间的比较与验证至关重要。
-
现实世界应用与实证验证:尽管事件摄像机具有潜力,但在现实世界的行人检测场景中应用仍然有限。当前缺乏大规模的实证研究来验证这些摄像机在各种现实世界条件下的有效性。目前的研究尚未提供令人信服的证据证明事件摄像机能够在自动驾驶中遇到的各种环境中可靠地进行行人检测。扩展现实世界的试验和全面的验证研究对于展示其实际可行性并优化技术性能至关重要。
-
缺乏专门针对事件数据解释的模型:在针对事件摄像机产生的独特数据进行解释的网络模型开发方面存在明显的差距。现有模型未能充分利用事件流中嵌入的丰富信息,尤其是在理论上包含最全面数据的三维视角中。研究能够深入挖掘这些数据并提供对事件摄像机观察到的场景的多维理解的模型是迫切需要的。此外,在EB-PD网络模型的评价指标上,目前仍以基于帧的评价指标为主,尚未形成专门针对事件数据的完整评价体系。
-
扩展研究与开发重点:为了应对这些挑战,未来的研究不仅应关注改进事件摄像机的技术和经济方面,还应探索新的方法以增强其适应性和效率。创新可能包括开发能够替代FPGA的集成电路,以降低成本和功耗,或者创建能够从稀疏事件数据中提取更细致信息的先进机器学习算法。此外,促进学术界和工业界之间的合作努力,标准化数据集和测试协议也将是推动该领域发展的关键。
总而言之,尽管基于事件的视觉系统在行人检测领域具有巨大的变革潜力,但实现这一潜力将需要克服重大技术、经济和实际挑战。通过集中研究和战略性的行业合作,这些障碍可以得到解决,为这种有前途的技术的广泛采用铺平道路。
B. 研究趋势与未来
使用基于事件的传感器进行行人检测的未来在多个关键技术和应用领域中承诺取得重大进展。这些传感器与新兴技术范式的集成有望在多个领域显著增强其能力。
-
与感知-计算融合技术的集成:基于事件的摄像机具有低功耗、高动态范围和出色的时间分辨率,特别适用于需要高效且强大视觉处理的场景。这些摄像机与感知-计算融合芯片技术的结合有望彻底改变该领域。这种集成促进了边缘实时处理,减少了延迟和能耗,同时保持了高数据保真度。未来在这一领域的发展可能会带来自动驾驶车辆、可穿戴技术和物联网设备等方面的突破性改进,这些应用领域中功效和快速处理至关重要。
-
事件摄像机的动态适应性:研究事件摄像机的动态适应性是至关重要且不可避免的。增强这些摄像机的环境感知能力和自适应能力将使其能够在各种应用中发挥最佳性能。噪声减少和焦点算法方面的进步将使这些摄像机能够实时调整其感知输入,从而更精确和可靠地捕捉数据。这种适应性在光照条件变化大且动作动态高度不可预测的场景中尤为有利。
-
成本降低与工业规模生产:事件摄像机在成本效益问题上是其大规模推广的关键障碍。为解决这一问题,未来的研究和发展应集中在降低制造成本和提高工业规模生产能力方面。这可能包括开发新的生产技术或材料,以减少制造成本,或通过改进的集成电路设计来减少功耗并提高性能。这些努力将使事件摄像机更具竞争力,并促进其在更多领域的应用。
-
事件摄像机的实证验证:迫切需要进行广泛的实证研究,以验证事件摄像机在各种领域的有效性。证明它们在实验室之外的真实世界应用中的有效性将是推动进一步投资和研究的关键。这些研究应显示事件摄像机在诸如交通管理、主动监控和环境监测等领域的独特优势,从而显著提高其采用和开发潜力。
-
法规与伦理考虑:随着事件摄像机的广泛部署,涉及到监管与伦理问题的讨论将会越来越多。未来的研究必须应对这些技术带来的隐私保护问题,并确保在技术的设计和应用过程中考虑到这些问题。这包括制定新的法规,以便保护个人隐私权,同时推进事件摄像机在各种场景中的应用。
-
拓展应用领域:随着自动驾驶行业中事件摄像机部署的增加,安全与监控技术的需求也将随之增加。未来这些技术的应用范围将更加广泛,包括交通管理、城市基础设施监测和个人安全等。随着这些技术的成熟,它们在日常生活中的整合将变得更加无缝和广泛,为密集的城市环境提供增强的安全性和效率。
总之,使用基于事件的传感器进行行人检测的发展路径不仅涉及技术演变,还需要与社会需求和伦理标准的更深层次融合。算法的持续创新、行业的战略合作以及谨慎的监管将决定这一有前景领域的发展速度和方向。
VIII. 结论
本综述系统地探讨了动态视觉传感器(DVS)在行人检测领域的应用,强调了这些传感器在自动驾驶和智能监控系统中具有的变革性潜力。通过对文献的详细审查,我们阐明了DVS技术从其生物学灵感到当前实现的演变历程,突出了其相对于传统帧基础摄像机所提供的显著优势,包括低延迟、高时间分辨率,以及在不同光照条件下无与伦比的表现。
我们的讨论延伸到了与EB-PD(基于事件的行人检测)相关的方法和分类标准,阐明了数据输入方法、预处理技术,以及EB-PD与前沿深度学习模型的整合。我们进一步探讨了利用事件流和帧流的共生数据输入方法,提出了一种新的融合方法,该方法利用每种数据类型的优势显著增强检测的准确性。
评估指标和数据集部分提供了对可用于EB-PD系统基准测试的工具和资源的全面概述,深入理解了这些新系统中固有的挑战和考虑因素,从而加深了对这些创新系统的理解。
尽管EB-PD取得了显著进展,但仍然存在几个关键挑战,例如需要更强大的算法来处理事件数据稀疏的特性,以及缺乏大规模、注释良好的EB-PD数据集。展望未来,随着EB-PD与其他传感器模态的集成、为时空数据设计的神经网络架构的进步以及更复杂的数据融合技术的发展,EB-PD系统的性能和适用性将得到进一步提升。
总之,EB-PD技术在行人检测领域预示着一个重大突破,有望极大地增强自动驾驶和智能系统的性能。随着技术的不断发展,跨学科的合作将继续推动这些系统的进步。尽管前路漫长,但我们有信心完全实现EB-PD的潜力,并为未来更安全、更智能的自动驾驶系统铺平道路。