MambaST:用于高效行人检测的即插即用的跨光谱时空融合器

MambaST: A Plug-and-Play Cross-Spectral Spatial-Temporal Fuser for Efficient Pedestrian Detection

2408.01037 (arxiv.org)

https://github.com/XiangboGaoBarry/MambaST

MambaST是一种基于Mamba的跨光谱时空融合框架,专注于高效行人检测。该框架引入了全新的多头分层分块和聚合(MHHPA)模块,在性能方面表现出色!代码即将开源!研究单位为密歇根大学安娜堡分校。请注意:论文PDF已上传至星球,可轻松下载。自动驾驶应用中的行人检测面临着多个挑战。首先,在黑暗或弱光条件下,使用RGB摄像机进行准确检测非常困难。因此需要开发跨光谱系统来整合来自不同传感器模式(如热像仪和可见光摄像机)的互补信息,以提升检测结果的稳健性。其次,行人检测模型对延迟非常敏感。对于实时应用如自动驾驶等领域而言,拥有参数更少、高效且易扩展的检测模型尤为重要。第三,在行人视频数据中存在时间和空间相关性,并结合这些信息可以增强行人检测效果。本研究利用最新进展中状态空间模型(Mamba),并提出了全新的多头分层修补和聚合(MHHPA)结构,在RGB图像和热图像中提取细粒度和粗粒度信息。实验结果显示我们所提出的MHHPA作为Transformer模型替代方案非常有效且高效,并适用于跨光谱行人检测任务。此外,在小规模行人检测方面也取得了优异成果。

This paper proposes a novel fusion pipeline that addresses spatial-temporal fusion accounting for cross-spectral (RGB and thermal) sensor inputs. The proposed fusion pipeline, named MambaST, is based on a state space model (Mamba) [16]. Mamba is a recent state space model architecture that rivals the classic Transformers [17] for sequential data processing and has shown initial promise on computer vision tasks [18]–[20]. Our proposed MambaST is the first, to our knowledge, that applies Mamba to cross-spectral fusion accounting for both spatial and temporal information. Within MambaST, we propose a novel Multi-head Hierarchical Patching and Aggregation (MHHPA) module, which extracts cross-spectral spatial-temporal features across different hierarchical levels. This module is engineered to balance the extraction of fine-grained details with the removal of noise from coarser-grained information. We show that this module can be easily plug-and-play to perform pedestrian detection with YOLO model architecture [21] and is an effective alternative to transformer-based modules. We also leverage the recurrent capabilities in the visual state space model [22] to enhance the efficiency for MambaST in the inference time. We conducted experiments on KAIST, a real-world multispectral pedestrian detection benchmark [23], and we present detailed detection performance evaluation and ablation studies on various parameter choices. Our experimental results show improved pedestrian detection performance and efficiency (e.g., requiring significantly fewer model parameters compared to transformer-based methods).

本文提出了一种全新的时空融合流程,用于处理跨光谱(RGB和热红外)传感器输入。该融合流程名为MambaST,是基于最近提出的状态空间模型Mamba进行改进的。Mamba是一种序列数据处理模型,与经典Transformer相媲美,并在计算机视觉任务上展现了潜力。所提出的MambaST是首个将Mamba应用于跨光谱融合并考虑到空间和时间信息的方法。在MambaST中,引入了一种创新的多头分层补丁聚集模块(MHHPA),旨在从不同层次上提取跨光谱时空特征。该模块能够平衡细粒度细节信息并去除较粗粒度信息中的噪声。

本文证明这个模块可以轻松地插入并使用YOLO模型架构进行行人检测,并可作为替代基于Transformer模块有效选择方法之一。此外,利用视觉状态空间模型中循环能力增强了MambaST在推理时间上的效率。通过对真实世界多光谱行人检测基准KAIST进行实验,并对各种参数选择进行详细评估和消融研究,实验结果表明,在行人检测性能和效率方面有所改善(例如与基于Transformer方法相比需要更少数量级 的 模型参数)。

  • 14
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值