MambaST：一种即插即用的跨光谱时空融合器，用于高效行人检测

自动驾驶之心

于 2024-08-17 00:00:23 发布

阅读量112

点赞数

原文链接：https://mp.weixin.qq.com/s?__biz=Mzg2NzUxNTU1OA==&mid=2247623394&idx=3&sn=4b1451ecd0fe4f6aa774490a274027bb&chksm=cf3a08e16c418cf1f9e380fee3efc1298b19d7c708a3a4bb400ab93f1ef93d55d828d40d5273&scene=126&sessionid=0

版权

点击下方卡片，关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

今天自动驾驶之心今天为大家分享一篇一种即插即用的跨光谱时空融合器MambaST！如果您有相关工作需要分享，请在文末联系我们！

自动驾驶课程学习与技术交流群事宜，也欢迎添加小助理微信AIDriver004做进一步咨询

>>点击进入→自动驾驶之心『Mamba』技术交流群

编辑 | 自动驾驶之心

论文标题：MambaST: A Plug-and-Play Cross-Spectral Spatial-Temporal Fuser for Efficient Pedestrian Detection MambaST: 一种即插即用的跨光谱时空融合器，用于高效行人检测
论文会议：The 27th IEEE International Conference on Intelligent Transportation Systems (IEEE ITSC 2024)
论文作者：Xiangbo Gao等

1.写在前面

行人检测是自动驾驶等应用中的一项重要任务，然而在低照明场景（如夜间），可见光（RGB）摄像头难以单独检测到行人，因此跨光谱融合方法显得尤为重要，利用热成像和可见光摄像头的互补信息提升检测效果。此外，行人视频数据中的顺序运动信息也强调了结合空间和时间信息的重要性，以提高检测性能。虽然多模态融合和时空建模已取得一定进展，但跨光谱时空融合仍有待进一步研究。已有的方法主要集中在单帧的跨光谱空间融合，或多帧单模态输入。针对这一问题，本文提出了一种名为MambaST架构，基于状态空间模型（Mamba），首次结合了跨光谱的空间和时间信息，提出了多头层次化分块和聚合（MHHPA）模块，用于层次化时空特征提取。实验结果表明，MambaST在检测性能和模型效率上有显著提升，同时所需的模型参数和计算资源更少。

2.方法论详细总结

模型架构概述

多头层次化分块和聚合（MHHPA）

为了同时提取RGB和热成像特征图中的细粒度和粗粒度信息，本文提出了一种新的多头层次化分块和聚合（MHHPA）结构。现有的方法，如VMamba和Vision Mamba模型，通常在平展特征之前对其进行分块和标记，这样可以有效减少时间复杂度，但可能导致潜在的信息丢失，削弱模型提取细粒度信息的能力。相反，直接平展特征图用于融合的方法（如一些热成像-RGB融合工作）则可能引入噪声，特别是对于小物体的特征表示。因此，MHHPA模块通过层次化结构同时提取细粒度和粗粒度信息，并将它们结合在一起，从而平衡了信息提取的精细度和噪声去除。

顺序感知的拼接和平展（OCF）

为了在多光谱特征图的平展过程中保持空间连续性，本文提出了顺序感知的拼接和平展（OCF）过程。对于每一帧在时间 t 的特征图，OCF过程将来自RGB和热成像特征图的像素交替拼接，并按顺序平展，从而确保在平展表示中保持多光谱数据的结构完整性和空间关系。

OCF的具体公式如下：

用于时间融合的递归结构

本文在MHHPA模块的基础上引入了递归结构，通过在时间帧之间建立递归连接，实现了时序序列的融合。基于Mamba的转换函数公式：

这一递归结构通过时间上的连接，有效地结合了时空信息，显著提升了行人检测的性能。

3.实验结果详细总结

数据集和评价指标

我们在KAIST多光谱行人检测基准数据集上评估了所提出的MambaST方法。训练使用的是、清理后的标注数据集，包括41个视频序列，总计7,601对图像。测试则在25个视频序列中的2,252对图像上进行。

我们在KAIST基准数据集中提供了两个设置下的评估结果：合理（reasonable）和合理小尺寸（reasonable small）。“合理”设置包括高度超过55像素且未遮挡或部分遮挡的行人，而“合理小尺寸”设置包括高度在50到75像素之间的行人。两种设置都使用日志平均错失率（LAMR）作为评价指标，LAMR值越低，性能越好。我们还报告了召回率，较高的召回率表示较低的假阴性率。此外，为评估算法效率，我们报告了推理过程中的模型参数数量和GFLOPs值，参数和GFLOPs值越低，意味着处理图像序列所需的计算资源越少，效率越高。

实现细节

与其他跨模态融合方法的比较

我们将所提出的MambaST融合模块与RGB单模态和热成像单模态方法进行了比较，还包括基本特征加法策略和跨模态融合Transformer（CFT）。在基本特征加法策略中，RGB和热成像特征简单相加，所得特征图在模态间进行广播，这作为基线比较。对于更高级的跨模态融合方法，我们比较了CFT，这是一种顶级的跨模态融合方法。由于原始CFT模型仅适用于单帧，为了实现时间融合，我们实现了三个CFT的变体进行全面比较：1）CFT模型，原始CFT逐帧应用；2）T-CFT模型，通过拼接所有时间步的特征图整合时间信息；3）D-CFT模型，这是一种变体，使用可变形注意力替代Transformer中的标准自注意力，以更高效地处理时间数据。

小目标检测的评估

根据KAIST基准设置，将高度在50到75像素之间的行人视为小尺寸目标。实验结果表明，MambaST在所有设置中表现优异，尤其是在小尺寸目标检测中，显著提高了准确率和召回率。

效率评估

我们评估了推理过程中所需的参数数量、GFLOPs值以及延迟时间。相比于其他方法，MambaST在达到更好检测性能的同时，所需参数数量和GFLOPs值最低，并且具有相对较低的推理延迟。

与当前最先进方法的比较

我们将MambaST与KAIST数据集上的最先进的融合方法进行了比较。实验结果表明，MambaST在夜间场景下的检测性能最为优异，并且随着输入帧数的增加，检测性能进一步提升。

消融研究

我们进行了多组消融研究，评估不同参数选择的效果。首先，我们测试了MHHPA块中不同分块尺寸的数量。实验结果表明，在第一个MHHPA块中使用四个分块尺寸，并在随后的块中省略分块操作，能够在合理和合理小尺寸设置下实现最低的LAMR。其次，我们评估了顺序感知拼接和平展模块（OCF）的影响，发现引入OCF进一步提高了检测性能。最后，我们测试了不同帧数（）的影响，实验表明使用更多帧数能进一步提升模型性能，证明了Mamba模型在处理长序列上的优势。

4.可视化结果

投稿作者为『自动驾驶之心知识星球』特邀嘉宾，欢迎加入交流！重磅，自动驾驶之心科研论文辅导来啦，申博、CCF系列、SCI、EI、毕业论文、比赛辅导等多个方向，欢迎联系我们！

① 全网独家视频课程

BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、cuda与TensorRT模型部署、大模型与自动驾驶、Nerf、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频（扫码即可学习）

网页端官网：www.zdjszx.com

② 国内首个自动驾驶学习社区

国内最大最专业，近3000人的交流社区，已得到大多数自动驾驶公司的认可！涉及30+自动驾驶技术栈学习路线，从0到一带你入门自动驾驶感知（2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪）、自动驾驶定位建图（SLAM、高精地图、局部在线地图）、自动驾驶规划控制/轨迹预测等领域技术方案、大模型、端到端等，更有行业动态和岗位发布！欢迎扫描下方二维码，加入自动驾驶之心知识星球，这是一个真正有干货的地方，与领域大佬交流入门、学习、工作、跳槽上的各类难题，日常分享论文+代码+视频