【论文解读】HM-ViT: Hetero-modal Vehicle-to-Vehicle Cooperative perception with vision transformer

本文介绍了一种名为HM-ViT的框架,用于解决多智能体异模态协同感知问题,通过异构3D图注意力机制融合不同传感器数据,显著提升V2V系统性能。实验结果表明HM-ViT在V2V异模态感知任务中优于现有方法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

摘要

车对车技术使自动驾驶汽车能够共享信息以看穿遮挡,大大提高了感知性能。然而,现有的工作都集中在同质交通上,车辆配备了相同类型的传感器,这大大阻碍了跨模态交互的协作规模和效益。在本文中,我们研究了多智能体异模态协同感知问题,其中智能体可能具有不同的传感器模态。我们提出了HM-ViT,这是第一个统一的多智能体异模态协同感知框架,可以协同预测具有不同数量和类型智能体的高度动态车对车(V2V)协作的3D对象。为了有效地融合多视图图像和激光雷达点云的特征,我们设计了一种新的异构3D图转换器来联合推理代理间和代理内的交互。在V2V感知数据集OPV2V上的大量实验表明,在V2V异模态协同感知方面,HM ViT优于SOTA协同感知方法。我们将发布代码以促进未来的研究。

引言

在这项工作中,我们解决了多智能体异模合作感知问题,其中每个智能体可以具有不同的传感器类型并相互共享/接收信息。值得注意的是,如图2所示,这种多智能体异模态设置与单智能体多模态设置不同。在异模态设置下,智能体传感器构成一个动态异构图,其中传感器的存在和类型是随机的,相对姿态随场景的不同而不同。相比之下,在单智能体多模态设置中,传感器的类型/数量和传感器之间的相对位置(外部)是固定的。现有的多模态方法严重依赖于这些假设,现有的大部分工作[38],[39],[2],[51],[50]将LiDAR点或3D建议转换到图像平面上以索引2D特征。他们的网络架构建立在激光雷达和相机输入的共存基础上,具有固定的几何关系。然而,异模态V2V感知的动态特性需要灵活的架构来处理不同的智能体数量和类型,并且传输的神经特征在空间上也不对齐。此外,相机代理和激光雷达代理在传输特征上存在语义差异。这些独特的特性对多智能体异模态协同系统的设计提出了重大挑战,并阻止了现有的多模态融合方法适应这一新问题。
为了实现V2V系统中异构代理之间的协作,我们提出了HM ViT,这是第一个统一的协作感知框架,可以通过空间感知的3D异构视觉转换器利用和融合分布式信息进行异模态V2V感知。图3展示了整个框架。
在这里插入图片描述

每个代理首先通过特定模式的编码器生成鸟瞰图(BEV)表示,然后与相邻代理共享压缩特征。然后,通过所提出的HM-ViT对接收到的特征进行解压缩和聚合,该HM-ViT在考虑节点和边缘类型的情况下进行局部和全局异构3D联合关注。我们的大量实验表明,在单智能体基线上,HM ViT可以显著提高相机智能体和激光雷达智能体的感知能力,并在很大程度上优于SOTA协同感知方法。特别是,对于相机代理,性能可以从2.1%提高

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值