【论文解读】HM-ViT: Hetero-modal Vehicle-to-Vehicle Cooperative perception with vision transformer

本文介绍了一种名为HM-ViT的框架,用于解决多智能体异模态协同感知问题,通过异构3D图注意力机制融合不同传感器数据,显著提升V2V系统性能。实验结果表明HM-ViT在V2V异模态感知任务中优于现有方法。
摘要由CSDN通过智能技术生成

摘要

车对车技术使自动驾驶汽车能够共享信息以看穿遮挡,大大提高了感知性能。然而,现有的工作都集中在同质交通上,车辆配备了相同类型的传感器,这大大阻碍了跨模态交互的协作规模和效益。在本文中,我们研究了多智能体异模态协同感知问题,其中智能体可能具有不同的传感器模态。我们提出了HM-ViT,这是第一个统一的多智能体异模态协同感知框架,可以协同预测具有不同数量和类型智能体的高度动态车对车(V2V)协作的3D对象。为了有效地融合多视图图像和激光雷达点云的特征,我们设计了一种新的异构3D图转换器来联合推理代理间和代理内的交互。在V2V感知数据集OPV2V上的大量实验表明,在V2V异模态协同感知方面,HM ViT优于SOTA协同感知方法。我们将发布代码以促进未来的研究。

引言

在这项工作中,我们解决了多智能体异模合作感知问题,其中每个智能体可以具有不同的传感器类型并相互共享/接收信息。值得注意的是,如图2所示,这种多智能体异模态设置与单智能体多模态设置不同。在异模态设置下,智能体传感器构成一个动态异构图,其中传感器的存在和类型是随机的,相对姿态随场景的不同而不同。相比之下,在单智能体多模态设置中,传感器的类型/数量和传感器之间的相对位置(外部)是固定的。现有的多模态方法严重依赖于这些假设,现有的大部分工作[38],[39],[2],[51],[50]将LiDAR点或3D建议转换到图像平面上以索引2D特征。他们的网络架构建立在激光雷达和相机输入的共存基础上,具有固定的几何关系。然而,异模态V2V感知的动态特性需要灵活的架构来处理不同的智能体数量和类型,并且传输的神经特征在空间上也不对齐。此外,相机代理和激光雷达代理在传输特征上存在语义差异。这些独特的特性对多智能体异模态协同系统的设计提出了重大挑战,并阻止了现有的多模态融合方法适应这一新问题。
为了实现V2V系统中异构代理之间的协作,我们提出了HM ViT,这是第一个统一的协作感知框架,可以通过空间感知的3D异构视觉转换器利用和融合分布式信息进行异模态V2V感知。图3展示了整个框架。
在这里插入图片描述

每个代理首先通过特定模式的编码器生成鸟瞰图(BEV)表示,然后与相邻代理共享压缩特征。然后,通过所提出的HM-ViT对接收到的特征进行解压缩和聚合,该HM-ViT在考虑节点和边缘类型的情况下进行局部和全局异构3D联合关注。我们的大量实验表明,在单智能体基线上,HM ViT可以显著提高相机智能体和激光雷达智能体的感知能力,并在很大程度上优于SOTA协同感知方法。特别是,对于相机代理,性能可以从2.1%提高到53.2%AP@0.7在激光雷达代理的合作下,改进了23倍。我们的主要贡献可概括如下

  • 我们提出了一种用于多智能体异模态协同感知的新型变换器框架(HM-ViT),能够捕捉特定模态的特征和异构的3D交互。所提出的模型在涉及不同代理数量/类型的高度动态异构流量上表现出卓越的灵活性和稳健性,具有最先进的性能。
  • 我们提出了一种通用的异构3D图注意力(H3GAT),专门用于提取代理间和代理内的异构相互作用。我们举例说明了两种这样的注意力——局部注意力(H3GAT-L)和全局注意力(H3GAT-G),用于捕捉局部和全局视觉线索。
  • 我们通过改变传感器模态进行了广泛的基准实验,证明了所提出的方法在异模态V2V感知任务中的强大性能。我们将发布所有代码和基线,以方便未来的研究。

方法

在本文中,我们探索了多智能体异模态协同感知,其中每个飞行器都配备了一个激光雷达或多个相机。我们的目标是创建一个强大而灵活的协作感知系统,允许具有不同传感器类型的任意数量的代理之间进行高效协作,最终以统一的端到端方式提高车辆的感知能力。如图3所示,该流水线包括模态特定的特征提取、压缩和共享、用于特征融合的HMViT以及异模态检测头。

A. Modality-specific feature extraction

激光雷达主干:我们利用PointPillar[20]为每个激光雷达代理处理点云。将原始点云转换为二维伪图像,沿高度维度进行展平,并将其输入到二维卷积神经网络中,以生成显著特征图Fj∈RH×W×C,该显著特征图被压缩并与所有相邻代理共享。
相机杆:每个相机代理都配备了普通相机。第i个代理的感知观测包括输入图像Ii k∈Rh×w×3和将3D参考点映射到不同图像视图的已知投影矩阵P i k∈R3×4。我们的目标是生成能够与其他合作者进行特征融合的BEV特征表示Fi∈RH×W×C。在这项工作中,我们采用了与BEVFormer[23]类似的架构,没有时间信息用于特征提取。为了更快的运行时间,我们采用ResNet50来提取2D图像特征,然后采用可学习的2D BEV查询,通过空间交叉注意力和投影矩阵从编码的多视图特征中查询空间信息。所得到的精细BEV特征Fi以代理i为中心并与连接的AV共享。

B. Heterogeneous 3D Graph Attention (H3GAT)

为了说明从不同传感器模态中提取的BEV特征的不同特征,必须区分每个模态的学习过程,并且多个代理之间的跨模态交互应该有所不同。为了捕捉这种异质性,我们提出了一种新的异质3D图注意力(H3GAT),其中节点和边是类型相关的,以联合推理空间交互和跨主体关系。我们对局部和全局交互进行编码,以更好地捕捉BEV特征空间中的3D模糊性。局部注意力可以帮助保存对象细节,而全局注意力可以更好地了解环境背景,如道路拓扑和交通密度。
如图4b所示,我们构建了一个三维异构协作图。每个节点v(i,x)=Fix∈RC是代理i的特征图在空间位置x∈R2的特征向量。对BEV特征空间中的空间连接节点进行3D异构图关注。根据空间连通性的定义,我们将获得局部关注和全局关注。在这里,为了表示法的简单性,我们只导出单头方程,但在实际实现中,使用了多头变体。形式上,我们首先将特征向量投影到不同的特征空间上,以形成查询、键和值向量:
在这里插入图片描述
在这里插入图片描述
其中Dense是由下标索引的线性层的集合。对于查询和关键向量,我们使用按节点类型τj索引的线性投影稠密τj来提取模态特定特征。对于值向量,我们通过边缘类型Denseeij对投影仪进行索引,以反映跨模态多智能体交互的异质性。将v(i,x)的连通节点集表示为N(i,x)
在这里插入图片描述
根据节点的采样方式(图4c),我们设计了两种类型的注意力:执行基于局部窗口的注意力的局部注意力(H3GAT-L)和执行基于稀疏全局网格的注意力的全局注意力(H3GAT-G)。局部交互可以帮助保存空间线索并提供可靠的估计,而全局推理可以帮助理解全局语义上下文。
H3GAT-L和H3GAT-G都可以通过分解空间轴来有效地实现。更具体地说,我们将所有代理的特征叠加到F∈RN×H×W×C,其中N是代理的数量。对于H3GAT-L,我们将特征图分解为沿第一轴[35]、[36]的3D非重叠窗口,每个窗口的大小为N×P×P。分区张量的形状为(H/ P×W /P,N×P2,C),其中在同一窗口内对N P2个标记进行异构3D局部图注意力。类似地,对于H3GAT-G,我们交换轴并将张量划分为形状(N×P2,H /P×W /P,C),其中对这些稀疏采样的H /P×W /P网格进行注意力操作,这可以捕获稀疏的全局信息。
为了将这种局部和全局关注集成到变压器体系结构中,我们进一步提出了使用类型相关参数的异构规范化层(HM-LN)和异构MLP (HM-MLP)。如图5所示,我们首先将所有特征传递到HM-LN中,根据每个agent的模态类型计算不同的统计量并使用。然后,我们将归一化特征输入到异构三维图注意力(H3GAT-L/H3GATG)中,共同推理agent间和agent内的异构交互。
在这里插入图片描述

C. Hetero-modal Vision Transformer

压缩与共享:为了减小传输带宽,采用一系列1×1卷积沿信道维数减小传输特征的大小。与中间特征一起,每个代理的属性也在协作图中循环。自我代理将接收这些特征,并通过另一个卷积网络将它们解压缩回原始大小。为了处理相机代理和LiDAR代理的中间特征,我们在压缩和解压模块中利用不同的参数来保留模态特定的特征。
图结构特征融合:接收到的BEV特征以不同的空间位置为中心,因为每个agent从不同的视角感知动态环境。为此,我们提出了一个图结构的融合过程(图4a):每个节点在其自己的坐标框架中维护代理的状态表示,对于固定次数的迭代,节点之间共享空间扭曲的消息,节点状态根据聚合的特征通过转换块更新。
在这里插入图片描述
在每次迭代中,我们有两个级联节点更新,分别捕获本地和全局异构交互。对于每个节点,我们首先将[18]相邻节点的特征空间变换到其中心Fj→i = Γj→i (Fj)。当发送节点为接收节点自身时,变换矩阵为单位矩阵,因此Fi→i = Fi。然后将这些空间对齐的特征映射Fj→i与代理i共享,通过聚合模块更新其状态表示。我们采用H3GAT-L Block作为我们的第一个聚合模块来捕获本地异构交互,并利用H3GAT-G Block作为第二个模块来进一步细化具有全局线索的状态。在每个变形块内,我们在计算注意力分数时也采用掩码来掩盖视场之间不重叠的区域。请注意,为了提高效率,每个代理的状态更新都可以并行处理。经过L次这样的迭代后,我们将特征传递给异模态MLP以进一步改进特征表示。在整个融合过程中,保持特定于模态的统计信息。

D. Hetero-modal Head

由于相机和LiDAR具有不同的特性,我们设计了一个异模态头部,其中相机和LiDAR自我车辆应用了一组不同的参数来生成最终预测。更具体地说,最终融合的特征映射通过批处理归一化和ReLU传递给一系列3×3卷积来进行特征细化。然后,我们采用1×1卷积层生成回归和分类预测。平滑损耗用于回归,焦点损耗[25]用于分类。

实验

在这里插入图片描述
1)基于V2V摄像头的3D检测(V2VC),自动驾驶汽车只配备4个360度水平视场摄像头;
2)基于V2V激光雷达的检测(V2V- l),所有代理都只有激光雷达传感器;
3)V2V异模态检测(V2V- h),一半代理只有摄像头,另一半只有激光雷达。

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

结论

本文针对多智能体的多模态协同感知问题,提出了一种多模态视觉转换器HM-ViT,这是一个重要但尚未开发的研究方向。我们提出了一种通用的异构三维图,用于联合推理异构智能体之间和跨智能体之间的相互作用。我们的大量实验证明了所提出方法的卓越性能,以及异构多智能体协作在提高V2V系统的可扩展性和鲁棒性方面的巨大潜力。我们希望我们的发现和开源的努力将激发对这个新问题的更多研究。

  • 13
    点赞
  • 23
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值