V2VFormer++ [2023 TITS] 论文阅读笔记

V2VFormer++: Multi-Modal V ehicle-to-V ehicle Cooperative Perception via Global-Local Transformer [2023 TITS] 论文阅读笔记

V2VFormer++通过全局-局部变压器实现多模态车对车协同感知

总结:
  1. 解决什么问题、贡献
    构建了第一个多模态车对车协同感知框架,称为 V2VFormer++;

  2. 现有方法优缺点
    前、中、后期融合均基于LiDAR,缺点:LiDAR特征稀疏性和不均匀性容易导致特征模糊和语义缺陷;
    现有协同融合方法大多集中在局部区域之间的空间相关性,而没有用于重叠语义提炼的全局特征交互。

  3. 本文方法
    利用相机-雷达多模态输入,克服仅激光雷达的缺点;
    设计了一个简单而有效的多模态融合模块动态通道融合(DCF ),用于以自适应方式进行像素点对应聚合;
    提出了一种新的全局-局部变换策略来聚合中间协同特征。

摘要

多车协作感知是近年来出现的一种促进联网自动车辆远程和大范围感知能力的技术。然而,大量的努力将协作感知表述为激光三维检测范式,忽略了密集图像的重要性和互补性。在这项工作中,我们构建了第一个称为V2VFormer++的多模态车对车协作感知框架,其中单个相机-激光雷达表示与鸟瞰(BEV)空间的动态通道融合(DCF)相结合,来自相邻车辆的以自我为中心的BEV地图由全局-局部变压器模块聚合。具体而言,采用MLP设计的信道令牌混合器(CTM)被开发用于捕获相邻CA Vs之间的全局响应,而位置感知融合(PAF)进一步从局部角度研究每个自我网络地图之间的空间相关性。以这种方式,我们可以战略性地确定哪些CA Vs是协作所需要的,以及如何从它们那里聚集最重要的信息。在公开可用的OPV2V和V2X-Sim 2.0基准上进行定量和定性实验,我们提出的V2VFormer++报告了最先进的合作感知性能,证明了其有效性和先进性。此外,消融研究和可视化分析进一步表明对来自真实世界场景的各种干扰的强鲁棒性。

1. 引言

作为前沿技术,自动驾驶被视为智能交通系统(ITS)的趋势,为解决交通拥堵、碰撞和排放污染等棘手问题提供了一个有希望的解决方案[1]。随着深度学习和计算机视觉的发展,环境感知作为自动驾驶系统的重要组成部分,在物体检测[2]、[3]、[4]、[5]和分割[6]、[7]等任务上也取得了很大进展,在准确性和效率上都获得了实质性的性能提升。由于复杂的交通场景和不断变化的物理条件,单纯依靠自我视角信息很难保证鲁棒和安全的感知性能。因此,如何挖掘和聚合多源信息以提高感知能力是学术界和工业界关注的热点问题。

基于信息融合和数据共享,最近出现了车对车(V2V)协同感知,它通过低延迟的车辆通信战略性地整合了来自相邻联网自动车辆(CA Vs)的多视角环境[8]。以这种方式,在各种驾驶场景中出现了若干感知挑战,即,盲点、视线之外、遮挡等。,同时使自动驾驶汽车具有远程和大范围的感知能力,如图1所示。根据不同的协作策略,当前关于多智能体感知的工作[9]、[10]、[11]、[12]、[13]、[14]、[15]、[16]、[17]、[18]可以分为三个层次。一方面,早期融合[9]将来自每个车辆的原始传感器数据传输到目标车辆,但是,由于难以承受的计算开销和通信带宽,它无法满足实时系统的要求。另一方面,后期融合[10],[11]通过数学运算(即求和平均)或注意机制直接对单个检测重新加权,大大提高了运行速度。然而,不同车辆中的假阳性可能以这种方式被放大,累积的空间位移将逐步损害多智能体的协作性能。

中间特征协作[12],[13],[14],[15],[16],[17],[18]因其在准确性和速度之间的更好权衡而越来越受欢迎,其将来自CA Vs的紧凑特征表示(例如,BEV地图)投影到统一坐标中,以便在全局视图中全面理解交通场景。给定多个BEV特征,基于图的方法[12],[13],[14],[15],[16],[17]创建加权协作图,其中每个节点用其实时姿态信息表示单个车辆,成对边通过空间权重矩阵定义相邻车辆之间的关系。此外,基于变换的算法对编码序列执行自我注意或交叉注意操作,以捕捉CA Vs之间的局部和全局依赖性。作为替代,通过最远点采样(FPS)有效地选择关键点表示,以突出重要点,仅当其存在于候选提议中时,才会进一步保留[18]。总之,这些工作的管道是在自我坐标下结合车辆间表示以增强特征,但由于激光雷达点的稀疏性和不均匀性,它容易遭受特征模糊和语义缺陷。更重要的是,以前的协作策略在投影到参考坐标后显式地构建空间特征关系,但是在全局中研究CA Vs之间的通道交互是非常重要的。

本文将车对车感知融入到三维目标检测任务中,开发了多模态车对车协同感知框架V2VFormer++。对于每个CA V,提出相机-激光雷达范例来克服仅激光雷达检测的缺点,其用密集上下文(即,纹理、轮廓等)补偿精确的几何形状。)进行万能的周边描述。为了获得统一平面中的表达性表示,我们通过视图变换将两个异构模态投影到鸟瞰视图(BEV)空间,并进一步设计了一个简单而有效的多模态融合模块动态通道融合(DCF ),用于以自适应方式进行像素点对应聚合。这样,在每个以自我为中心视角下的丰富语义属性可以用有限的计算预算来充分利用。对于车对车感知,提出了一种新的全局-局部变换策略来聚合CA和Vs的中间特征。具体来说,我们首先采用带有MLP设计的信道-令牌混合器(CTM)来计算不同车辆之间的全局响应,从而根据相关分数来匹配每个自我网络对。为了更加关注感兴趣区域(RoI ),引入了位置感知融合(PAF)来关注所有车辆的信息区域,并使用自注意转换器来探索局部像素特征语义。最后,我们对OPV2V [19]和V2X-Sim 2.0 [20]数据集进行了全面的实证研究,提出的V2VFormer++实现了最先进的协同感知精度,其性能远远超过了同行(例如,多车辆单模态和多车辆多模态)。此外,对不同配置和场景的消融分析进一步表明其对现实世界中断的鲁棒性和通用性。

综上所述,本文的贡献主要体现在以下几个方面:[1]我们提出了V2VFormer++,这是第一个多模态车对车协作感知框架,它使用来自不同车辆的异构模态来增强多智能体协作性能。

[2]动态通道融合(DCF)模块设计用于以自适应的方式从相机和激光雷达BEV图进行对应聚合。

[3]全局-局部转换器协作是一种中间融合策略,其中开发了通道令牌混合器(CTM)来捕获CA Vs之间的全局响应,并使用位置感知融合(PAF)模块来探索局部视角中的空间语义。

[4]我们的V2VFormer++在OPV2V [19]和V2X-Sim 2.0 [20]基准测试中报告了最先进的协同检测性能,远远优于所有替代产品。此外,消融研究和可视化结果进一步证明了其对现实场景中各种干扰的鲁棒性。

2. 相关工作

本节旨在综述基于激光雷达和相机-激光雷达三维物体检测以及车对车协作感知的相关研究。

A.基于激光雷达的3D检测

根据各种数据格式,基于激光雷达的3D检测可以大致分为三类:基于点的、基于体素的和混合表示。基于点的算法的流水线使用PointNet [21]和PointNet++ [22]架构直接消耗原始激光雷达数据以进行可靠的几何特征提取,前者采用集合抽象(SA)算子来聚合点态表示,并利用变换网络(T-Net)在输入和特征级别进行特征对齐,而后者通过分层采样方法进一步从点云中学习局部和全局上下文。对于3D检测任务,3DSSD [23]同时引入距离(D-)和特征(F-)最远点采样(FPS)策略来处理点表示的稀疏性,并通过类似SSD(单级检测器)的架构进行对象定位和分类。为了更好地区分前景点和背景,CenterPoint [24]提取关键点特征以从对象的中心点预测3D边界框,IA-SSD [24]利用SSD架构的实例感知特征进行3D对象检测。基于体素的检测器是一种有效的范例,其中首先将三维点空间离散成规则的网格,然后引入卷积网络来处理每个体素内编码的细粒度特征。作为开创性的工作,V oxelNet [25]设计了堆叠体素特征编码(VFE)层来逐点提取信息,然后利用3D卷积在局部进行中间特征聚合。

为了加快推理速度,SECOND [26]开发了用于高效体素特征编码的3D稀疏卷积,而PointPillars [27]将点云折叠成2D表示,并使用稀疏卷积骨干。受快速RCNN [28]思想的启发,Deng等人[29]提出了一个两阶段的3D检测框架,命名为V oxel RCNN,它在准确性和效率之间具有更好的折衷,首先生成粗略的3D候选建议,然后在第二阶段通过体素RoI合并层执行框细化。此外,CAGroup3D [30]探索了全卷积3D池,以增强每个建议箱内的主干特征,追求最终的检测性能。结合点特征和体素特征进行三维物体检测是近年来的研究热点。STD [31]遵循从稀疏到密集的检测范例,该范例使用新颖的球形锚从原始点获得准确的建议,并通过pointspool从稀疏点表达式生成紧凑表示。PV -RCNN [32]使用体素集抽象模块将3D场景概括为一组关键点,并通过RoI网格池将特定于提案的特征抽象为密集网格。此外,PV -RCNN++ [33]引入了位置敏感融合模块,用于点云和体素网格的特征增强。Part-A2 Net [34]由part-aware和part-aggregation阶段组成,前者旨在利用对象内零件位置生成高质量的建议,后者根据合并后的空间位置关系进行框细化。SE-SSD [35]采用一对教师和学生检测器,具有有效的基于IoU的匹配策略和一致性ODIoU损失,以提高性能。此外,Noh等人[36]提出了一种新的HVPR架构,该架构将基于点和基于体素的特征集成到单个3D表示中,并设计了专注的多尺度特征模块,以从稀疏和不规则的点模式中学习尺度感知信息。在本文中,我们采用PointPillars作为单车激光雷达的主干,以实现效率和精度之间的平衡。

B.相机-激光雷达3D物体检测

相机-激光雷达融合感知[5]已经证明了其优越性,并在最近引起了3D检测的广泛关注,这弥补了仅激光雷达方法的稀疏性、不确定性和语义碎片。在没有复杂的伪激光雷达生成过程的情况下,Pointpainting [37]设计了一种基于序列的融合机制,该机制首先用图像分割网络产生的逐像素语义分数装饰原始点云,然后将它们放入任何仅激光雷达的管道中。3D-CVF [38]将密集的相机体素投影到BEV平面上,并通过自适应门控注意力图连接每个模态。此外,Chen等人[39]通过可学习的透视对准而不是固有的投影矩阵来建立像素-体素视图关联,这对于异构表示的一致性是灵活期望的。Y ang等人[40]介绍了一种新颖的特定于形态的编码器-解码器结构,该结构具有贯穿两侧的交叉注意广度坐标,以非混合的方式保留最大的内部特征。为了弥合图像和激光雷达之间的信息鸿沟,MVP [41]将每个像素提升为3D虚拟点,以收集几何结构,而焦等人[42]提出了多深度无保护(MDU)块,以补偿深度模糊和多粒度几何的失配,以实现更明显的检测。最近,Transfusion [43]首次尝试将转换器引入相机-激光雷达3D检测,因为它在长程相关性建模方面具有优势。

它采用两个连续的解码层将物体查询与BEV平面上的粗激光雷达和细增益图像特征软关联,逐步提高感知性能。类似地,UVTR [44]通过基于变换器的解码器和概率深度分布将图像特定空间扩展到体素中,并通过知识转移进一步执行交叉注意特征交互。BEVFusion [45]将多模态流转换为规范坐标,并采用动态融合策略来防止激光雷达故障的失败情况。在本文中,我们的目标是一个简单和优雅的像素点融合范例,其中异构特征可以转换为一个统一的表示,两个BEV映射被投影到高度不可知的自我平面上的自适应聚合。

C.车辆间协同感知
车辆间(V2V)协同感知是近年来随着先进的车辆通信和信息融合而出现的,为缓解单智能体探测器带来的超视距和盲点挑战提供了一种有效的解决方案。一般来说,该管道将来自连接的自动车辆(CA Vs)的多视图周围传感数据与以自我为中心的观察相结合,以促进全局感知能力,并且根据不同的合作阶段,先前的工作可以主要分为早期、即时和晚期合作。Cooper [9]主要共享多分辨率激光雷达点,并将自己的稀疏表示投影到一个紧凑的空间,然后通过稀疏点云对象检测(SPOD)网络来适应低密度点云。然而,在早期融合方式中,它会导致不可承受的计算开销。相反,后期融合方法结合不同车辆的独立预测,并进行建议提炼,以产生最终结果[11]、[46]、[47]。Hurl等人[11]引入了安全消息选择的信任机制,并集成了一个新的TruPercept来根据一致性分数对输出进行重新加权。然而,这种方法由于过分依赖个体预测而容易导致不理想的结果。为了在感知准确性和推理延迟之间进行权衡,邻近车辆之间的中间特征组合已经被广泛探索以追求有利的性能增益。Wang等人[14]提出了一种基于图的方法,通过卷积选通递归单元(ConvGRU)迭代捕获和更新每辆车的地理信息。为了强调智能体的重要性,DiscoNet [15]通过边权重矩阵丢弃车辆间高度相似的像素,并通过知识提取构建整体几何拓扑。

为了模拟真实世界中传输延迟的影响,Liu等人[12]提出了包括请求、匹配和连接的三步握手通信协议,以确定与哪个合作者进行交互。此外,刘等人[13]考虑了一种可学习的自我注意机制来推断自我主体是否执行额外的通信以获得更多的信息。Hu等人[16]开发了一种新的稀疏置信度图来屏蔽用于特征压缩的无关紧要的元素。作为来自车载相机的细粒度和密集预测,Xu等人[48]研究了BEV平面下的仅相机地图预测框架,该框架利用新颖的融合轴向(FAX)注意力来在地平面上重建动态场景。尽管上述算法取得了显著的性能,但它们大多集中在局部区域的CA Vs之间的空间相关性,而没有用于重叠语义提炼的全局特征交互。在这项工作中,我们试图设计一种新的中间特征协作,称为V2VFormer++,它显式地捕获每辆车之间的全局响应,自我网络对利用基于变压器的操作以位置方式处理局部辨别特征。

3. 方法

在本节中,我们将介绍提议的多模式车对车协作感知框架V2VFormer++。如图2所示,整体架构主要包含四个部分:(1)用于多视图相机和LiDAR点特征提取的特定于模态的主干;(2)像素点融合模块,用于自适应地聚合语义和几何信息;(3)具有自我注意机制的信息区域的全局-局部转换器;(4)用于产生对象定位和分类分数的预测报头。

在这里插入图片描述

A. Modality-Specific Backbone

为了促进从不同模态进行有效的特征学习,我们采用特定于模态的主干来提取相机和激光雷达表示。对于单个车辆,给定一组周围视图图像为I = I1,I2,.。。,Im,ResNet风格的主干[49]用于从相机图像进行全面的特征学习,它包含几个步长为3 × 3的卷积层,后跟批量归一化(BN) [50]和校正线性单元(ReLU) [51]。

此外,捷径连接也是用1 × 1卷积构造的,因此能够实现稳定的梯度传播和信息传递。这样相机分支产生多尺度特征地图Fi jcam ∈ RH j ×W j ×Ccam (i = 1,.。。,m;j = 1,.。。,n),其中H j,W j和Ccam分别表示不同分辨率下特征图的高度、宽度和通道数,n为特征尺度数。

先前关于从透视到鸟瞰(BEV)空间的空间投影的工作[52]、[53]、[54]通过相机内部和外部参数明确地执行深度估计,然而,特征模糊和不准确的对应不可避免地损害最终性能。在这项工作中,我们主要从世界坐标中采样一组X-Y平面中的网格,然后将它们投影到图像平面中,形成感知范围内的BEV图Fbevcam,如图3所示。为了利用来自各种相机设置的深度信息,一种新的稀疏交叉注意(SC A)模块被用于正面图像和BEV表示之间的特征交互。具体来说,首先利用自适应滑动窗口采样策略将多尺度特征Fi jcam和BEV Fbevcam映射的分辨率划分为较小的比例,并且具有可承受的计算开销。给定窗口大小w1 = D × D,w2 = G × G (G > D),得到的特征面片和BEV网格分别用Fi jcam ∈ R H j D × W j D ×Ccam和Fbevcam ∈ R Hbev G × W bev G ×Cbevcam表示。通过独立的线性投影,我们进一步从两个分割的序列中产生查询Qbev、密钥Kcam和值Vcam,随后进行位置嵌入以突出空间信息。因此,稀疏交叉注意过程在数学上可以描述为等式1-4:
在这里插入图片描述
在这里插入图片描述
其中Linear()是具有全连接层的线性投影,Multi H ead()是多头自关注层,Concate[ ]是元素式特征连接,σ()是softmax函数,H是头数,F F N()定义了用多层感知器实现的前馈网络,L N()是层归一化[55]。我们进行三个SCA块进行层次特征聚合和空间相关性建模,最后图像BEV图可以表示为Fbev img ∈ RH×W ×Cbevimg。

对于激光雷达分支,我们采用PointPillars [27]主干进行点特征提取。将原始点云表示为P = {p1,p2,,pc} (pc = (xc,yc,zc,r)),其中xc,yc,zc,r和c表示点的空间坐标、反射率和数量,利用相应的索引形成堆叠的柱张量,并且我们利用简单的点网[21]架构来提取柱特征。为了生成伪BEV图像,这些特征被进一步散射回X-Y平面,并且引入2D CNN主干用于将多分辨率地图合并成密集的激光雷达BEV特征Fbev激光雷达∈ RH×W ×Cbevlidar。

B. Pixel-Point Fusion Module
给定模态不可知的BEV表示Fbev img∈RH×W×CBE img和Fbev lidar∈RH×W×CBE Vlad,直观的想法是将它们连接在一起用于多模态特征增强。然而,由于固有的异构性,它容易受到空间错位的影响,并且在没有完全对象语义监督的情况下,直接连接或求和操作通常会导致粗糙的信息融合。为此,我们设计了动态通道融合(DCF)模块,以如图4所示的通道方式利用图像和LiDAR上下文信息。更具体地说,我们根据索引连接每对像素点特征,并采用3 × 3卷积来探索有价值的语义和几何线索,从而产生重组的特征Fconv。为了突出目标的可分辨性,在特征通道上引入了全局平均池算子G A P(),并进一步利用具有sigmoid函数δ()的多层感知器(MLP)产生通道激活概率。

最后,我们将其与卷积特征Fconv相乘,以生成关于每辆车的联合特征图Fsingle ∈ RH×W ×Cbevlidar。整个过程可以用方程式表示。5:
在这里插入图片描述
总的来说,DCF提供了在统一的自顶向下平面中利用来自两种模态的通道语义的有效解决方案,并且这个简单的模块由于其高效的设计而不会损害推理速度。
C. Global-Local Transformer
对于每辆联网车辆,我们开发了一种编码器-解码器架构,其中融合的地图Fsingle被馈送到堆叠的1 × 1卷积中以进行渐进数据压缩,并且相应地执行若干次解卷积以进行特征恢复,称为\f single。为了补偿时空不同步,我们还采用仿射变换8icav→ego(≘f single)(I = 1,k)来将不同的cav特征投影到以ego为中心的视图中,其中8 icav→ego表示使用传感器校准矩阵的扭曲函数,k是附近汽车的数量。由此,我们得到了一组特征映射Ficav =?F1cav,,Fego,Fkcav?在通信范围内的自我车辆坐标处,其中Fego表示目标车辆。

先前的工作通常通过既不接收来自附近CA Vs的所有表示也不丢弃由低相关性合作者提供的全部信息来增强个体特征地图,前者不可避免地导致重叠区域中的特征冗余,而后者可能导致车辆之间不充分的信息交互。为此,我们提出了一种新的全局-局部转换器,它由通道-令牌混合器(CTM)和位置感知注意力融合(PAF)组成,前者用于整体视图中跨车辆间面片的通道语义过滤和混合,后者用于局部区域的空间相关性建模。图5示出了全局-局部变换器的整体结构。
1)通道-令牌混合器(CTM):两阶段转换可被称为令牌化和混合过程。

给定CA V特征图Ficav =?F1cav,,Fego,Fkcav?∈ RH×W ×Cbevlidar ×k,我们主要利用3D特征池操作符(即,全局最大池(G M P())和全局平均池(G A P())来分别反映通道信息的特殊性和共同性。

然后,通过将它们串联和展平(f latten())成一系列图像记号来进行特征矢量化,形成“面片×通道”表T ∈ RS×C(S = 1 × 1 × 1,C = 2k)。整个过程可以描述为等式6:
在这里插入图片描述
随后,Mixer通过两层MLP将线性特征投影到隐藏空间,然后进行层归一化和高斯误差线性单元(G . E . LU())。

它作用于表T的行,映射RC → RChid → RC,并在所有行之间共享信息,从而促进通道通信。最后,sofxmax函数被应用于通道重要性评估,并且我们以元素方式将其与CA V图相乘,如等式7中所述:
在这里插入图片描述
其中W∫表示线性投影的权重,N是矩阵乘法,()∫,j表示特征通道上的算子,Chid是隐藏层中的可调通道数,而Ficav ∈ RH×W ×Cbevlidar ×k表示通道混合特征图。得益于MLP的强大功能,CTM能够动态过滤不相关的表示(即重叠信号),同时捕捉分散在每个位置地图中的全局响应。更重要的是,它战略性地执行跨通道的功能混合,以增强有价值的信息表达,并显著节省内存。
2)位置感知注意力融合(PAF):为了进一步捕捉车辆之间的远程依赖性,基于变压器的架构被广泛应用,具有自我注意机制,以探索每个自我网络地图的空间关系。然而,它需要长得多的训练时期来收敛,并且密集的点积运算带来难以承受的计算预算。在本文中,我们设计了一个位置感知的注意力融合(PAF)模块,该模块由基于稀疏窗口的标记化和自我注意机制组成,针对所有位置的局部特征交互具有相对偏移。形式上,通道混合映射ˇv∈RH×W×Cbevlidar×k线性投影到高维空间,生成三个特征嵌入Fe ∈ RH×W ×C(为简洁起见,e = 1,2,3,C = Cbev lidar)。随后,我们将它们分别划分为一系列大小为N × N的3D非重叠窗口w3,形成F1win、F2win和F3win处于相同的维数(H N × W N ) × (N × N × k) × C。突出了窗口级划分比在每像素图上进行密集计算能够达到更有效的标记化。因此,每个令牌被扁平化以生成一系列查询(Q)、键(K)和值(V),并且我们进一步引入具有相对偏差B的多头自我注意(M H S A())层来探索车辆内和车辆间的空间相关性。

类似于位置嵌入(PE),B是固定大小的窗口索引,负责从每个查询-键对中学习上下文关系。在数学上,PAF过程可以描述为方程8-11:
在这里插入图片描述

其中W indow[ ]表示窗口级补丁分区。

我们利用两层自注意操作来开发细粒度的位置信息,多车辆融合地图可以称为Fjoint ∈ RH×W ×C×k。利用窗口级注意,PAF模块不仅对姿态估计和偏移误差具有鲁棒性,而且轮廓感知属性(例如,边缘和边界)也可以提高对硬目标的检测性能。

D. Prediction Header
如通常所做的[14]、[16]、[17]、[48],然后将联合特征图Fjoint分别馈入用于对象分类和定位预测的分类和回归头。
值得注意的是,具有非最大抑制的后处理(NMS)被用于去除冗余提议。
在模型训练期间,损失函数L包含分类LCL和回归Lr eg部分。给定地面实况框Bgt = (x,y,z,w,L,h,θ),其中(x,y,z)表示物体中心,(w,L,h)定义3D框尺寸,θ是航向方向,我们采用焦点损失[56] (F L())来平衡背景-前景样本,并且利用smoothL1函数来监控3D框尺寸。详细信息可以参考Eq12-14:
在这里插入图片描述
其中β1 = 1.0和β2 = 2.0是权重参数,α和γ是焦损失的超参数,pt是估计的softmax概率。注意,航向角θ在平滑L1计算之前由正弦函数(即sin(θgtθpr ed))编码,其中θgt和θpr ed分别表示地面真实角和预测角。

4. 实验

在本节中,在车对车感知基准上进行了定量和定性实验,以调查我们提出的框架及其组件的有效性。详细信息(即数据集、实施、消融研究等。)将被描述如下。

A.Datasets
OPV2V是一个大规模的车对车协同感知数据集,建立在OpenCDA平台[57]和CARLA模拟器[58]之上。通常,它包含由四个车载相机和一个64通道激光雷达传感器生成的12k帧3D点云和RGB图像,以及覆盖整个360°视图的230k 3D框注释。

在我们的实验中,检测范围沿x、y和z轴分别设置为[-64,64] m、[-40,40] m和[-3,1] m。

该模型用6765和1980个样本进行了训练和验证,并在2170个默认和550个Culver City splits上测试了最终的协作性能。

V2X-Sim 2.0是一个用于车辆对一切(V2X)感知评估的综合多模态基准,由CARLA和微观交通模拟器SUMO共同模拟[59]。它由100个场景组成,持续时间为20秒,位于三个卡拉镇的交叉口,有37.2k的训练,5k的验证和5k的测试数据。每个场景有2-5个CA Vs,配备6个摄像头和1个32通道激光雷达,以及GPU和IMU传感器。同样,感知区域在我们的研究中限定为[-32,32]m×[-32,32]m×[-3,2]m。

B.实现细节
实验平台基于8颗NVIDIA Tesla V100 GPUs,我们默认定义通信范围为70m。对于OPV2V [19],我们引入课程学习策略[60]来模拟人类认知机制:模型在sim模式下训练35个时期,另外10个时期具有真实设置(例如,定位误差、异步开销等)。),由Adam [61]用0.0002初始学习率、0.02权重衰减和余弦学习率调度器优化。此外,还采用了几种技巧(即热身和提前停止)来训练稳定性,并将NMS后处理的得分和IoU阈值分别设置为0.6和0.15。至于V2X-Sim 2.0 [20],我们遵循DiscoNet设置,技术细节可以参考[15]。NMS程序的分数和IoU阈值被设置为0.6和0.15。

以520×520像素的分辨率裁剪的图像被送入ResNet-34 [49]编码器进行多尺度特征提取,生成的BEV网格为0.25米。我们取四个注意头(h = 4),在分层SCA模块中,窗口大小D = (8,8,16)和G = (16,16,32)。而且沿x-y-z轴的体素大小设置为(0.25,0.25,4),在globallocal transformer中,窗口大小N为4。除非另有说明,我们报告的3D检测平均精度(AP)为0.5和0.7 IoU阈值,以便进行公平比较。

C.定量结果
表I示出了我们提出的V2VFormer++和四个对应方在OPV2V默认和Culver城市分割上的合作感知结果。一方面,我们从每个单视图模块中移除相机流,并评估仅激光雷达的检测性能,称为v2v former ++ l。据观察,我们提出的方法优于CoBEVT [48]和Where2comm [16]方法,在默认和Culver City数据集上,性能增益分别为2.3%∞7.5%和2.0%∞2.8% AP @ 0.7,表明了其有效性和优越性。另一方面,我们将相同的相机流附加到仅激光雷达的合作检测器(即,V2VNet [14],CoBEVT [48],Where2comm [16])中,并评估多模态检测精度。我们提出的V2VFormer++报告了最佳的协作感知性能:在默认情况下,它在0.5和0.7 IoU阈值下分别实现了93.5%和89.5%的AP,比三种替代方案分别高出0.3%∞0.9% AP @ 0.5和0.1%∞1.7% AP @ 0.7。而且V2VFormer++在Culver City上与第一梯队Where2comm [16](仅落后0.2% AP)并驾齐驱,彰显了其竞争力和适应性。

同时,在V2X-Sim 2.0测试集上的协同检测结果也在表II中列出,并且我们基于disconnect[15]再现了不同的融合策略(例如,早期、中期和晚期)。没有花里胡哨,我们的V2VFormer++实现了最先进的合作检测精度,分别为72.7% AP@0.5和65.5 AP@0.7。与其他中间产品(例如DiscoNet [15])相比,V2VFormer++在两个IoU阈值下的AP提升均超过10%,这意味着所提出的功能协作具有先进性。此外,它比上限高出9.4%的AP@0.5和5.3%的AP@0.7利润率。我们认为,由于噪声原始点云,该模型未能利用来自相邻CA Vs的有意义的信息,而我们的中间表示提供了丰富的对象语义和几何信息,以合理地促进协作感知性能。

D.消融研究为简单起见,消融研究将在OPV2V默认和Culver City splits上进行,以测量我们提出的框架的有效性和稳健性。1)组件的有效性:为了说明,我们选择V2VNet [14]作为基线,在Culver City,默认情况下分别实现85.0% AP@0.5和72.0% AP@0.7,80.9% AP@0.5和64.0% AP@0.7,如表III所示。

当相机支路附加动态通道融合(DCF)时,在0.5和0.7 IoU阈值时,它提供7.6%∞19.0%的精度增益。此外,我们将V2VNet [14]提出的空间感知图形神经网络(GNN)替换为全局-局部转换器,以测量其对协作感知的贡献。同样,它在违约时提供10.0%的AP@0.7收益。最后,V2VFormer++将带有全局-局部变换器的DCF并入基线,观察到了最佳性能,证明了每个组件的有效性。

为了进一步研究单车视图下的异构数据融合,我们使用相机流扩展了仅激光雷达检测器(例如,V2VNet [14],CoBEVT [48]和Where2comm [16]),并采用两种相机-激光雷达聚合方法进行比较。如表IV所示,动态渠道融合(DCF)在不同的协作框架之间提供了比串联(Concate)更好的多模态功能组合:尽管性能略有下降,但它在默认和Culver City集上稳定地提供了0.4%∞1.0% AP @ 0.5增量和0.4%∞4.0% AP @ 0.7促销。得益于信道池和重新加权操作,DCF能够充分利用来自各种模态的语义和几何信息,表达性多模态表示有利于协作性能的提高。

2)稳健性测试:为了分析合作感知的稳健性,我们首先采用课程学习对多模态融合方法在OPV2V测试分裂上探索的绩效贡献进行了表IV消融研究。精度增益/下降在括号中用不同颜色突出显示,分别为多模式感知框架,并列出了OPV2V默认设置在不同模式配置下的协作结果,如表v所示。值得注意的是,Sim/Real模式定义了不使用/使用数据压缩的理想/真实传输,而完美/嘈杂条件分别代表不使用/使用定位误差(例如高斯噪声)和通信延迟(200毫秒内均匀分布)的理想/恶化环境。

显然,所提出的V2VFormer++显示了对不同讹误的强鲁棒性:它在Sim+噪声水平上实现了84.9% AP@0.5和58.5% AP@0.7的良好检测精度,并且在真实环境下提供了6.0%和16.9% AP增益。当在真实环境中从完美转换到嘈杂时,所有的协作都遭受显著的准确性下降,例如,V2VNet中的6.3% AP@0.5和10.9% AP0.7。我们的V2VFormer++报告了可接受的性能下降,在0.5时为2.1% AP,在0.7时为9.6% AP,这表明了良好的稳定性和通用性
我们进一步添加高斯噪声和均匀分布来模拟不同的真实干扰,如图6所示,验证了位置误差、航向误差和通信延迟的抗干扰能力。显然,我们提出的方法揭示了在标准偏差(std) σx yz ∈ [0,0.5]m的高斯分布上显著和有利的抗局部化偏移性能,而对应的(例如,CoBEVT [48])随着偏移值的增加而经历明显的性能下降。此外,它对随STDσr yp∈[0♀,1♀]变化的航向噪声不敏感,并且在[0,400]ms时延下仍能保持良好的AP结果。总的来说,V2VFormer++在严峻的实际环境中具有突出的鲁棒性和抗干扰能力。由于课程学习策略,该模型可以逐步探索内在的和重要的信息,我们认为这些知识将有助于保持可观的感知性能,即使在各种腐败。更重要的是,全局-局部变压器协作策略将以自我为中心的视角和多视图表示有机地结合在一起,有助于在这种遮挡和超线区域的硬样本感知

E.定性结果
最后,通过定性实验深入分析了富森模块的作用。我们也展示了合作检测的结果,以反映我们提出的V2VFormer++的优势。

1)注意力地图:如图7和图8所示,我们分别展示了在直道、并线、弯道、交叉情况下DCF和全局-局部变压器协作之后的一对LiDAR地面实况(GT)和激活地图。由于有效的DCF设计,激活点可以近似对应于激光雷达GT中的目标区域,允许模型聚焦于物体的高电位或感兴趣区域(RoI)。DCF以动态逐点方式探索特征通道语义,因此可以从相机和激光雷达模态中充分展示有价值的信息。类似地,全局-局部转换器通过通道方式和位置感知重要性消耗来自相邻CA Vs的多视图表示。它将提供更宽和更长的探测范围,突出显示的点可以引导模型检测被遮挡或稀疏可见的对象。2)检测可视化:如图9所列,我们显示了V2VFormer++与CoBEVT [48]和Where2comm [16]方法的比较可视化。通常,我们提出的算法始终保持非常精确和鲁棒的检测结果,特别是在具有挑战性和模糊的场景中。它在其他同行失败的硬样本(即遮挡、盲点和超线区域)中仍然表现出突出的感知能力,表明了它的优越性和先进性。

5. 总结

本文首次尝试了具有多模态表示的车-车协作框架,称为V2VFormer++。对于单个车辆,在统一鸟瞰(BEV)空间下,提出基于稀疏交叉注意(SCA)变换和动态通道融合(DCF)的双流架构进行相机-激光雷达特征融合,从而充分利用语义和几何信息。为了更好地利用来自相邻CA Vs的车辆间相关性,我们设计了两阶段全局-局部变换器协作策略,其中信道令牌混合器(CTM)捕获分散在每个位置地图中的全局响应,位置感知融合(PAF)从局部角度探索每个自我网络对的空间关系。在OPV2V [19]和V2X-Sim 2.0 [20]基准上进行的实验结果表明,我们提出的V2VFormer++的性能远远优于所有同类产品,表明了它的有效性和优越性。此外,消融研究和可视化分析进一步揭示了对来自真实世界场景的各种干扰的强鲁棒性。

未来的工作将继续研究不利因素如何影响多智能体感知算法,如延迟、丢包等。此外,如何优化推理效率对于实际部署来说也是相当重要的。

  • 31
    点赞
  • 27
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

智驾攻城狮

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值