【论文解读】V2X-ViT: Vehicle-to-Everything Cooperative Perception with Vision Transformer

摘要

在本文中,我们研究了车辆到一切(V2X)通信的应用,以提高自动驾驶汽车的感知性能。我们提出了一个使用新型视觉转换器的V2X通信的鲁棒合作感知框架。具体而言,我们建立了一个整体注意力模型,即V2X-ViT,以有效地融合道路上的代理(即车辆和基础设施)的信息。V2X-ViT由异构多智能体自注意和多尺度窗口自注意的交替层组成,它捕捉了智能体之间的交互和每个智能体的空间关系。这些关键模块是在统一的Transformer架构中设计的,以应对常见的V2X挑战,包括异步信息共享、姿势错误和V2X组件的异构性。为了验证我们的方法,我们使用CARLA和OpenCDA创建了一个大规模的V2X感知数据集。大量实验结果表明,V2XViT为3D对象检测设定了最先进的新性能,即使在恶劣、嘈杂的环境下也能实现稳健的性能。代码位于https://github.com/DerrickXuNu/v2x-vit.

引言

单智能体感知系统在较远的距离上容易受到遮挡和传感器观测稀疏的影响,这可能会导致灾难性的后果,为了解决这些问题,最近的研究通过研究车对车(V2V)协作,利用同一场景的多个视点的优势,其中共享来自附近多辆自动驾驶汽车的视觉信息
虽然V2V技术有望彻底改变移动行业,但它忽略了一个关键的合作伙伴——路边基础设施。自动驾驶汽车的存在通常是不可预测的,而基础设施一旦安装在十字路口和人行横道等关键场景中,就总是可以提供支持。此外,在高架位置配备传感器的基础设施具有更广阔的视野,并且可能减少遮挡。尽管有这些优势,但包括部署强大的V2X感知系统的基础设施也绝非易事。与所有代理都是同构的V2V协作不同,V2X系统通常涉及由基础设施和自动驾驶汽车组成的异构图。基础设施和车辆传感器之间的配置差异,如类型、噪音水平、安装高度,甚至传感器属性和模式,都给V2X感知系统的设计带来了挑战。此外,GPS定位噪声以及自动驾驶汽车和基础设施的异步传感器测量会导致坐标转换不准确和感知信息滞后。如果不能妥善处理这些挑战,系统将变得脆弱。
在本文中,我们引入了一个统一的融合框架,即V2X视觉变压器或V2X- vit,用于V2X感知,可以共同应对这些挑战。图2展示了整个系统。自动驾驶汽车和基础设施相互捕获、编码、压缩并发送中间视觉特征,自我车辆(即接收器)使用V2X-Transformer进行信息融合以进行目标检测。我们提出了两个新的关注模块来适应V2X的挑战:
1)一个定制的异构多智能体自关注模块,在执行关注融合时明确考虑智能体类型(车辆和基础设施)及其连接;
2)采用多分辨率窗口并行处理定位错误的多尺度窗口关注模块。
在这里插入图片描述

我们的贡献:

  • 我们提出了第一个用于V2X感知的统一变压器架构(V2X- vit),它可以捕捉V2X系统的异质性,对各种噪声具有很强的鲁棒性。此外,该模型在具有挑战性的协同检测任务上达到了最先进的性能。
  • 我们提出了一种新的异构多智能体注意力模块(HMSA),用于异构智能体之间的自适应信息融合。我们提出了一种新的多尺度窗口关注模块(MSwin),它可以同时捕获局部和全局空间特征的相互作用。
  • 我们构建了V2XSet,这是一个新的大规模开放的V2X感知模拟数据集,它明确地解释了不完美的现实世界条件。

方法

为了模拟真实场景,我们假设所有智能体都具有不完美的定位,并且在特征传输过程中存在时间延迟。鉴于此,我们的目标是开发一个强大的融合系统,以增强车辆的感知能力,并以统一的端到端方式处理上述挑战。我们的框架的整体架构如图2所示,其中包括五个主要组件:1)元数据共享,2)特征提取,3)压缩和共享,4)V2X视觉转换器,以及5)检测头。

V2X metadata sharing

在协作的早期阶段,每个agent∈{1…通信网络中的N}彼此共享元数据,如姿态、外部特征和代理类型ci∈{I, V}(意思是基础设施或车辆)。我们选择其中一个连接的自动驾驶汽车作为自我车辆(e),围绕它构建一个V2X图,其中节点是自动驾驶汽车或基础设施,边表示方向V2X通信通道。更具体地说,我们假设元数据的传输是同步的,这意味着每个代理i可以在时间i接收到自我姿态x。在接收到自我车辆的姿态后,附近所有其他连接的智能体将自己的LiDAR点云投影到自我车辆的坐标框架中,然后进行特征提取。

Feature extraction.

PointPillar~~~

Compression and sharing

为了减少所需的传输带宽,我们利用一系列1×1卷积沿着信道维度逐步压缩特征映射。尺寸为(H, W, C′)(其中C′≪C)的压缩特征被传送到ego车辆(e),在ego车辆(e)上使用1 × 1的卷积将特征投影回(H, W, C)
从连接的agent获取LiDAR数据到自动驾驶车辆接收到提取的特征之间存在不可避免的时间间隔,因此从周围车辆传送过来的信息在时间上是错位的。为了纠正这种延迟引起的全局空间错位,我们需要将接收到的特征转换(即旋转和平移)到当前的自我车辆的姿态。因此,我们利用时空校正模块(STCM),该模块采用微分变换和采样算子Γξ对特征图进行空间扭曲[19]。此外,还计算了ROI掩码,以防止网络注意由空间翘曲引起的填充零。

V2X-ViT

将连接代理聚合的中间特征输入到我们框架的主要组件,即V2X-ViT中,以使用自注意机制进行迭代的代理间和代理内特征融合。我们在整个Transformer中将特征图保持在相同的高分辨率水平,因为我们已经观察到,缺乏高清晰度特征会极大地损害目标检测性能(具体在后面介绍)

Detection head

在得到最终的融合特征图后,我们应用两个1×1卷积层进行盒回归和分类。回归输出为(x, y, z, w, l, h, θ),分别表示预定义锚框的位置、大小和偏航角。分类输出是作为每个锚框的对象或背景的置信度分数。我们使用光滑的l1损失进行回归,使用focal损失[28]进行分类。

V2X

我们的目标是设计一个定制的视觉转换器,可以共同应对常见的V2X挑战。首先,为了有效捕获基础设施和自动驾驶汽车之间的异构图表示,我们构建了一个异构多智能体自关注模块( Heterogeneous multi-agent self-attention),该模块根据节点和边缘类型学习不同的关系。此外,我们提出了一种新的空间注意模块,即多尺度窗口注意(MSwin),它可以捕获不同尺度上的远程相互作用。MSwin采用多窗口大小聚合空间信息,大大提高了对定位错误的检测鲁棒性。我们将一系列V2X-ViT块堆叠起来,以迭代地学习智能体间交互和每个智能体的空间注意,从而产生用于检测的鲁棒聚合特征表示。

Heterogeneous multi-agent self-attention

基础设施和自动驾驶汽车捕获的传感器测量值可能具有不同的特征。基础设施的激光雷达通常安装在较高的位置,遮挡较少,视角不同。此外,由于维护频率、硬件质量等原因,传感器可能会有不同程度的传感器噪声。为了对这种异质性进行编码,我们构建了一种新的异构多智能体自关注(HMSA),其中我们将类型附加到有向图中的节点和边上。为了简化图结构,我们假设同一类别的智能体之间的传感器设置是相同的。如图3b所示,我们有两种节点和四种边,即节点类型ci∈{I, V},边类型φ (eij)∈{V−V, V−I, I−V, I−I}。请注意,与传统的将节点特征视为向量的注意不同,我们只对来自不同代理的相同空间位置的特征的交互进行推理,以保留空间线索。
在这里插入图片描述
HSMA:
在这里插入图片描述
它包含3个算子:线性聚合器Denseci、注意力权重估计器ATT和消息聚合器MSG。Dense是一组由节点类型ci索引的线性投影仪,聚合了多头信息。ATT计算基于关联节点和边类型的节点对之间的重要性权重:
在这里插入图片描述
式中∥表示拼接,m为当前头数,h为头总数。注意,这里的Dense是由节点类型ci/j和头数m索引的。K和Q中的线性层具有不同的参数。为了结合边的语义含义,我们计算了由矩阵Wm,ATTφ(eij)加权的Query向量和Key向量之间的点积。类似地,在解析来自相邻代理的消息时,我们通过Densem cj分别嵌入基础设施和车辆的功能。使用矩阵Wm,MSGφ(eij)来投影源节点和目标节点之间基于边缘类型的特征

在这里插入图片描述
【Dense】“Dense” 在这里指的是一种线性聚合器,用于将特征图融合在一起。在 V2X-ViT(Vehicle-to-Everything Vision Transformer)中,Dense 聚合器有助于捕捉不同代理(如车辆和基础设施)之间的相互作用和每个代理内部的空间关系。这种聚合方法有助于提高自动驾驶系统的感知性能和鲁棒性。
(所以只需要知道实际上训练就是训练两个W矩阵就可以了)

Multi-scale window attention

我们提出了一种新型的注意力机制,称为多尺度窗口注意力(MSwin),用于高分辨率检测中的有效长程空间交互。它使用了一个金字塔形的窗口(window self-attention),每个窗口都覆盖了不同的注意力范围,如图3c所示。可变窗口大小的使用可以大大提高V2X-ViT对定位误差的检测稳健性(见图5b中的消融研究)。在较大的窗口内执行的注意力可以捕获长程视觉线索以补偿较大的定位误差,而较小的窗口分支在更精细的尺度上执行注意力以保留局部上下文。之后,使用分割注意力模块(split-attention)[56]自适应地融合来自多个分支的信息,使MSwin能够处理一系列姿势误差。注意,MSwin独立地应用于每个代理,而不考虑任何代理间融合;因此,为了简单起见,我们省略了本小节中的agent下标。

【Window self-attention】“Window self-attention” 是指在自注意力机制(self-attention mechanism)中引入窗口(window)的概念。自注意力机制是一种用于处理序列数据的技术,最初在Transformer模型中引入,并被证明在自然语言处理等领域中非常有效。在自注意力机制中,每个输入元素(例如句子中的每个单词)都会与其他所有元素进行比较,以计算它们之间的关联程度,然后将这些关联程度用于加权组合输入元素以生成输出表示。但在实际应用中,输入序列可能非常长,这样计算所有元素之间的关系可能会导致计算复杂度过高。因此,引入了窗口机制,将注意力限制在输入序列中的某些局部区域。通过引入窗口机制,自注意力机制只会考虑输入序列中的一个子集,而不是所有元素。这样可以减少计算复杂度,同时也可以更好地处理长序列。窗口的大小可以根据具体任务和数据集进行调整。

【split-attention】当我们谈论 split-attention 时,我们实际上在讨论如何有效地处理多个信息源或特征,并在处理这些信息时同时关注它们的不同方面。这种技术在深度学习领域,尤其是在卷积神经网络(CNN)和注意力机制中被广泛使用。让我们以一个图像分类的例子来说明 split-attention 的概念。假设我们有一张包含猫的图片。这张图片可能包含各种不同的特征,比如猫的轮廓、颜色、纹理等等。在传统的神经网络中,所有这些特征可能都被输入到网络中,网络会尝试从这些特征中学习并进行分类。然而,在现实世界中,不同的特征可能对分类任务的重要性有所不同。例如,对于识别猫的图像,猫的轮廓可能比纹理更重要。在这种情况下,split-attention 技术可以帮助网络分割并关注这些不同的特征,以便更有效地利用它们进行分类。
在这里插入图片描述

Delay-aware positional encoding

尽管全局错位是由空间扭曲矩阵Γξ捕获的,但也需要考虑另一种类型的局部错位,这种错位是由延迟引起的时滞期间的物体运动引起的。为了对这些时间信息进行编码,我们利用了自适应延迟感知位置编码(DPE),该编码由线性投影和可学习嵌入组成在这里插入图片描述
在这里插入图片描述
线性投影f:RC→ RC将进一步扭曲可学习嵌入,因此它可以更好地推广到看不见的时间延迟[18]。在输入到Transformer之前,我们将这个投影嵌入添加到每个代理的特征Hi中,以便预先在时间上对齐这些特征。

实验

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

结论

在本文中,我们提出了一种新的用于V2X感知的视觉转换器(V2X-ViT)。它的关键组件是两个新的注意力模块,即HMSA和MSwin,它们可以捕捉异构的主体间交互和多尺度的主体内空间关系。为了评估我们的方法,我们构建了一个新的大规模V2X感知数据集V2XSet。大量实验表明,在完美和噪声环境下,V2X-ViT都可以显著提高协同3D对象检测。本文主要研究基于激光雷达的协同三维车辆检测,仅限于单传感器模态和车辆检测任务。我们未来的工作涉及多传感器融合,用于联合V2X感知和预测。

  • 28
    点赞
  • 23
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值