【论文解读】Spatio-Temporal Domain Awareness for Multi-Agent Collaborative Perception(SCOPE))

摘要

与单智能体感知相比,多智能体协同感知作为车辆与万物通信的潜在应用,可以显著提高自动驾驶汽车的感知性能。然而,在这一新兴研究中实现实用的信息共享仍然存在一些挑战。在本文中,我们提出了一种新的协同感知框架SCOPE,它以端到端的方式聚合了道路代理的时空感知特征。具体来说,SCOPE有三个明显的优势:i)它考虑时间上下文的有效语义线索来增强目标代理的当前表示;Ii)聚合来自异构agent的感知关键空间信息,并通过多尺度特征交互克服定位误差;Iii)通过自适应融合范式,基于目标代理的互补贡献,集成了目标代理的多源表示。为了彻底评估SCOPE,我们考虑了三个数据集上协作3D目标检测任务的真实世界和模拟场景。大量的实验表明了我们的方法的优越性和所提出的组件的必要性。项目链接https://ydk122024.github.io/SCOPE/.

引言

  • 现有方法总是遵循单帧静态感知模式,存在3D点云数据稀疏性的缺点,并且忽略了时间上下文中有意义的语义线索。当前帧中运动物体的不充分表征可能会限制目标车辆的感知性能。
  • 此外,协同感知系统的空间信息聚合也暴露出一些问题。对于协作者共享的消息融合,先前尝试的基于每个代理/位置的融合策略无法处理由于定位错误而导致的异构代理的特征映射不对齐。因此,合作者的误导特征可能导致自我载体(即接收器)对目标位置的误判,从而损害其检测精度。
  • 对于自我车辆信息的细化,现有方法依赖于与协作者信息的融合表示来实现检测,放弃了自我车辆的自然感知优势并引入了潜在的噪声。以自我为中心的特征可能包含不受协作主体噪声干扰的局部关键空间信息。

为此,如何有效地打破上述限制成为实现稳健协同感知的首要任务。

基于上述观察结果,我们提出了一种时空感知多智能体协同感知方法scope,以共同应对现有的挑战。
在这里插入图片描述

  • 针对单帧点云中的数据稀疏性挑战,提出了上下文感知信息聚合方法,对自我智能体的前几帧上下文信息进行聚合。我们采用选择性信息过滤和时空特征集成模块来捕获信息丰富的时间线索和历史上下文语义。
  • 针对协作者共享的信息融合挑战,引入信任感知的跨代理协作,保证自我代理从异构代理中聚合互补信息。基于置信度感知的多尺度特征交互,促进了整体沟通,减轻了由于协作者定位错误而导致的特征图不对齐。
  • 针对自我主体的多特征融合挑战,设计了基于不同感知贡献的重要性感知自适应融合,灵活融合不同表征的优势。

主要贡献可以概括如下:

  • 我们提出了SCOPE,一个用于多智能体协同感知的新框架。该框架促进了agent之间的信息协作和特征融合,实现了合理的性能带宽权衡。对协同检测任务的综合实验表明,SCOPE优于以前最先进的方法。
  • 据我们所知,我们是第一个考虑协作感知系统中自我主体的时间背景的人。基于所提出的上下文感知组件,点云的目标帧有效地整合了前帧的历史线索,以捕获有价值的时间信息。
  • 我们引入了两个空间信息聚合组件来解决协作异质性和融合表示唯一性的挑战。这些定制组件有效地执行代理之间的多粒度信息交互和自我代理的多源特征细化

方法

Metadata Conversion and Feature Extraction

【Metadata】将不同智能体的数据(如姿态和外参)转换为统一格式,以便在协作过程中使用。

在接收到自我代理(ego agent)广播的元数据(例如,姿势和外部特征)后,协作者投射他们的本地LiDAR点云到自我代理的坐标系统。自我代理之前的点云帧与当前帧同步。每个代理k∈{1,…, K}将投影点云编码为鸟瞰(BEV)特征,提取局部视觉表征。给定时间戳t时刻第k个智能体的点云X(t)k,提取的特征为F (t)k = fendc (X(t)k)∈RC×H×W,其中fendc(·)为所有智能体共享的PointPillar编码器,c、H、W分别代表通道、高度和宽度。

Context-aware Information Aggregation

由于点云的稀疏性和不足性,单帧解决方案无法有效检测快速移动的物体(例如周围的车辆)。为此,我们提出了一个上下文感知信息聚合(CIA)组件来捕获自我代理之前框架的时空表征,以融合有价值的语义。
在这里插入图片描述
(a)提出的CIA的架构,包括选择性信息过滤(左)和时空特征集成(中)。(b)金字塔LSTM中的多尺度卷积结构

Selective Information Filtering

该阶段旨在通过从目标F (t)i∈RC×H×W中过滤冗余特征,并从之前的F (t−τ)i∈Rτ ×C×H×W中提取有意义的特征来提取精炼信息,其中τ为时移。
在这里插入图片描述

  • M上标表示时刻,下标表示对特征F采取的方法(average or max),M表示对特征F提取过后的特征
  • א表示用于融合的卷积层
  • ∥表示连接运算
  • σ为sigmoid激活函数

紧接着,通过注意力加权实现信息过滤策略,以增强显著历史特征。
在这里插入图片描述

Spatio-temporal Feature Integration.

为了整合历史原型以提高当前表示的感知能力,我们引入了pyramid LSTM来学习帧间特征 F (t)i∥H(τ)i 的上下文依赖关系。pyramid LSTM与vanilla LSTM的区别在于,初始的矩阵乘法被多尺度卷积结构取代,如图2(b)所示。需要注意的是,LSTM采用的是长短期记忆机制。在实践中,多尺度空间特征的提取是通过两次不同尺度的连续二维卷积,然后进行批处理归一化和ReLU激活。为了实现多层空间语义融合,下采样特征通过横向连接逐步内插到上采样层。整体设计有助于学习历史背景下的时空相关性,这有利于我们的多帧感知范式。最终,pyramid LSTM中的最终隐藏状态被用作精炼的上下文感知特征H(t)i∈RC×H×W。

Confidence-aware Cross-agent Collaboration

现有工作提出了基于注意力的逐位置特征融合方法,该方法容易受到定位误差的影响,并忽略了点云的稀疏性。
为了解决这些问题,我们实现了一个新的信任感知跨代理协作(Confidence-aware Cross-agent Collaboration:CCC)组件。
在这里插入图片描述
(a)CCC组件的架构。(b) CCC在每个尺度上由两个阶段组成:Reference Point Proposal.(中)和可变形交叉注意力模块(右)。

我们首先根据Where2comm的方法得到特征F(t) k,k∈{1,…,k}的置信映射S(t)k和二元选择矩阵C(t) k。第k个智能体与自我智能体共享的过滤特征是F(t) k=F(t) k⊙C(t)k
如图3(a)所示,CCC组件将特征和置信度图编码为三个尺度,并在每个尺度上进行特征融合。F(t)k,l和S(t)k,l 分别表示第l个尺度上的特征和置信度图。

Reference Point Proposal.

为了预测包含有意义对象信息的空间位置*(建议先参考Where2comm再来理解),我们得到所有置信度图的元素求和。由于置信度图反映了空间临界水平,S(t)sum,l 表示目标在检测范围内的潜在位置,称为参考点。因此,我们应用基于阈值的选择函数 fsel(·) 来提取参考点 S(t)re,l。这种设计可以主动引导后续的融合网络专注于基本的空间区域。

Deformable Cross-attention Module.

我们在参考点处提取自我代理的特征 F (t)i,l 作为初始查询嵌入,并应用线性层将参考点的位置编码为位置嵌入。为了解决特征图错位,并获得更稳健的定位误差表示,可变形交叉注意模块 (DCM) 通过可变形交叉注意力层从采样关键点聚合信息。具体来说,利用线性层来学习参考点q的二维空间偏移∆q,用于在q +∆q处采样参与关键点。我们同时选择 M 个关键点并提取它们的特征作为参与特征。DCM 在位置 q 的输出为
在这里插入图片描述

  • A 表示 attention head, 有a个
  • W 表示要学习的参数
  • φ(·) 是 softmax 函数
  • k个agent
  • M个关键点

最终,我们根据初始位置 q 推导出填充操作,将 DCM(q) 填充到自我代理的特征 F (t)i,l 中,并输出 Z(t)i,l。三个尺度下的输出增强特征被编码为相同的大小并在通道维度中连接。我们利用 1×1 卷积层来融合三个尺度的信息,得到最终的协作特征 Z(t)i ∈ RC×H×W

Importance-aware Adaptive Fusion

尽管之前的工作通过聚合协作信息的自我特征获得了令人印象深刻的性能,但它们可能会受到异步测量协作者引入的噪声干扰。一个有前途的解决方案是考虑纯粹以自我为中心的特征,这些特征包含了目标主体的自然感知优势。
在这里插入图片描述
我们提出了一种基于多源特征互补贡献的重要性感知自适应融合(IAF)组件来融合多源特征。这些信息特征包括H(t)i、Z(t)ii和F(t)i。从图4中可以看出,重要性生成器fgen(·)用于生成空间重要性图,其处理如下
在这里插入图片描述

  • fgen(·)重要性生成器用于生成空间重要性图
  • Ψm:Max Pooling
  • σ:softmax 激活函数

然后,将这些重要性图连接起来,通过softmax函数获得不同特征之间的归一化注意力图
在这里插入图片描述
值越大,表示对应的特征位置越显著。其中s和f的操作方法一样,都是通过φ函数得到。最后融合特征图

Detection Decoder and Objective Optimization

我们利用两个检测解码器将最终融合的特征F(t)i解码为预测输出。采用平滑L1损失来回归边界框,采用focal loss进行分类。

实验

DAIR-V2X , V2XSet , OPV2V数据集
评估指标:AP@0.5、0.7

Quantitative Evaluation

Detection Performance Comparison.

在这里插入图片描述

Comparison of Communication Volume

在这里插入图片描述

Robustness to Localization and Heading Errors

在这里插入图片描述
在这里插入图片描述

噪声是从标准差为 σ(xyz) ∈ [0, 0.5] m,σ(heading) ∈ [0◦, 1.0◦] 的高斯分布中采样的

Ablation Studies

在这里插入图片描述
在这里插入图片描述

Qualitative Evaluation

在这里插入图片描述

结论

我们提出了SCOPE,这是一个基于学习的框架,以端到端的方式解决现有的多智能体协作感知挑战。我们的方法是第一次考虑自我代理的时间语义,以通过上下文感知组件捕获有价值的上下文线索。此外,引入了两个空间信息聚合组件,以实现智能体之间的全面信息交互和自我智能体的精细特征融合。在不同的3D检测数据集上进行的大量实验证明了SCOPE的优越性和我们的组件的有效性。未来的工作重点是将SCOPE扩展到更复杂的感知场景中。

  • 30
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值