【论文解读】Communication-Efficient and Collaboration-Pragmatic Multi-Agent Perception

最新推荐文章于 2024-11-18 05:17:21 发布

我叫两万块

最新推荐文章于 2024-11-18 05:17:21 发布

阅读量1.5k

点赞数 32

文章标签：自动驾驶目标检测

本文链接：https://blog.csdn.net/lwk___123/article/details/136618764

版权

本文介绍了一种名为How2comm的框架，针对多智能体协同感知中的通信冗余、延迟和协作异质性问题。通过互信息感知通信、流引导的延迟补偿和时空协作转换器等创新组件，该框架在带宽有限的环境中提升了3D对象检测性能。实验证明了How2comm在协作感知领域的优越性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

摘要

多智能体协同感知作为一种新兴的驾驶场景应用，近年来受到广泛关注。尽管之前的努力取得了进展，但由于感知过程中的各种困境，包括通信冗余、传输延迟和协作异质性，仍然存在挑战。为了解决这些问题，我们提出了How2comm，这是一个协作感知框架，旨在寻求感知性能和通信带宽之间的权衡。我们的新颖之处在于三个方面。首先，我们设计了一种相互信息感知的通信机制，以最大限度地维持合作者共享的信息特征。采用空间信道滤波进行有效的特征稀疏化，实现高效的通信。其次，我们提出了一种流引导的延迟补偿策略，以预测合作者的未来特征，并消除由于时间异步引起的特征错位。最后，引入了一个实用的协作转换器，以集成代理之间的整体空间语义和时间上下文线索。我们的框架在现实世界和模拟场景中的几个基于激光雷达的协同检测数据集上进行了全面评估。综合实验证明了How2comm的优越性及其所有重要组件的有效性。代码将在发布https://github.com/ydk122024/How2comm.

引言

通信冗余。减少通信开销的主要模式概括为特征压缩[14，33，40]和空间滤波[7，8]。前者假设代理不分青红皂白地共享所有空间区域，这极大地浪费了带宽。后者过度依赖置信度图来突出易受骗的位置，而没有考虑空间整体信息。此外，这些方法总是会导致传输的有价值信息的丢失。
传输延迟。图1（a）和（b）分别显示了在时间同步和时间异步情况下，自我车辆和基础设施的点云融合结果。不可避免的传输延迟会导致绿色圆圈内快速移动物体的位置错位，可能会损害后续的协作性能。尽管提出了几种延迟感知策略[13，40，53]来解决这个问题，但它们要么存在性能瓶颈[13，40]，要么引入大量计算成本[53]，导致次优解决方案。
在这里插入图片描述
协作异质性。 图1（c）和（d）显示了涉及两个代理和融合点云的典型协作场景。直观地说，各代理之间的激光雷达配置差异（例如，不同的激光雷达密度、分布、反射率和噪声干扰）可能会导致特征空间内的协作异质性。在这种情况下，橙色框包含两个代理的共同感知区域，这有助于弥合由传感器配置差异引起的特征水平差距[37，40]。品红色框包含基础设施的专属感知区域，为自我车辆提供补充信息，并补偿遮挡的视野。从这两个感知区域中融合有价值的空间语义有助于全面和务实的感知。然而，大多数先前的方法[14，16，32，33，40]通过每个代理/位置的消息融合来集成协作者共享的特征，以增强自我表征，其协作过程可能很脆弱，因为没有全面考虑来自异构代理的不同感知区域的优势。此外，当前的单帧感知范式面临着三维点云稀疏性和定位误差的挑战，增加了构建鲁棒多智能体感知系统的难度。

基于上述观察结果，我们提出了How2comm，这是一个端到端的协作感知框架，用于共同解决现有问题。通过三个新颖的组件，How2comm朝着感知性能和通信带宽之间合理权衡的方向发展。具体而言，
（i）我们首先设计了一种相互信息感知的通信机制，以最大限度地保留合作者传输消息中的有益语义，使其不受原特征的影响。在这种情况下，引入空间信道消息过滤来确定如何使用较少的带宽进行高效通信。
（ii）其次，我们提出了一种流引导的延迟补偿策略，通过挖掘序列帧中的上下文相关性来预测合作者的未来特征。我们巧妙的策略决定了如何动态补偿延迟的影响，并明确实现时间对齐。
（iii）此外，我们构建了一个时空协作转换器（STCFormer）模块，以整合来自协作者的感知综合信息和代理之间的时间上有价值的线索。我们统一的转换器结构决定了如何实现务实的协作，有助于对定位错误和特征差异产生更强大的协作感知。

How2comm在各种协作3D对象检测数据集上进行了系统评估，包括DAIR-V2X[52]、V2XSet[40]和OPV2V[41]。定量实验表明，在带宽有限的噪声环境下，我们的框架显著优于以前最先进的（SOTA）方法。系统分析证实了How2comm对不同协作噪声的鲁棒性。

方法

在这里插入图片描述
图2:How2comm概述。通过共享编码器获得所有智能体的投影特征。协作者(即基础设施)在接收到自我车辆的请求{Rt0i,s, Rt0i,c}后，通过消息过滤和流生成器共享稀疏特征F t0j、特征流Ot0j和尺度矩阵St0j。之后，自我车辆预测未来特征ztj，并采用重要性映射{It i, It j}得到排他和公共映射，将ztj解耦为ztj,e和ztj,c。最后，我们的STCFormer融合了时间背景和解耦的空间特征，输出用于检测的Ft i。

How2comm的目标是在总通信预算B下最大化基于lidar的3D检测性能(·)
在这里插入图片描述其中ð(·，·)表示感知评价指标，Ψθ是用θ参数化的感知系统。[F] t0j是第j个智能体在时滞τ感知时刻t0向第i个智能体传输的信息，其中t0 = t−τ。

Metadata Conversion and Feature Extraction

在协作的初始阶段，我们构建了一个通信图[14,40]，其中选择一个智能体作为自我智能体，其他连接的智能体作为合作者。在接收到来自自我代理的广播元数据(例如，姿势和外在)后，合作者将他们的局部观察投射到自我代理的坐标系统中。此外，自我运动补偿[35]同步了每个智能体的历史帧。共享的PointPillar[11]编码器fenc(·)将时间戳t时刻第i个agent的点云转换为BEV特征，格式为F ti =fenc(Xt i)∈RH×W ×C，其中H、W、C分别表示高度、宽度和通道

Mutual Information-aware Communication

先前减少所需传输带宽的尝试严重依赖于自编码器[14,33,40]或置信度图[7,8]，这些方法是片面的，因为它们只考虑空间位置或信道上的信息压缩。为此，我们设计了一种互信息感知通信(MIC)机制，从空间和信道中选择信息量最大的消息，以节省宝贵的带宽。MIC由以下两个核心部分组成。

Spatial-channel Message Filtering.

空间查询 At0 i,s=σ（ω33[φa（F t0i）；φm（F t0i）]）∈RH×W×1反映了延迟特征F t0i上的哪些空间位置是有信息的，其中[·；·]是级联，σ是softmax，φa/m（·）表示平均和最大池函数，ω33（·）是2D 3×3卷积运算。
通道查询 At0 i,c = σ(ω1∗1(φa(F t0i)) + ω1∗1(φm(F t0i)))∈R1×1×C反映F t0i中哪些通道是有语义意义的。空间查询和通道查询中的φa/m(·)分别应用于通道和空间维度。
然后，自我代理通过广播请求查询 Rt0i,s/Rt0i,c = 1−At0i,s/At0i,c 来指示提高本地感知性能所需的补充消息。然后，第j个协作器将请求与其注意查询聚合，以获得如下所示的空间通道二进制消息过滤矩阵
在这里插入图片描述其中fsel(·)是基于阈值的选择函数，⊙是基于元素的乘法。最终，所选择的特征映射得到为[F t0j = F t0j⊙Mt0j]，它提供了空间通道稀疏但感知关键的信息。
【i 的广播空间/通道查询R和 j 的空间/通道查询A相连接后，经过相乘后卷积，就可以知道 j 需要传给 i 的特征置信分数，再通过fsel将分数变成二进制消息过滤矩阵M，再将M与Fj相乘，就可以得到需要传给i的最终特征了。】

Mutual Information Maximization Supervision.

大多数现有的工作都忽略了由于特征压缩而可能丢失的有价值的信息。为了克服这一困境，我们通过互信息估计，在传输特征的选定区域上最大限度地维持相应特征F t0j的局部关键语义。由于我们只关注互信息的最大化，而不是获取互信息的精确值，所以我们利用一个稳定估计量[5]来构建基于Jensen-Shannon散度的客观监督。在这里插入图片描述
其中，ρ: X ×Z→R是由ρ参数化的统计网络。在我们的例子中，通信链路中所有协作者的相互信息监督定义如下

Flow-guided Delay Compensation

为了消除特征级协作中由于时间异步而产生的双边融合误差，提出了一种流导向延迟补偿策略。现有的解决方案依赖于接收到的历史特征[13]，在严重的延迟下会产生较大的误差[53]，导致性能瓶颈。为了解决这些问题，我们采用特征流的理念来预测合作者未来的特征，以便与自我表征在时间上保持一致。具体情况如下

Flow Generation and Warping

由于自我智能体与合作者之间存在不确定的延迟，FDC基于第j个智能体的历史帧预测固定时间间隔的特征流Ot0j和尺度矩阵St0j。具体如图2所示，特征{F到0−k j，…， F t0j}按通道维度进行连接，输入到发生器ff low(·) 中，输出Ot0j∈RH×W ×2, St0j∈RH×W ×1。然后第j个智能体将具有预测能力和稀疏特征的{Ot0j, St0j}发送给自我智能体。自我智能体估计预测的合作者特征为Zt j = fwarp(j F t0j， (t−t0)·Ot0j)⊙St0j，其中fwarp(·)是应用于所有位置和通道的双线性扭曲函数[60,61]，·是标量乘法。临时对齐的特征被传递给STCFormer。

Self-supervised Training Pattern

由于现有数据集[40，41，52]缺乏运动注释，因此采用自监督学习来训练流生成器ff low（·）。具体地说，我们首先形成训练群{Ft0−kj，…，Ft0j，Ftj}，其中{FT0−kJ，…，F t0j}是连续的特征序列，并且Ftj被认为是gt。随后，我们预测了特征Ztj为Ztj=fwarp（Ft0j，（t−t0）·Ot0j）⊙St0j。由于ff-low（·）的优化目标是增加Ftj和Ztj之间的相似性，我们基于余弦相似性[53]将自监督损失函数Lf-low公式化如下：
在这里插入图片描述
其中，‖·‖2F是Frobenius范数的平方。

Spatio-Temporal Collaboration Transformer

为了有效地缓解协作异构性，我们提出了一种时空协作转换器（STCFormer）来联合集成Agent之间解耦的空间语义和时间动态。从图3（a）中可以看出，STCFormer的核心贡献在于以下三个定制模块，其中其他基本组件遵循香草变压器的选择[30]。在这里插入图片描述

Temporal Cross-Attention.

为了弥补由于点云稀疏性而导致的关于快速移动物体的检测差距，我们通过时间交叉注意力（TCA）模块捕获代理之间的历史上下文线索，以增强当前表示。**其核心是通过三个二维卷积层ω33（·）将自我特征F t i和合并的时间特征E=[F t0j，F t0i，…，F t i]投影到不同的子空间中，来执行类似查询键值的注意力运算。**在图3（b）中，Key&Value Ek/v的分支← ω1（φa（ω33（E））⊙ω3*33（E）共享相同的结构但不同的权重，其中具有全局平均池φa（·）的1D时间卷积ω1（·）提供了时间相关性。φa（·）应用于空间维度以缩小特征图。TSA的计算可以显示为：在这里插入图片描述
就是q和v相乘之后softmax，然后乘v，再通过2d conv，得到H。

Decoupled Spatial Attention

为了全面集成来自合作者的不同空间语义，我们利用图1(d)中观察到的特征解耦视角促进了实用消息融合。形式上，使用重要性生成器fgen(·)生成自我特征F ti和估计的合作者特征Zt j的重要性映射（importance maps）。It i /It j = σ(φm(fgen(F ti /Zt j))))∈[0,1]H×W。重要性图反映了特征中每个像素的感知临界水平。然后，第j个智能体通过候选映射Et j =(1−It i)⊙It j和Ct j = It i⊙It j对特征ztj进行空间解耦。直观地，Et j和Ct j分别描述了合作者相对于自我主体的专属和共同感知区域。分别得到了排他性与一致性的特征为ztj,e = fsel(Et j)⊙ztj和ztj,c = fsel(Ct j)⊙ztj。

【这个I一样的东西，其实就是通过重要性图之后得到的特征的分数。然后利用这个分数，进行特征解耦，就得到了e和c，e和c表示的东西是相反的。由此，分别得到了具有相反性质的特征。】

然后，我们提出了两个基于可变形交叉注意的空间注意模块[59]，将结构相同但权值不同的解耦专属特征和共同特征聚合在一起。这里以排他性空间注意(ESA)为例(见图3©)，其输入包括Ht i和Zt j,e。首先设计了一个重要性感知查询初始化，引导ESA关注潜在的前景对象。具体来说，我们得到重要性映射的元素求和为It = PN j=1 It j，并从It中的显著位置提取Nq个目标查询。通过线性层和softmax函数从初始查询中学习注意力分数。随后，线性层为每个输入特征学习一个偏移映射，为每个查询q提供二维空间偏移{∆qv |1≤v≤Nv}。我们根据学习到的偏移映射对关键点进行采样，并提取这些关键点的特征，形成参与特征。跨注意层聚合多个协作者的特征，为每个查询q as输出增强的特征
在这里插入图片描述
式中，u为注意头，Wu/f为可学习参数。然后，填充操作根据查询的初始位置将ESA(q)填充到Ht中，并输出F ti,e。同样，通过共同空间注意(CSA)得到增强的共同特征F i,c。

【先对Hi（ego agent经过encoder提取的特征）线性加权，再经过softmax得到一个分数，因为是deformable cross-attention，有关键点和多个查询，意思是偏移的位置也是可学习的】

【Deformable Cross-Attention】
Deformable Cross-Attention的原理可以分为以下几个关键步骤：

首先，将输入序列分别表示为查询（query）、键（key）和值（value）序列。这些表示通常是通过对输入序列的线性变换得到的，例如使用全连接层或卷积层。
计算注意力权重: 使用查询序列和键序列的内积，计算查询序列与每个键序列位置之间的相关性，以此来获得注意力权重。传统的交叉注意力中，这一步通常是直接计算的。但在Deformable Cross-Attention中，将引入可变形机制来对注意力的计算进行动态调整。
生成偏移量: 在Deformable Cross-Attention中，模型需要学习用于调整注意力位置的偏移量。这些偏移量可以根据查询序列的位置来学习，以便在计算注意力权重时能够对查询与键序列之间的距离进行动态调整。偏移量可以通过添加一个额外的可学习参数来实现。
应用偏移量: 将生成的偏移量应用到键序列上，以便根据查询序列的位置来动态调整键序列的位置。这样，在计算注意力权重时，查询序列就可以考虑到更广泛的局部上下文
计算加权和: 将调整后的键序列与值序列相乘，然后按照注意力权重进行加权求和，得到最终的输出表示。这一步与传统的交叉注意力相同。

在这里插入图片描述

Adaptive Late Fusion

提出了自适应后期融合 (ALF) 模块来有效地融合排他性和公共表示 {F t i,e, F ti,c}，以结合它们的感知优势。形式上，我们得到两个权重图为 Gt i,e/Gt i,c = ω1∗1(F t i,e/F ti,c)，并应用 softmax 函数生成归一化权重图为 Gt i,e/Gt i,c = softmax(Gt i,e/Gt i,c)。学习到的Gt i,e和Gt i,c反映了{F t i,e, F ti,c}在每个空间位置的互补感知贡献。因此，我们通过加权求和自适应地激活每个表示的感知关键信息。细化的特征图得到Ft i = Gt i,e⊙F t i,e + Gt i,c⊙F ti,c。

Detection Decoders and Objective Optimization

用两个检测解码器 {fr dec(·), fc dec(·)} 将输出融合表示 Fti 转换为预测结果。回归结果表示预定义框在每个位置的位置、大小和偏航角，即Y(t)i,r = f r dec(Ft i)∈RH×W ×7。分类结果为Y(t)i,c = f c dec(Ft i)∈RH×W ×2，揭示了每个边界框作为对象的置信度值。对于目标优化，我们利用平滑绝对误差损失进行回归（表示为 Lreg ）和焦点损失 [15] 进行分类（表示为 Lcla）。我们总共制定了总体目标函数如下：Lall = Lreg + Lcla + Lmul + Llf low

实验

在这里插入图片描述