【论文解读】Where2comm: Communication-Efficient Collaborative Perception via Spatial Confidence Maps

最新推荐文章于 2025-05-22 15:47:22 发布

我叫两万块

最新推荐文章于 2025-05-22 15:47:22 发布

阅读量2.2k

点赞数 20

文章标签：自动驾驶目标检测

本文链接：https://blog.csdn.net/lwk___123/article/details/135608989

版权

Where2comm

摘要
引言
方法
实验
结论

摘要

多智能体协同感知可以使智能体之间通过通信共享互补信息，从而显著提升感知性能。它不可避免地导致感知性能和通信带宽之间的基本权衡。为了解决这一瓶颈问题，我们提出了一个反映感知信息空间异质性的空间置信度图。它使代理只能共享空间稀疏但感知上至关重要的信息，有助于在何处进行通信。基于这一新颖的空间置信度图，我们提出了一个高效沟通的协同感知框架Where2comm。where2comm有两个明显的优势:i)它考虑语用压缩，通过关注感知关键领域，使用更少的通信来实现更高的感知性能;ii)通过动态调整参与通信的空间区域来处理不同的通信带宽。为了评估Where2comm，我们考虑在现实世界和模拟场景中使用两种模式(相机/激光雷达)和两种代理类型(汽车/无人机)在四个数据集上进行3D物体检测:OPV2V, V2X-Sim, DAIR-V2X和我们原始的CoPerception - UAVs（unmanned aerial vehicles）。Where2comm始终优于以前的方法;例如，它在OPV2V上实现了10万倍以上的低通信量，并且仍然优于DiscoNet和V2X-ViT。我们的代码可在https://github.com/MediaBrain-SJTU/where2comm上获得。

引言

When2com考虑了一个握手机制，它选择最相关的合作者;V2VNet考虑基于端到端学习的源代码;DiscoNet使用一维卷积来压缩消息。然而，之前的所有研究都有一个貌似合理的假设:一旦两个智能体合作，它们就有义务平等地共享所有空间区域的感知信息。这种不必要的假设会极大地浪费带宽，因为很大一部分空间区域可能包含与感知任务无关的信息。

在这里插入图片描述
【协同感知可能有助于安全关键场景，其中白色汽车和红色汽车可能因遮挡而发生碰撞。如果蓝色的车能分享红色车的位置信息，这场碰撞就可以避免。这样的信息在空间上是稀疏的，但在感知上却是至关重要的。考虑到宝贵的通信带宽，每个代理都需要说到点子上!】

为了填补这一空白，我们考虑了一种新的空间自信感知沟通策略。其核心思想是为每个agent创建空间置信度图，其中每个元素反映相应空间区域的感知临界水平。基于这个地图，代理决定在哪个空间区域(哪里)进行通信。即每个agent提供空间稀疏但关键的特征来支持其他agent，同时通过多轮通信向其他agent请求互补信息，实现高效互利的协作。

遵循这一策略，我们提出了Where2comm，基于空间自信感知通信策略的多轮（通信）、多模态、多智能体协同感知框架
在这里插入图片描述
其中包括三个关键模块:

空间置信度生成器，生成空间置信度图，以指示感知关键区域;
空间置信度感知通信模块，该模块利用空间置信度图，通过新颖的消息打包来决定在哪里通信，通过新颖的通信图构建来决定与谁通信;
空间置信度感知消息融合模块，该模块采用新颖的置信度感知多头关注来融合来自其他智能体的所有消息，升级每个智能体的特征映射。

方法

Observation Encoder

观测编码器从传感器数据中提取特征映射。Where2comm接受单/多模态输入，如RGB图像和3D点云。这项工作采用了鸟瞰(BEV)中的特征表示，其中所有智能体将其个体感知信息投射到相同的全局坐标系中，避免了复杂的坐标转换，并支持更好的共享跨智能体协作。对于第i个agent，给定其输入Xi，特征映射F(0)i = Φenc(Xi)∈RH×W ×D，其中Φenc(·)为编码器，上标0表示该特征是在通信前获得的，H、W、D分别为其高度、权重和信道。所有代理共享同一个BEV坐标系统。对于图像输入，Φenc(·)之后是一个扭曲函数，将提取的特征从前视图转换为BEV。对于三维点云输入，我们将三维点离散为BEV图，Φenc(·)提取BEV中的特征。提取的特征映射输出到空间置信度生成器和信息融合模块。

Spatial confidence generator

对于每个代理，如何确定哪个空间区域的信息值得与其他代理共享？
空间置信度生成器根据每个agent的特征图生成空间置信度图。空间置信度图反映了各个空间区域的感知临界水平。直观地说，对于目标检测任务，包含目标的区域比背景区域更重要。在协作过程中，由于视野有限，有检测到物体的区域可以帮助恢复漏检，背景区域可以省略，节省宝贵的带宽。其中具有高感知临界水平的区域是包含具有高置信度分数的对象的区域。给定第k轮通信的特征图F(k)i，对应的空间置信度图为在这里插入图片描述
其中发生器Φgenerator(·)遵循检测解码器的结构，置信度越高，越值得感知共享。

Spatial confidence-aware communication

Message packing
该通信模块在空间置信度图的指导下，利用空间稀疏特征图对紧凑消息进行打包，并通过稀疏连接的通信图进行消息传输。打包的消息包括:

一个请求映射，指示代理需要了解更多的空间区域;
空间稀疏但感知关键的特征映射。

第i个agent的请求映射为R(k)i = 1−C(k)i∈RH×W，与空间置信度图呈负相关。直觉是，对于置信度较低的位置，代理很难判断是否真的没有物体，或者只是由有限的信息(例如遮挡)引起的。因此，低置信度分数表明该位置可能缺少信息，从其他代理请求这些位置的信息可以提高当前代理的检测准确性，因此需要更大的请求映射。

基于每个代理的空间置信度图和接收到的其他代理的请求图选择空间稀疏特征图。具体来说，使用二进制选择矩阵来表示每个位置是否被选中，其中1表示已选中，其他位置为0。在第k轮通信中，从第i个agent发送到第j个agent的消息，二进制选择矩阵为
在这里插入图片描述

Communication graph construction
我们提供了一个明确的设计原理：第i个和第j个代理之间通信的必要性简单地通过第i个代理所拥有的信息与第j个所需要的信息之间的重叠来衡量。借助空间置信图和请求图，我们构建了一个更具可解释性的通信图。
对于最初的通信回合，系统中的每个代理还不知道其他代理。为了激活协作，我们构建了一个完全连接的通信图。每个代理都会将其消息广播给系统的其他部分。对于随后的通信回合，我们基于二进制选择矩阵M（k）i的最大值来检查代理i和代理j之间的通信是否是必要的→j，即如果至少有一个补丁被激活，那么我们认为连接是必要的。

Spatial confidence-aware message fusion

空间置信度感知消息融合的目标是通过聚合从其他代理接收的消息来增强每个代理的特征。为了实现这一点，我们采用了一种转换器架构，该架构利用多头注意力来融合来自每个单独空间位置的多个代理的相应特征。关键的技术设计是包括所有主体的空间置信度图，以促进跨主体注意力学习。直觉是，空间置信度图可以明确地反映感知临界水平，为注意力学习提供有用的先验。
为了在第k轮通信中融合来自第j个代理的特征，第i个代理的跨代理/自我注意力权重在这里插入图片描述
Fi 是 agent i 的特征图
Z j->i 是 agent j 传给 i 的特征图
C 是请求矩阵
MHAW（·）是多头注意力
参考self-attention公式

众所周知，Attention之后就是FFN
第k轮通信融合消息后得到第k+1轮第i个agent的特征图：

由第k轮推导到第k+1轮，Ni是在通信图中定义的第i个代理的邻居。融合特征F（k+1）i将作为第（k+1个）轮中的第i个代理的特征，在最后一轮中，我们将F（k+1）i输出到检测解码器以生成检测。

Sensor positional encoding

传感器位置编码表示每个代理的传感器与其观测之间的物理距离。它采用了标准的位置编码功能，条件是传感距离和特征尺寸。在输入到变换器之前，用每个位置的位置编码来总结这些特征。与现有的不使用注意力机制或仅使用代理级注意力的融合模块相比，所提出的融合所采用的每位置注意力机制强调特定位置的特征交互，它使特征融合更有针对性。

Detection decoder

检测解码器将特征解码为对象，包括类和回归输出。给定第k个通信轮F(k)i处的特征映射，检测解码器Φdec(·)生成第i个agent的检测，通过n O(k)i = Φdec(F(k)i)∈RH×W ×7，其中n O(k)i的每个位置表示一个类为(c, x, y, h, w, cos α， sin α)的旋转框，表示类置信度、位置、大小和角度。这些对象是所提出的协同感知系统的最终输出。注意，O(0)表示没有协作的检测。

Training details and loss functions

为了训练整个系统，我们在每一轮监督两个任务:空间置信度生成和目标检测。
目标检测的损失函数参考链接: Objects as Points
为了适应多轮通信和动态带宽，我们首先逐步增加通信带宽和轮次；然后，对带宽进行随机采样并循环以提高鲁棒性。通过这种训练策略，单个模型可以在各种通信条件下表现良好。

实验

数据集：OPV2V, V2X-Sim, DAIR-V2X和我们原始的CoPerception - UAVs（unmanned aerial vehicles）。

Quantitative evaluation

Benchmark comparison.
在这里插入图片描述
我们看到，所提出的Where2comm:i）在所有通信带宽选择和各种协同感知任务中实现了更优越的感知通信权衡，包括从鸟瞰图和汽车前视图进行的仅相机3D对象检测，以及基于激光雷达的3D对象检测；ii）在真实世界（DAIR-V2X）和模拟场景上都比以前的技术水平有了显著的改进，在DAIR-V2X上SOTA性能提高了7.7%，在CoPerception无人机上提高了6.62%，在OPV2V上提高了25.81%，在V2X-Sim上提高了1.9%；iii）以极低的通信量实现了与以往技术水平相同的检测性能：CoPerception无人机减少了5128倍，OPV2V减少了100K倍以上，V2X-Sim减少了55倍，DAIR-V2X减少了105倍。

Multi-round evaluation.
在这里插入图片描述
图4显示了Where2comm在从1到3的通信轮次中的性能。每条曲线都来自一个单一的Where2comm模型，该模型具有在不同带宽下评估的特定通信回合。结果表明，1轮沟通效果较好，多轮沟通效果更佳。多轮通信稳步提高了所有三个数据集的性能-带宽权衡，反映了其有效性和稳健性。这鼓励代理积极协作，而不用担心性能下降。这也验证了Where2comm可以很好地工作在各种通信带宽和轮次下。

Robustness to localization noise
在这里插入图片描述
我们遵循V2VNet和V2X-ViT中的定位噪声设置(均值为0m，标准差为0m-0.6m的高斯噪声)，并在所有三个数据集上进行实验，验证其对现实定位噪声的鲁棒性。Where2comm对定位噪声的鲁棒性优于以前的sota

Qualitative evaluation

Visualization of spatial confidence map.
在这里插入图片描述
在这个场景中，Drone 1的视野被一座高楼遮挡。在无人机2的帮助下，无人机1能够通过遮挡进行检测。 (a-d)显示了无人机1的观测结果、空间置信度图(1)、二值选择矩阵(2)和自我关注权值(3)。(f-h)显示了无人机2的观测结果和发送给无人机1的消息，包括请求图(置信度图的对立面)和稀疏特征图，实现了高效通信。(i)显示了无人机1融合无人机2消息的关注权重，这是稀疏的，但突出了物体的位置。 (e)和(j)对比了与Drone 2协同前后的检测结果。我们看到，所提出的空间置信度图有助于提供空间稀疏但感知关键的信息，这有效地帮助Drone 1检测被遮挡的物体。

Visualization of detection results.
在这里插入图片描述

Ablation studies

Effect of Gaussian filter in perceptually critical area selection.
在这里插入图片描述
Effect of components in spatial confidence-aware message fusion.

结论

我们提出了一种新型的高效沟通协作感知框架Where2comm。其核心思想是利用每个代理的空间置信度图来促进语用压缩，帮助代理决定与谁通信以及聚合谁的信息。每个智能体提供空间稀疏但感知关键的特征来支持其他智能体;同时，在多轮沟通中要求他人提供补充信息。涵盖多类型代理和多模态输入的综合实验表明，Where2comm在感知性能和通信带宽之间实现了卓越的权衡。局限性和未来的工作是目前的工作只集中在感知关键的空间区域，未来，我们计划将类似的想法扩展到时间维度并确定关键时间戳。通过探索何时进行沟通，将会减少更多的成本。我们也期待更多关于语用压缩和紧急沟通的方法可以应用到协作感知中。