Where2comm: Communication-EfficientCollaborative Perception via Spatial Confidence Maps-CSDN博客

本文链接：https://blog.csdn.net/qq_48972714/article/details/129284098

Where2comm：通过空间置信图实现高效通信协作感知

现有的研究：

我们不能只提高感知性能而不评估宝贵的通信带宽。为了实现更好的性能和带宽权衡，先前的工作从几个角度提出了解决方案。例如，When2com[12]考虑选择最相关合作者的握手机制；V2VNet[1]考虑基于端到端学习的源编码；DiscoNet[2]使用1D卷积来压缩消息；OPV2V[10]提出了一种基于图的注意力中间融合，以提高感知性能。V2X-ViT[26]引入了一种新的异构多代理注意力模块，以融合异构代理之间的信息。

提出问题：

然而，所有先前的工作都做出了一个似是而非的假设：一旦两个代理协作，他们就有义务平等地共享所有空间区域的感知信息。这种不必要的假设会极大地浪费带宽，因为很大一部分空间区域可能包含与感知任务无关的信息。图1说明了感知信息的这种空间异质性。

解决思路：

为了填补这一空白，我们考虑了一种新颖的空间自信感知通信策略。核心思想是为每个代理启用空间置信度图，其中每个元素反映相应空间区域的感知临界水平。基于该地图，代理决定要通信的空间区域。也就是说，每个代理提供空间上稀疏但关键的特征来支持其他代理，同时通过多轮通信从其他代理请求补充信息，以执行高效且互利的协作。

Where2comm，这是一种新的通信高效的多智能体协作感知框架

三个贡献：

i）我们通过设计紧凑的消息和稀疏的通信图来提高通信效率；

ii）我们通过实施更全面的消息融合来提高感知性能；

iii）我们通过动态调整通信地点和通信对象，使整个系统能够适应变化的通信条件。

关键模块：

观测编码器：

所有代理将各自的感知信息投影到同一个全局坐标系统

空间置信生成器：

多轮协作，Where2comm通过聚合来自其他代理的信息来迭代更新特征图。一旦获得F（k）i，则触发（1）以反映每个空间位置的感知临界水平

空间置信感知通信模块：

消息打包-决定要发送的消息中应包含哪些信息：i）指示代理需要知道更多的空间区域的请求图；ii）空间上稀疏但感知上关键的特征图。

通信图结构-第i个和第j个代理之间通信的必要性仅通过第i个代理所拥有的信息与第j个代理商所需要的信息之间的重叠来衡量。借助空间置信图和请求图，我们构建了一个更易于解释的通信图。对于初始通信循环，系统中的每个代理都还不知道其他代理。为了激活协作，我们构建了一个完全连接的通信图。每个代理将向系统的其他部分广播其消息。对于随后的通信循环，我们基于二进制选择矩阵M（k）i的最大值来检查代理i和代理j之间的通信是否是必要的。即，如果至少有一个补丁被激活，那么我们认为连接是必要的。

空间置信信息融合模块：

聚合从其他代理接收的消息来增强每个代理的特征。

检测解码器：

将特征解码为对象，包括类和回归输出。

总结：

我们提出了Where2comm，一种新的通信高效协作感知框架。其核心思想是利用每个代理的空间置信图来促进语用压缩，帮助代理决定与谁通信以及聚合谁的信息。每个代理都提供空间上稀疏但感知上关键的特征来支持其他代理；同时，在多轮交流中要求他人提供补充信息。涵盖多类型代理和多模态输入的综合实验表明，Where2comm在感知性能和通信带宽之间实现了更优的权衡。

参考文献

[1] Tsun-Hsuan Wang, Sivabalan Manivasagam, Ming Liang, Bin Yang, Wenyuan Zeng, and Raquel Urtasun.V2vnet: V ehicle-to-vehicle communication for joint perception and prediction. In European Conference on Computer Vision, pages 605–621. Springer, 2020

[2] Yiming Li, Shunli Ren, Pengxiang Wu, Siheng Chen, Chen Feng, and Wenjun Zhang. Learning distilled collaboration graph for multi-agent perception. Advances in Neural Information Processing Systems, 34,2021

[10] Runsheng Xu, Hao Xiang, Xin Xia, Xu Han, Jinlong Liu, and Jiaqi Ma. OPV2V: An open benchmark dataset and fusion pipeline for perception with vehicle-to-vehicle communication. ICRA, 2022.

[12] Yen-Cheng Liu, Junjiao Tian, Nathaniel Glaser, and Zsolt Kira. When2com: Multi-agent perception via communication graph grouping. In Proceedings of the IEEE/CVF Conference on computer vision and pattern recognition, pages 4106–4115, 2020

[26] Runsheng Xu, Hao Xiang, Zhengzhong Tu, Xin Xia, Ming-Hsuan Yang, and Jiaqi Ma. V2X-ViT:

V ehicle-to-everything cooperative perception with vision transformer. ECCV, 2022.