ICCV 2023 | CORE:协作重建助力多智能体协同感知新突破!

点击下方卡片,关注“自动驾驶之心”公众号

ADAS巨卷干货,即可获取

今天自动驾驶之心很荣幸邀请到张磊来分享ICCV 2023最新中稿的协同感知新方案—CORE,如果您有相关工作需要分享,请在文末联系我们!

>>点击进入→自动驾驶之心【V2X】技术交流群  

论文作者 | 张磊、周天飞

编辑 | 自动驾驶之心

CORE:协作重建助力多智能体协同感知

论文题目:CORE: Cooperative Reconstruction for Multi-agent Perception
论文地址:https://arxiv.org/abs/2307.11514
作者:Binglu Wang, Lei Zhang, Zhaozhong Wang, Yongqiang Zhao, Tianfei Zhou
代码仓库:https://github.com/zllxot/CORE

导言:近年来,深度学习的不断进步使得个体感知在诸多任务中取得了显著进展,例如检测、分割和跟踪。尽管如此,由于个体智能体的有限视线可见性,以及安全问题的挑战,个体感知往往会受到一些问题的困扰(例如遮挡)。更具吸引力的范式是协同感知,即一组智能体通过相互交换信息以共同感知周围环境。在该领域,一个关键问题是如何充分利用多个智能体的有限知识来实现对场景的更全面感知,同时尽可能减少通信传输开销。现有工作已经从通信架构、协作策略等方面进行了探讨。然而,这些以任务为导向的方法在学习如何通信或协作时,都有一些次优之处,同时也可能降低模型对更广泛感知任务的泛化能力。

ed68b3d999196644dd785b7df8e33e30.png
图1 协同重建示意图

本文从一种新颖的协同重建的角度出发解决多智能体协同感知问题(见图1)。我们认为,如果多个智能体确实共同提供了场景的更完整的观察,那么通过吸收其他智能体的信息,每个智能体就能够重建其部分原始观察中缺失的部分。通过学习重建,模型被促使学习与任务无关的特征表示,并能够为理想的协作状态(即特征)提供更加清晰的解释,即我们能够从中重建完整观察。此外,这种学习重建的思想自然地与最近在掩码数据建模[1]方面的进展相契合,使我们的模型能够甚至从更加受损的输入中恢复完整观察,例如通过对部分原始观察进行掩码。有了这个能力,智能体可以在推理过程中交换空间稀疏的特征,从而减少传输开销。

基于场景重建的协同感知框架

d370a2db32bf60a32b1cf0912c3b434a.png
图2 基于场景重建的协同感知模型

本文提出一种新的协同感知算法框架CORE,其整体结构如图2所示。该方法适用于一组N个智能体共同感知周围环境。每个智能体都搭载了RGB相机或激光雷达传感器,用于观察环境并获取本地的感知信息,例如RGB图像或3D点云。CORE将这些感知信息转换为BEV(Bird’s Eye View)空间中的表示,以便相邻智能体之间可以更有效地进行信息交换和合作。

核心思想包括以下三个主要组件:

  1. 在特征压缩与共享部分,与传统方法不同,除了采用常规的通道级压缩以外,我们采用空间下采样方法产生空间稀疏的特征,进一步降低模型在推理过程中的传输带宽占用。

  2. 在智能体注意力协作模块,通过衡量来自不同智能体的特征的空间置信度,我们构建了一个轻量级的注意力模块,每个智能体根据来自其他智能体的特征和关注度信息,更新自身的特征表示。这使得每个智能体可以更准确地整合来自相邻智能体的信息。

  3. 在BEV重建方面,我们构建了一个专门用于重建的解码器,并利用各智能体的原始数据构建场景的完整观测,作为重建的监督信号来训练该解码器。使其学习不依赖于特定任务的高质量BEV特征。

特征压缩与共享

以往的方法通常只沿通道维度压缩特征,例如使用1×1卷积自编码器[2, 3, 4, 5]。然而,我们认为仅仅压缩通道维度并不能最大程度地减少带宽占用。为了实现更有效的重建,我们还对特征进行了空间下采样,可以进一步减轻传输负担。

3a8b75e3315364e5c00e70dd35171708.png

智能体注意力协作模块

3d7e6e3c30a998a1133cebfdc16b2324.png
图3 注意力图Mj→i计算过程
11e22f2356e42ddd950200df90c57bad.png 20cce3fff15ba8b79d17f2cc9164a5be.png

有了该注意力图,我们可以通过以下公式做更精确和自适应的特征更新(如图4所示):

107737cf7631fa5bd8dfef3f518c060f.png

这里的A和V分别由以下公式计算得到:

82d9ba27aa1f833abda4b9ca68326fb9.png 10d8363d62d4f3017e0e49f99067f808.png
图4 注意力协作模块结构

BEV特征重建

e2e6c79b84ab82d349f9a70b54eeb8c8.png
图5 理想BEV的构建过程

在前两部分,我们通过在通道和空间维度上压缩特征来降低带宽消耗,并通过注意力协作实现了代理之间的有效信息交互。然而,由于压缩,特征中包含的细节信息不可避免地丢失了。此外,仅通过特定任务的标签来监督模型可能会导致其对下游任务产生高度依赖,损害模型的泛化能力。为了缓解这些问题,我们提出的BEV重构方案通过学习深度卷积解码器来从交互消息中重建出高质量的多视角BEV特征。
我们利用了早期融合的方式来构建理想的重建目标,如图5所示。具体来说,我们首先将场景中所有智能体的点云数据投影到中心智能体的坐标系下,并将来自不同视角的点云合并成一个全局点云。然后根据各智能体的位姿信息和范围从全局点云中裁剪出相应的点云。最后将点云转换为对应的BEV特征,并以此作为每个智能体的重建目标。

e94b71357cc60b03eb7174a2241abd69.png 7fa8e81575790dccbec16fcaef6f133a.png

为了获得高质量的重建特征,我们采用均方误差(mean squared error)作为BEV重建的损失函数来训练重建解码器:

430036bfd6e6bad7c615438740d314e5.png

实验结果

为了验证所提方案的性能,我们在两个主流的协同感知数据集(OPV2V[4],V2X-Sim[8])上对CORE在3D目标检测和BEV语义分割两项感知任务上的性能进行了实验,并与SOTA算法进行了对比,结果如下:

87c480b5bc294ae09dd8262ade0d7f3e.png 1360ee4c9f36e331ee16847ab3874794.png

实验结果表明,本文算法以较低的通信开销,在不同的数据集上均取得了优越的性能。得益于协作重建,本文算法在不同感知任务上表现出良好的泛化性。此外,消融实验验证了本文算法中每个组件的有效性以及对超参数的鲁棒性。

结论

本文提出了CORE用于处理多智能体场景下的协同感知问题。通过从协同重建的角度解决任务,CORE能够学习更有效的多智能体协作,有助于降低模型与任务之间的依赖性。此外,协同重建自然地与掩码数据建模的思想相结合,这启发我们对空间特征进行采样以进一步减少传输的数据量。在公开数据集OPV2V和V2X-Sim上,CORE在3D目标检测和BEV语义分割任务中表现出卓越的性能-带宽权衡。

参考文献

[1] Kaiming He, Xinlei Chen, Saining Xie, Yanghao Li, Piotr Dollár, and Ross Girshick. Masked autoencoders are scalable vision learners. arXiv:2111.06377, 2021.

[2] Tsun-Hsuan Wang, Sivabalan Manivasagam, Ming Liang, Bin Yang, Wenyuan Zeng, and Raquel Urtasun. V2vnet: Vehicle-to-vehicle communication for joint perception and prediction. In ECCV, 2020.

[3] Yiming Li, Shunli Ren, Pengxiang Wu, Siheng Chen, Chen Feng, and Wenjun Zhang. Learning distilled collaboration graph for multi-agent perception. In NeurIPS, 2021.

[4] Runsheng Xu, Hao Xiang, Xin Xia, Xu Han, Jinlong Li, and Jiaqi Ma. Opv2v: An open benchmark dataset and fusion pipeline for perception with vehicle-to-vehicle communication. In ICRA, 2022.

[5] Runsheng Xu, Hao Xiang, Zhengzhong Tu, Xin Xia, Ming-Hsuan Yang, and Jiaqi Ma. V2x-vit: Vehicle-to-everything cooperative perception with vision transformer. In ECCV, 2022.

[6] Yue Hu, Shaoheng Fang, Zixing Lei, Yiqi Zhong, and Siheng Chen. Where2comm: Communication-efficient collaborative perception via spatial confidence maps. arXiv preprint arXiv:2209.12836, 2022.

[7] Yiming Li, Dekun Ma, Ziyan An, Zixun Wang, Yiqi Zhong, Siheng Chen, and Chen Feng. V2x-sim: A virtual collaborative perception dataset and benchmark for autonomous driving. 2022.

投稿作者为『自动驾驶之心知识星球』特邀嘉宾,如果您希望分享到自动驾驶之心平台,欢迎联系我们!

① 全网独家视频课程

BEV感知、毫米波雷达视觉融合多传感器标定多传感器融合多模态3D目标检测点云3D目标检测目标跟踪Occupancy、cuda与TensorRT模型部署协同感知语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频(扫码即可学习

ab480e7ac4ab15782e9da761f246277d.png 视频官网:www.zdjszx.com

② 国内首个自动驾驶学习社区

近2000人的交流社区,涉及30+自动驾驶技术栈学习路线,想要了解更多自动驾驶感知(2D检测、分割、2D/3D车道线、BEV感知、3D目标检测、Occupancy、多传感器融合、多传感器标定、目标跟踪、光流估计)、自动驾驶定位建图(SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案、AI模型部署落地实战、行业动态、岗位发布,欢迎扫描下方二维码,加入自动驾驶之心知识星球,这是一个真正有干货的地方,与领域大佬交流入门、学习、工作、跳槽上的各类难题,日常分享论文+代码+视频,期待交流!

06557a07494e9f25b6d4301731fb6813.png

③【自动驾驶之心】技术交流群

自动驾驶之心是首个自动驾驶开发者社区,聚焦目标检测、语义分割、全景分割、实例分割、关键点检测、车道线、目标跟踪、3D目标检测、BEV感知、多模态感知、Occupancy、多传感器融合、transformer、大模型、点云处理、端到端自动驾驶、SLAM、光流估计、深度估计、轨迹预测、高精地图、NeRF、规划控制、模型部署落地、自动驾驶仿真测试、产品经理、硬件配置、AI求职交流等方向。扫码添加汽车人助理微信邀请入群,备注:学校/公司+方向+昵称(快速入群方式)

4b74c023ee727b6ea61bef430b31fb02.jpeg

④【自动驾驶之心】平台矩阵,欢迎联系我们!

e6996c92f3d23cb1248a1f710b069ca0.jpeg

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值