【论文解读】Bridging the Domain Gap for Multi-Agent Perception

摘要

现有的多智能体感知算法通常选择在智能体之间共享从原始感知数据中提取的深度神经特征,以实现精度和通信带宽限制之间的权衡。然而,这些方法假设所有智能体都有相同的神经网络,这在现实世界中可能不实用。当模型不同时,传输的特征会有很大的域间隙,导致多智能体感知的性能急剧下降。在本文中,我们提出了第一个轻量级框架来弥合多智能体感知的领域差距,该框架可以作为大多数现有系统的插件模块,同时保持机密性。我们的框架包括一个可学习的特征调整器,用于在多个维度上对齐特征,以及一个用于域自适应的稀疏跨域转换器。在公共多智能体感知数据集V2XSet上的大量实验表明,我们的方法可以有效地弥合来自不同领域特征的差距,并且在基于点云的3D物体检测方面,我们的方法至少比其他基线方法高出8%

引言

在本文中,我们深入研究了多智能体感知中尚未解决的实际问题,特别是在自动驾驶中。我们首先仔细研究了不同特征映射的领域差距,然后在此基础上提出了我们的框架。图1显示了在相同场景下,由PointPillar[13]和VoxelNet[14]这两个不同的基于点云的3D物体检测骨干所获得的中间特征表示。
在这里插入图片描述
图1:多智能体感知中不同特征映射的域间隙示意图。这里我们以自动驾驶中的V2X协同感知为例。(a) Ego vehicle接收来自其他CAV和基础设施的具有不同CNN模型的共享特征地图,这就造成了domain gaps。(b)从PointPillar中提取的ego特征图的可视化[13]。© CAV的Feature map,从VoxelNet中提取[14]。更亮的像素表示更高的特征值。

我们采用与[15]相同的技术,通过将所有通道的绝对值相加,使可视化信息丰富。总的来说,我们可以观察到三个方面的特征不同:

  • 空间分辨率。由于体素化参数、激光雷达裁剪范围和下采样层数不同,空间分辨率也不同。
  • 频道号。由于卷积层设置的不同,通道尺寸是不同的。
  • 模式。如图1所示,PointPillar和VoxelNet具有相反的模式:PointPillar的对象位置在特征图上具有相对较低的值,而VoxelNet的对象位置具有较高的值。

我们提出了第一个多智能体感知领域适应框架,称为MPDA,以弥合领域差距。图2描述了整个体系结构

在这里插入图片描述图2:框架的概述和核心组件。我们的MPDA首先通过一个可学习的特征调整器来对齐特征维度,然后通过稀疏的跨域转换器来统一模式。

具体来说,提出了两个组件,即可学习调整器和稀疏跨域变压器。由于多种因素可能导致不同的空间分辨率,我们认为使用基本的调整大小算法(如双线性和最接近插值)可能会导致严重的不对齐。

因此,我们提出以可学习的方式调整接收到的中间特征的大小,并与多智能体融合算法共同优化,以提高检测性能。此外,通过简单地删除通道来对齐通道维度可能会导致丢失重要信息;因此,我们的调整器还包括一个可学习的通道选择器来减轻这种损失。为了减少模式差异,稀疏跨域转换器将有效地对接收到的和自我特征进行局部和全局推理,并通过对抗性欺骗域分类器来生成域不变表示。最后,利用最先进的多智能体融合算法V2X-ViT[3]实现跨多个智能体的信息融合。由于框架不需要来自其他模型的任何关键信息(例如,模型类型、参数),因此它可以保持机密性。我们在公共数据集V2XSet上进行了大量的实验[3],结果表明我们的框架可以在各种现实设置下将V2X-ViT的精度提高至少8%。总的来说,我们的贡献总结如下:

  • 在多智能体感知领域空白识别(空间分辨率、通道数、模式)的基础上,提出了一种新的多智能体感知领域自适应(MPDA)框架,首次解决了多智能体感知领域空白问题。
  • 我们提出了一种新的可学习的调整大小器,以自适应的方式更好地对齐来自其他代理的空间和通道特征。
  • 我们提出了一种稀疏的跨域转换器,可以有效地统一来自不同代理的特征模式。提出的MPDA框架可以很容易地与其他多代理融合算法结合,并且不需要其他代理的机密模型信息。在公共数据集V2XSet上进行的大量实验表明,该方法具有较好的实时性

域适应】由于数据注释的时间消耗和不同领域之间的域差距,域适应用于通过调整在标记的源域上训练的模型来解决未标记的目标域来解决这些问题
可学习的Resizer】:[55]首先提出了可学习的调整大小器的概念,用于图像分类。他们没有使用基本的插值,而是使用卷积神经网络来调整 RGB 图像进行分类并与视觉模型联合训练。我们的可学习特征调整大小器受到这项工作的启发,但在三个主要方面有所不同:1)我们研究了一个可学习的调整大小器(多智能体感知的域适应)的一个未探索的实际应用场景。2)我们的调整大小目标是LiDAR特征,比图像稀疏得多。因此,我们没有使用纯卷积神经网络,而是将我们的调整大小器与稀疏转换器集成。3)除了调整空间维度外,我们还嵌入了一种简单而有效的算法,将通道维度调整到所需的数量。

方法

在本文中,我们考虑了一个现实的多智能体感知场景,其中协作中的每个智能体可能配备一个单独的模型,并传输具有域差异的视觉特征。我们主要关注基于lidar的自动驾驶3D物体检测的协同感知任务,其中智能体连接到自动驾驶车辆和智能路边基础设施,但我们的框架一般适用于其他多智能体感知应用,只要它们广播神经特征进行协作。由于本工作关注的是领域间隙问题,我们假设agent之间的相对姿态是准确的,并且不存在通信延迟。图2(a)显示了我们的MPDA的整体架构,它包括
1)一个可学习的特征调整器,2)一个稀疏的跨域转换器,3)一个域分类器,4)多智能体特征融合。

【关于Domain Adaption 可以先参考这个视频

一个可学习的特征调整器

我们将自我载体上局部计算得到的特征映射作为源域特征FS∈R1×HS ×WS ×CS,将从其他agent接收到的特征作为目标域特征ft∈RN ×HT ×WT ×CT,其中N为其他协作者/agent的数量,H为高度,W为宽度,C为通道号,HS 6 = HT, WS 6 = WT, CS 6 = CT。我们的特征调整器Φ的目标是以一种可学习的方式将源域特征的尺寸与目标域特征对齐。
我们与多智能体检测模型共同训练Φ,使其能够智能学习调整特征大小的最佳方法,这与双线性插值等幼稚的调整大小方法有本质区别。我们的可学习特征调整器的架构设计如图2(b)所示,其中包括四个主要组件:Channel Aligner,FAX Resizer,Skip connection和Res-block

  • Channel Aligner:我们使用一个简单的1 × 1卷积层来对齐通道维度,其输入通道号为Cin = 2CS,输出CS通道。
    • 当CT > Cin时,我们随机丢弃Cin−CT通道,并应用1 × 1卷积层来获得新的特征。我们在FT上重复这个过程n次,得到n × HT × WT × CS维度的特征,并沿着第一个维度对它们进行平均。通过这种方式,我们改善了由于信道下降而造成的信息损失。
    • 当CT < Cin时,我们从ftt中随机选择通道进行填充,以满足1 × 1卷积所需的输入通道数。
  • FAX Resizer:为了寻找最优的调整方案,神经网络需要具有较大的接受野来获取全局信息,同时需要注意细节以捕获关键对象信息。由于LiDAR特征通常因空体素而稀疏,采用大核卷积来获取全局信息可能会将无意义的信息分散到重要区域。因此,我们在双线性调整大小之前应用融合轴(FAX)注意力块[2]来获得更好的特征表示。FAX稀疏地使用局部窗口和网格注意力来有效地捕获全局和局部交互。更重要的是,它可以通过动态注意机制丢弃空体素,消除其潜在的负面影响。在FAX之后,实现双线性调整器将特征映射重塑到与源特征映射相同的空间维度。与简单的双线性插值相比,我们的FAX调整器可以首先调整输入特征,以避免调整大小过程中的错位和失真问题。
  • Skip connection:我们还在跳跃连接中采用了双线性特征调整方法,使学习更容易。
  • Res-Block:在调整特征映射的大小以进一步细化它们之后,我们实现了标准残差块

一个稀疏的跨域转换器

在检索到调整大小的特征F′T后,我们需要将其模式转换为与域分类器不可区分,以获得域不变特征。为了实现这一目标,我们需要有效地推理局部和全局F′和FS之间的相关性。因此,我们提出了稀疏跨域变换器,它在避免昂贵计算的同时,享受了变换器架构带来的动态和全局关注的好处。图2(c)显示了我们提出的体系结构的细节。我们首先在F′T和FS上应用不同的卷积层WQ、WK、WV,分别获得查询、密钥和值。然后,来自目标域的查询和来自源域的密钥/值将被馈送到FAX块,从而捕获目标域和源域特征之间稀疏的局部和全局空间交互。最后,实现了标准的前馈神经网络(FFN)来进一步细化交互特征。整个过程可以制定如下在这里插入图片描述
其中LN是层规范化,Q是查询,K是密钥,V是值。然后,我们将F′′′T和FS配对在一起,并向它们发送领域分类器和多智能体融合模块。

一个域分类器

我们使用H-散度[57]来测量F′′′T和FS之间的散度。让我们将X表示为可能来自源域或目标域的特征图,h:X→ {0,1}是一个域分类器,它试图将源域样本XS预测为0,将目标域样本XT预测为1。在我们的论文中,领域分类器包括两个卷积层。假设H是域分类器的假设空间,G是我们的可学习调整器和稀疏跨域变换器的组合,那么G需要朝着以下目标进行优化
在这里插入图片描述其中ES(h(X))和ET(h(X))分别是源域和目标域上的域分类误差,X由G产生。这种优化可以通过梯度反向层(GRL)以对抗性训练方式实现

多智能体特征融合

我们的MPDA框架非常灵活,可以集成大多数多智能体融合算法。在这项工作中,我们选择了最先进的模型V2X-ViT[3]作为我们的多智能体融合算法。V2X-ViT依次采用异构多智能体自注意块和多尺度窗口注意块来智能融合不同智能体的特征。

实验

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

结论

本文是首次研究多智能体感知中的领域差距问题。在分析的基础上,我们提出了第一个多智能体感知域自适应框架,该框架主要包括可学习特征调整器和稀疏跨域变换器。在V2XSet数据集上进行的大量实验证明,我们的框架可以有效地弥合领域差距。未来,我们将结合Diffusion[64]等稳健的生成表示学习技术,并就这一实际问题进行真实世界的现场实验。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值