【论文解读】What2comm: Towards Communication-efficient Collaborative Perception via Feature Decoupling

摘要

多智能体协同感知作为一种新兴的驾驶场景应用,近年来受到越来越多的关注。尽管在以前的方法中取得了进步,但由于冗余的通信模式和脆弱的协作过程,挑战仍然存在。为了解决这些问题,我们提出了What2comm,这是一种端到端的协作感知框架,用于实现感知性能和通信带宽之间的权衡。我们的新颖之处在于三个方面。首先,我们设计了一种基于特征解耦的高效通信机制,在异构代理之间传输排他性和通用性的特征图,以提供感知上的整体消息。其次,引入了一个时空协作模块,以整合来自协作者的互补信息和时间自我线索,从而实现针对传输延迟和定位误差的稳健协作过程。最终,我们提出了一种公共感知融合策略,以细化具有信息公共特征的最终表示。在真实世界和模拟场景中的综合实验证明了What2comm的有效性。

引言

在这里插入图片描述
(a) 以及(b)分别示出包含自我车辆(红圈)和基础设施的场景的图像和融合点云。绿色框和橙色框分别表示共同感知区域和排他性感知区域。(c)和(d)的比较显示了由于传输延迟引起的点云融合误差。
受上述观察结果的启发,我们提出了What2comm,这是一个统一的通信高效的多智能体协作感知框架,以端到端的方式解决现有的挑战。What2comm包含三个核心组件:

  • i)基于解耦的通信机制(DCM),它通过特征解纠缠来捕获不同代理之间的专有和通用表示,以确定要通信的消息。DCM通过特征特异性和一致性监督提供了一种高效的通信信息共享模式;
  • ii)时空协作模块(STCM),其聚合来自协作者共享的排他性特征图和以自我为中心的时间语义的感知互补信息。STCM通过联合时空建模来缓解由于传输延迟和定位误差引起的特征失准;
  • iii)公共感知融合(CAF)策略,该策略从合作者共享的公共表示中提取高维信息,以消除代理之间的数据分布差距。

在这里插入图片描述
得益于上述定制的通信和协作组件,What2comm迈出了坚实的一步,发展成为一个高效通信和抗噪声的协作感知系统。综合实验结果表明,所提出的What2comm比最先进的(SOTA)协同感知工作实现了更好的性能-带宽权衡
主要贡献:

  • 我们提出了What2comm,一个通信高效的多智能体协作感知框架。我们的框架通过以端到端方式解决各种协作干扰,包括通信噪声、传输延迟和定位错误,在现实世界和模拟数据集上优于以前的方法。
  • 我们提出了一种新的基于解耦的通信机制,以促进异构代理之间全面和实用的信息传输。
  • 我们设计了一个时空协作模块,以有效地整合合作者的独家表征和历史自我线索。同时,引入了一种共同感知的融合策略,融合合作者的共同特征,增强最终表征。

解耦】通常指的是将系统中的组件或因素分离,以减少它们之间的相互依赖性
decoupled learning】在特征学习中,“decoupled learning” 可能指的是尝试将输入数据的不同特征进行解耦,以便更好地捕获它们之间的独立信息。这可以通过设计网络结构或使用特定的损失函数来实现。

方法

整个协作系统的目标是在总通信预算下最大化基于lidar的3D检测性能
在这里插入图片描述

  • 𝜚(·,·)为感知评价指标
  • Ψ𝜃 是一个参数化的协作系统
  • 𝑭 (𝑡0 )𝑗→𝑖 是在时间延迟𝜏范围时刻t0(t0=t-𝜏)代理j 传给代理i 的信息
  • 𝑿(𝑡) i 和Y(𝑡) i 分别表示从时间戳𝑡的 𝑖 代理对局部点云的观察和感知监督

Metadata Encoding and Feature Projection

在协作的初始阶段,每个代理之间共享必要的元数据,如姿势和外在信息𝑗 ∈ {1, …,𝑁 }. 代理人被认定为自我代理人(𝑖) 而其他连接的代理(例如基础设施和AV)充当通信连接中的协作者。在接收到自我代理的姿势后,连接的合作者对其本地激光雷达点云进行编码并将其投影到自我代理坐标系中,以实现更好的跨代理协作。此外,我们将自我代理先前的点云帧同步到当前坐标。使用PointPillars提取特征。

Decoupling-based Communication

为了实现多个代理之间的高效通信,大多数以前的方法使用自动编码器或空间置信度图来减少所需的传输带宽。然而,由于代理之间的配置差异,这些通信策略忽略了传输信息的异质性,导致次优解决方案,从而影响协作性能。为此,我们提出了一种基于解耦的通信机制(DCM),以实现有效的性能带宽权衡。DCM的设计理念是学习传输特征表示的特异性和一致性。
在这里插入图片描述
Request Packing.
如图3所示,我们首先导出一个请求𝑹 (𝑡0 )𝑖 基于自我特征𝑭 (𝑡0 )𝑖 以协助协作者进行特征解耦。为了使自我要求更加紧凑和信息丰富,我们采用重要性图来过滤背景区域(Background Filtering),然后,我们统一地从过滤后的特征中采样到二进制的N𝑟像素,以形成自我请求R(t0)i。在接收广播请求𝑹𝑡0𝑖之后,合作者通过per-location cross-attention(参考where2comm)调整局部特征,获得由两个编码器输出的独家和共同特性{𝑭(𝑡0)𝑗𝑒,𝑭(𝑡0)𝑗𝑐},并提出了以下两个约束条件用于特征解耦监督。

  • Specificity Constraint(提取互补)
    特定性约束用于监督合作者排他性表征的提取,这可以作为自我主体促进视角互补的补充信息。详细地说,我们找到了相应的请求像素𝑹 (𝑡0 )𝑖 在𝑭 (𝑡0 )𝑗,𝑒 中形成𝑁𝑟 成对的特征{𝑧𝑛 𝑖/𝑗 }𝑁𝑟𝑛=1,其中𝑧𝑛 𝑖/𝑗 ∈ R1×𝐶 . 然后𝐿在通道维度上采用L2-normalization。自然地,自我请求和排他性特征的相应空间区域应该包含不同的语义。因此,我们利用正交距离来测量一对特征的分布方差。排他性损失函数公式如下
    在这里插入图片描述
    式中,‖·‖2𝐹 是Frobenius范数的平方
  • Consistency Constraint(减少冗余)
    最小化𝑹(𝑡0)i和𝑭(𝑡0)𝑗,𝑐之间的差距有助于克服合作者和自我代理之间的数据差异,并在共同位置保留有价值和突出的信息。为此,我们采用中心矩差(CMD)距离度量,通过匹配它们的顺序矩差来测量两个表示之间的分布。让ˆ𝑹𝑡0𝑖和ˆ𝑭(𝑡0)𝑗𝑐有限样本与各自的概率分布𝑝和𝑞在区间[𝑎,𝑏]中。
    在这里插入图片描述

Central Moment Discrepancy (CMD)】 是一种用于度量两个分布之间差异的方法,通常用于领域自适应和迁移学习任务。CMD 主要关注两个分布的高阶统计矩,特别是中心化的高阶矩,以衡量它们之间的差异。

Spatio-Temporal Collaboration Module

在这里插入图片描述
在这里插入图片描述

  • Spatial Attention Integration.
    SAI组件从合作者的独占表示中提取空间信息。对于输入特征,我们获得其相应的重要性映射,并选择局部最大元素作为查询,因为它们可能包含目标。随后,我们收集来自所有智能体的目标查询,形成查询嵌入,它可以主动引导SAI子模块关注前景对象。如图5所示,线性层学习二维空间偏移{Δ𝑝𝑣|𝑣∈1,…对于每个查询𝑝,并在𝑝+ Δ𝑝𝑣(可变形注意力)对关键点进行采样。提取这些关键点的特征作为辅助特征。在加入线性层学习到的位置嵌入后,我们通过可变形的交叉注意得到每个查询的增强特征,如下所示
  • 𝑢是注意力头索引
  • 𝜔 𝑢/𝑓为可学习参数
  • 𝜙 (·)是softmax函数

【demormable cross-attention】引入可变形机制,使模型能够动态调整关注的位置,而不是固定的权重。

  • Temporal Context Aggregation
    我们通过TCA组件从时间上下文和空间语义中提取有价值的目标信息,TCA组件的输入包括记忆特征𝑯(𝑡0−1)、自我特征𝑭(𝑡0)和SAI组件的输出𝑿(𝑡0)。具体来说,我们首先采用相同的配置得到更新门G(𝑡0)𝑢和复位门G(𝑡0)𝑟:

    𝑾3×3(·)是用于融合的3×3卷积运算,[·;·]是级联。然后,将这两个门连接起来,通过softmax函数获得归一化的权重图𝜙 (·)
    在这里插入图片描述
    在这里插入图片描述
    我们对历史信息进行过滤,并基于两个归一化的权重图对当前表示进行微调。获取当前记忆特征𝑯(𝑡0),
    在这里插入图片描述

Common-aware Fusion Strategy

传递和融合合作者的共同表征对于整体感知同样至关重要。我们引入了一种通用感知融合(CAF)策略来聚合细化的特征𝑯 (𝑡 ) ∈ R𝐻 ×𝑊 ×𝐶 以及来自合作者的解耦的公共特征图𝑭 (𝑡0 )𝑗,𝑐 ∈ R𝐻 ×𝑊 ×𝐶 , 𝑗 ∈ {1, …,𝑁 } 。
在这里插入图片描述

  • A、M分别表示将合作者传来的特征F进行average、max pooling之后的结果
  • W 是可学习的权重
  • H 是自己学习的特征
  • 𝜎 是softmax

Detection Decoder and Objective Function

在获得最终的融合特征图F时(𝑡 )𝑖 , 两个检测解码器{𝑓 𝑟 𝑑𝑒𝑐 (·),𝑓 𝑐 𝑑𝑒𝑐 (·)}用于产生分类和回归输出
最终损失函数:
在这里插入图片描述

  • Lreg 平滑绝对误差损失(用于回归)
  • Lcla the focal loss (用于分类)
  • Lexc 、Lcom 解耦损失
  • 𝛼 和𝛽 是权衡参数

实验

DAIR-V2X 、V2XNet、OPV2V数据集
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
Keypoint Number】在注意力机制中,输入图像或特征图中的每个位置都与一个关键点相关联。这些关键点的数量可以根据任务和模型的设计而异。在注意力机制中,关键点的作用是通过计算输入位置与关键点之间的关联度来确定每个位置的权重。这些权重用于加权聚合输入的不同位置,以生成最终的输出。关键点的数量是一个超参数,需要在模型设计阶段进行调整。更多的关键点通常允许模型更精细地捕捉输入中的细节,但也可能增加计算成本。较少的关键点可能导致模型对输入进行更加整体性的处理。

结论

在本文中,我们提出了What2comm,这是一种新的多智能体协作框架,旨在以端到端的方式在感知性能和通信带宽之间进行权衡。What2comm通过特征解耦实现了跨代理的高效信息传输。随后,依次提出了时空协作模块和特征融合策略,以聚合来自自我主体的历史线索,并融合来自协作者的解耦特征。在真实世界和模拟数据集上进行的大量实验表明了What2comm的有效性及其所有重要组件的合理性。

ps:附上该论文网址https://dl.acm.org/doi/10.1145/3581783.3611699,该论文需要在ACM digital library中下载,若是没有会员可以在学校购买的数据库里找找看。

  • 22
    点赞
  • 29
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值