Multi-Robot Scene Completion: Towards Task-Agnostic Collaborative Perception

摘要

协作感知旨在通过多个机器人间的信息共享来比单个机器人更好地感知环境。过去对此的研究都是针对特定任务,如检测或分割。然而,这导致不同任务需要不同的信息共享,阻碍了协作感知的大规模部署。我们提出了第一个任务无关的协作感知范式,该范式以自监督方式学习单一协作模块,适用于不同的下游任务。这通过一种新颖的任务——多机器人场景完成来实现,每个机器人学习有效共享信息以重建所有机器人共同观察的完整场景。此外,我们提出了一种时空自动编码器(STAR),通过空间子采样和时间混合来减小通信成本。大量实验验证了我们方法在场景完成和自主驾驶场景中的协作感知的有效性。我们的代码可在 https://coperception.github.io/star/ 获得。

1 Introduction

单个机器人在物体检测和语义分割等任务上的感知已被广泛研究。然而,单个机器人在感知过程中面临诸多挑战,如遮挡和原始观测中的稀疏性。协作感知有望缓解这些问题。通过信息共享,协作感知可以从不同的角度提供更多的环境观测,以提高感知性能和鲁棒性。在不同的协作策略中,特征级协作通过传递每个机器人的深度神经网络生成的中间表示来共享信息。由于这些中间特征容易压缩并能保留场景的上下文信息,特征级协作相比于原始数据级和输出级协作展示了更好的性能-带宽权衡。

然而,现有的特征级协作方法通常是通过任务特定的损失函数来完全监督整个模型的学习,包括特征提取器、协作模块和解码器,如图1(a)所示。这种任务特定的框架需要为不同的感知任务重新训练整个模型。此外,现有的协作感知需要所有机器人的训练数据录制在时间上同步,这比单个机器人感知的数据采集更为苛刻。

为了解决这些问题,我们提出了一种新的自监督学习任务——多机器人场景完成。它使多个机器人能够通过一个自动编码器协作重构基于共享潜在特征的完整场景。这一完成的场景可以被输入到各种下游任务中,而无需额外的训练,如图1(b)所示。这使我们能够将协作训练与下游任务学习解耦。此外,它无缝支持同步和异步训练数据集,不同的学习目标:如果是同步,则是完整的场景重构;如果是异步,则是单独视图重构。

然而,简单的自动编码器并未设计来平衡场景重建性能和通信量,这是评估协作感知的一个既定标准。为了解决这个挑战,我们进一步设计了一种受最近掩码自动编码器(MAE)[9]启发的时空自动编码器(STAR)。它使用当前帧中随机子采样的补丁令牌和过去的缓存来重建场景。采样确保所有补丁在混合中可以共同覆盖整个空间区域,同时是自不相交的。这允许每个机器人只传输当前帧中的子采样令牌,而不是整个潜在特征图,从而比以往作品大大减少了通信带宽。我们这种分摊通信成本背后的关键洞察是,许多补丁的特征(例如,静态或几乎静态的)不需要在每一帧中共享。

总结来说,我们的主要贡献有三个方面:

  • 我们提出了一个基于多机器人场景补全的全新任务不可知协作感知框架,将协作学习从下游任务中解耦出来。
  • 我们提出了异步训练和同步推理,使用共享的自动编码器来解决提出的问题,消除了协作学习对同步数据的需求。
  • 我们开发了一种新颖的时空自动编码器(STAR),它基于时间混合的信息重建场景。它通过时间分摊空间通信量,以改善性能-带宽权衡。
  • 我们进行了广泛的实验,验证了我们的方法在自动驾驶场景中的场景补全和下游感知方面的有效性。
    123

图 1:任务特定 vs 任务不可知的协作。特定任务的范式为每个任务学习不同的模型,并使用不同的损失函数。而任务不可知的范式则学习多机器人场景的重建,这一重建过程独立于所有下游任务,但仍然可以被它们使用。

2 Related Works

协同感知

协同感知被提出以提高个体感知的灵活性、弹性和效率。随着深度学习的进展,研究人员开发了特征级的协同感知,其中由深度神经网络(DNN)从多个视角产生的中间表示在机器人团队(如无人机群或车辆组)中传播。现有的工作通常考虑一个特定的下游任务,并使用相应的损失函数来学习协作模块,如图神经网络(GNN)、Transformer和卷积神经网络。协同场景中已经研究了几个下游任务,如物体检测、语义分割和深度估计。

现有的特征级协同方法完全由任务特定的损失函数监督,以学习整个模型,包括特征提取器、协同模块和解码器。这种任务特定的框架需要为不同的感知任务重新训练整个模型。此外,现有的协同感知需要所有机器人的训练数据录制在时间上同步,这比单机器人感知的数据收集要求更高。

为了解决这些挑战,本文定义了任务无关的协同感知,即在多个机器人之间共享任务无关的表示的特征级协同感知。

场景重构

自主导航要求机器人理解3D场景的几何和语义信息。然而,由于视野有限和稀疏感知,视觉传感器只能捕捉部分观测,导致空间表示不完整。因此,场景重构(SC)被提出以在给定稀疏2D/3D观测的情况下推断完整的3D场景几何。继场景重构之后,语义场景重构(SSC)被引入以在部分观测的基础上同时估计几何和语义信息。

单机器人场景重构可以依赖于先验的语义知识来完成部分观测的物体,但要透过完全遮挡物观察是不现实的。与依赖先验知识的单机器人场景重构不同,多机器人场景重构任务利用队友共享的信息进行场景重构。

自监督表示学习

自监督表示学习(SSRL)旨在在不需要大量标注数据集的情况下提供强大的特征。SSRL通常包括:(1)通过精心设计的自监督前置任务进行任务无关的预训练,如对比学习或自编码;(2)任务特定的适应,将预训练的模型微调到下游任务,如目标检测或图像分类。掩蔽自编码器(Masked Autoencoder, MAE)通过简单的重建目标实现了出色的性能。它采用了一个不对称的架构,其中大的编码器仅处理未掩蔽的图像块,轻量级解码器从潜在表示中重建掩蔽的图像块。最近的研究将MAE扩展到多模态表示学习、视频和2D图像完成。在本研究中,我们采用类似的自编码方法来学习共享的表示,并实现对下游感知的快速适应:这些重建可以无缝地被利用于经过单视图数据训练的现成个体感知模型,无需任何微调,从而弥合协作感知和个体感知之间的差距。

3 Multi-Robot Scene Completion: Motivation, Formulation, and Evaluation

动机

尽管单机器人数据已经需要艰苦的注释工作,如3D边界框和逐像素的语义标记,多机器人数据甚至需要更多的工作量。为了减轻协作学习中任务依赖的监督,我们提出了多机器人场景补全,以实现任务不可知的协作感知。它可以利用自监督学习来学习共享表示,而不是昂贵的任务依赖的监督。我们将在此后介绍其整体工作流程、训练目标和评估指标。
问题设置

  • 19
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值