论文阅读笔记 QUEST:Query Stream for Practical Cooperative Perception[2024 ICRA]

QUEST:Query Stream for Practical Cooperative Perception [2024 ICRA] 论文阅读笔记

总结与思考:
  1. 解决什么问题、贡献(领域问题、行业意义、社会价值)
    协同感知任务中提出Query协同的概念,实现可解释的实例级灵活的特征交互。

  2. 现有方法优缺点
    大多数协同方法直接聚合LiDAR特征:可以保留原始信息,缺点是传输成本高;
    只传输感知结果:最节省传输带宽,缺点是性能高度依赖于精确的坐标参数转换;
    特征级融合更加灵活,但是场景级的协同特征对于感知来说是冗余的,且可解释性较差。
    现有基于Query的方法都是针对个体感知设计的,本文将其拓展到协同感知。

  3. 本文方法(理论依据、方法公式推导、实验验证)
    针对可解释性和灵活性问题,提出协同Query的概念,在Agent之间传输实例级特征。

摘要

协同感知通过提供额外的视点和扩展感知领域,可以有效地提高个体感知性能。现有的合作模式要么是可解释的(结果合作),要么是灵活的(特征合作)。在本文中,我们提出了查询协作的概念,以实现可解释的实例级灵活的特征交互。为了具体解释这一概念,我们提出了一个称为QUEST的合作感知框架,该框架允许查询流在代理之间流动。跨代理查询通过对协同感知实例的融合和对单个未感知实例的补充进行交互。以基于摄像头的车辆基础设施感知为典型的实际应用场景,在DAIR-V2X-Seq真实数据集上的实验结果验证了QUEST的有效性,进一步揭示了查询协作范式在传输灵活性和对丢包的鲁棒性方面的优势。我们希望我们的工作能够进一步促进跨代理表示交互,从而在实践中获得更好的合作感知。

1. 引言

尽管在个体感知方面取得了重大进展,但智能车辆仍然面临着闭塞和感知范围有限造成的不可观察危险的挑战。与个体感知通过自身的车载传感器系统感知周围环境不同,协同感知,尤其是车辆基础设施协同感知(VICP)为复杂交通环境下的可靠自动驾驶提供了思路,近年来受到越来越多的关注[1],[2]。

利用更灵活的安装高度和姿态的路边传感器系统,有效扩展了协同感知领域,在VICP设置下可以轻松解决一些具有挑战性的个体感知案例(如远程小物体检测)[3],[4]。

优势之后通常是新的挑战。自然,首要的问题是如何在多个代理之间进行合作。根据智能体之间共享的内容,有三种典型的合作范式[1],[2],[5],包括数据合作(早期融合),特征合作(中期融合)和结果合作(后期融合)。数据协作[6],[7]被认为是性能的上界,因为综合信息和原始数据是跨agent交换的。但在实际应用中,海量数据的高传输成本是难以承受的。由于带宽经济的优势,结果合作在实践中被广泛应用,agent只共享预测[3],[6]。然而,结果合作中的重大信息损失使得它高度依赖于准确的个人预测。与这两种范式相比,特征协作[8]-[15]更加灵活,性能带宽均衡,通过特征选择和压缩可以控制信息损失。尽管其中一些已经实现了区域级特征选择[16],但由于场景级特征抽象地代表了整个可观测区域,因此特征选择和融合的可解释性仍然有限。值得注意的是,结果合作中的预测之间的交互是实例级的,导致物理上可解释的合作目标。

为了解决这个问题,我们自然会提出一个问题:是否存在一种兼收并蓄的合作感知方法,既可解释又灵活?受基于转换器的方法在个体感知任务中的成功[17]-[19]的启发,我们提出了查询协作的概念,它是一种基于跨代理查询流的实例级特征交互范式,位于场景级特征协作和实例级结果协作之间(图1)。

实例级的协作使其在物理上更具可解释性,并且特性交互引入了更多的信息弹性。具体来说,我们提出了一个名为QUEST的框架,作为描述该概念的代表性方法,其中查询在代理之间的流中流动。

首先,每个代理执行单独的基于变压器的感知。解码器的每个查询输出对应于一个可能检测到的对象,如果查询的置信度评分满足请求代理的要求,则该查询将被共享。当跨代理查询到达时,它们被用于查询融合和补充。从理论上讲,查询融合可以用其他角度的特征增强被感知实例的特征,而查询互补可以直接对局部感知系统的未感知实例进行补充。然后,将查询用于协同感知,从而得到最终的感知结果。

为了评估QUEST的性能,我们在DAIR-V2X-Seq上基于在图像捕获时间戳*标记的单面真值生成以摄像机为中心的合作标签。

我们的贡献概括如下:

我们提出了协作感知任务的查询协作范式的概念,它比场景级特征协作更具可解释性,比结果协作更具灵活性。

提出了一种称为QUEST的查询合作框架作为代表性的方法。跨代理查询通过融合和互补在实例级进行交互。

我们将基于摄像机的车辆-基础设施协同目标检测作为一个典型的应用场景。在真实数据集DAIRV2X-Seq上的实验结果验证了QUEST的有效性,并进一步展示了查询协作范式在灵活性和健壮性方面的优势。此外,还生成了以摄像机为中心的协作标签,以方便相关研究的进一步开展。

2. 相关工作

在本节中,我们简要回顾两个相关的主题,合作感知和基于查询的感知。

A.合作感知为了打破机载传感器系统的感知范围限制,消除不可观测危险的影响,合作感知近年来受到越来越多的关注。最直观的做法是数据协作,传输原始传感器数据,从根本上克服遮挡和远距离感知问题。由于3D数据可以直接聚合,大多数数据合作方法都是基于激光雷达的[6],[7]。虽然原始数据保留了全面的信息,但高昂的传输成本使其在实践中难以部署。为了通信方便,结果合作只传输感知预测,最节省带宽[3],[6]。此外,实例级包围盒聚集使得协作更具物理可解释性。然而,结果协作的性能高度依赖于准确的个体感知和精确的坐标系转换参数。所以最近的方法更注重特性的配合,可以达到更好的性能-带宽平衡[8]-[16]。与简单的包围盒相比,特征图在融合和压缩方面都更加灵活,但场景级的特征合作对于对象感知来说是冗余的,并且更少*原始的合作groundtruth标记在LiDAR的时间戳处[3],不适合基于相机的研究。

可以解释。针对可解释的柔性协作,我们提出了查询协作的概念,在代理间传递实例级特征。

B.基于查询的感知自从开创性的工作DETR [17]被提出用于2D对象检测以来,对象查询已经被用于越来越多的感知任务,包括3D检测和跟踪。基于查询的方法通常利用稀疏的可学习查询来集中注意力。DETR3D [18]预测查询的3D位置,并通过投影获得相应的图像特征。PETR [20]转而用3D位置嵌入图像特征,并使用注意机制直接学习映射关系。

BEVFormer [21],[22]利用网格状查询处理鸟瞰视图的感知,并设法通过可变形变换器实现时空特征交互。利用时间信息,基于查询的方法也有利于对象跟踪。为了对跨帧对象关联进行建模,MOTR [19]和TrackFormer [23]提出了基于单帧对象查询的轨迹查询。

MUTR [24]和PF-Track [25]利用轨迹查询,并为多视图任务实现有希望的跟踪性能。

现有的基于查询的方法都是针对个体感知而开发的,本文进一步将其扩展到合作感知。具体来说,我们提出了QUEST框架来实现跨代理的查询流,并设计了跨代理的查询交互模块来进行查询融合和互补。

3. 协同Query

在这里插入图片描述

共享什么和如何协作是实际协作感知的两个主要关注点,尤其是考虑到无线通信的有限带宽。要设计一个更好的合作策略,它既要有可解释性,又要有灵活性,因为可解释性导致可控的合作,而灵活性提供了更大的操作空间和可能性。考虑到这一点,我们提出了查询协作范例,它在代理之间共享特征,并通过实例级特征交互来执行协作。

为了清楚起见,我们以车辆-基础设施协同感知为例。

查询生成。车辆和基础设施都一直在进行个体感知,每个感知预测P对应一个对象查询Q,根据基于变压器的感知理论,

在这里插入图片描述

其中f()是查询的特征提取函数,g()是基于查询的预测函数,D表示输入传感器数据。

查询传输。当车辆从基础设施侧请求附加信息时,触发查询协作。请注意,查询请求可以附带特定的实例级要求,如置信度阈值和区域掩码。然后,将满足Qinf要求的查询发送到车辆端。

查询交互。接收到的查询Qinf和本地查询Qveh都被用于进一步的协作感知,并且查询交互策略是确定如何用Qinf来增强和补充Qveh。
在这里插入图片描述

,其中h()表示查询交互函数,Qcoop是生成的协作查询集。
基于查询的预测。Qcoop进一步馈入感知任务的基于查询的预测头,产生最终的合作感知预测Pcoop。
在这里插入图片描述

4. QUEST框架

A.整体架构如图2所示,QUEST通过跨代理查询流实现协作感知。当查询协作被车辆触发时,对象查询从基础设施侧流向车辆侧。

该框架主要由两个功能模块组成,包括基于单代理查询的感知模块和跨代理查询交互模块。

对于每一个单独的智能体,就像车辆一样,基于查询的感知模块持续运行,以确保基本的个体感知能力,利用从车载系统获得的自身传感器数据。无论查询协作是否被触发,它都会输出感知预测。理论上,每一种基于查询的感知方法都可以直接插入,本文中我们采用PETR [20]为例。捕获的图像被馈送到主干中用于特征提取,并且特征和校准参数都被输入到基于变压器的解码器中以执行对象检测。每个预测都与相应的对象查询相匹配,并且它是查询流的来源。考虑到无线通信的有限带宽,基础设施端的查询流根据车辆端要求的置信度阈值进行分流,从而实现高质量的稀疏特征传输。

当基础设施端查询流流向车辆端时,它加入本地查询流,形成协作查询流。跨代理查询交互模块被设计成集成来自不同源的对象查询,这将在下面的小节中详细描述。

联合查询流最终聚集到基于变换器的解码器,并且输出协作预测。
B.跨代理查询交互与所有其他合作范例相似,如何聚合跨代理信息始终是该框架中最重要的部分。受益于可解释的实例级协作,查询交互机制是自然的,包括共同感知对象的查询融合和不感知对象的查询互补。

首先,应该将交叉代理查询的相应位置转换到统一的坐标系中,该坐标系通常是车辆侧激光雷达坐标系。由于每个查询都伴随着3D参考点,因此使用校准参数(旋转和平移矩阵)很容易执行转换。

实例级预测根据它们在结果协作中的位置进行匹配。虽然该策略可以直接在QUEST中采用,但它依赖于精确的位置预测和精确的坐标变换。为了实现更鲁棒的查询匹配,我们提出了双空间查询嵌入。

双空间查询嵌入同时考虑位置信息和语义信息,嵌入在物理空间和特征空间中。对于位置嵌入,我们将精确的中心扩展到一个网格,以提供对位置噪声的高容忍度,如图3所示。

归一化后,将网格中的3D坐标连接起来形成网格嵌入。然而,位置的宽松约束将不可避免地引入错误匹配对。我们进一步考虑语义信息,以额外关注外观。从技术上讲,查询的特征与网格嵌入连接在一起,双空间查询嵌入使用多层感知器(MLP)编码器生成。
在这里插入图片描述
其中⊕是连接操作,MLP表示多层感知器编码器,Ef是语义嵌入。在本文中,我们直接将查询的特征视为语义嵌入。

跨代理查询对齐是查询协作的一个特定且必要的操作,这主要是由于实例级定位的隐式编码。预测的方向在结果协作中明确表示,并且密集特征图的方向与相应的坐标系直接相关。

因此,两者都可以通过显式坐标系变换实现方位变换。然而,实例级查询中的隐式编码特征是无法手动操作的,即使方向相关特征与其他特征解耦。我们采用MLP进行特征空间对齐,这使得隐式方向转换和跨代理特征对齐成为可能。
在这里插入图片描述,其中Qinf是基础设施侧查询,RI2V是从基础设施侧到车辆侧的旋转矩阵。
专注的查询融合是用来自基础设施侧视图的查询来增强车辆侧感知的查询。通过双空间查询嵌入来引导融合。具体来说,我们计算每两个查询对之间的嵌入距离,并在此基础上通过MLP生成关注融合权重。

以第I个车辆侧查询Qiveh和第j个基础设施侧查询Qj inf为例,
在这里插入图片描述
其中,E iveh和E j inf表示生成的双空间查询嵌入,而|| ||2是L2距离函数。然后,车辆侧查询流被更新并通过加权求和形成协作查询流Qcoop
在这里插入图片描述
查询补充是用接收到的基础设施侧查询来补充车辆侧无意识对象查询。我们不是简单地将跨代理查询插入到本地查询流中,而是转向一种替换策略来减少额外的计算成本。首先,根据置信度得分对车辆端查询进行排序。然后,接收到的查询被用来替换具有低置信度得分的查询,如图4所示。

5. 实验

本节描述了在真实世界车辆基础设施数据集上的实验。我们对查询传输的有效性、灵活性和对数据包丢失的鲁棒性进行了详细的研究和定性分析。
A.实验设置数据集。我们在大规模真实世界合作数据集DAIR-V2XSeq [26]上评估了所提出的QUEST框架,该数据集由从95个代表性场景捕获的超过15,000帧组成。它包括用于训练的7445对图像和用于验证的3316对图像。我们遵循官方的拆分方案,并报告验证集上的实验结果。根据官方设置,评估的感知范围设置为[0,39,100,39]。输入图像的大小调整为540 × 960的固定大小。

以相机为中心的合作标签。由于相机和激光雷达之间的异步捕捉频率,图像和原始合作地面实况(在激光雷达的时间戳处标记)之间总是存在不对准[3]。对于基于相机的研究,我们基于在图像捕获时间戳标记的单边地面事实来生成协作标注。生成的以相机为中心的合作标签更加准确,如图6所示。

实施细节。我们采用V oVNetV2 [27]作为主干,第5级的输出被上采样并与PETR [20]之后的第4级的输出融合。

采用AdamW优化器[28],[29],权重衰减为0.01。初始学习速率设置为2×104,并根据余弦退火[30]进行调度。该模型被训练100个时期直到收敛。与[18]、[20]、[24]相同,模型在推理时间内最多输出300个对象。实验是在PyTorch中在一台装有NVIDIA A100的服务器上实现的。

B.有效性研究首先,我们将我们的QUEST(两个版本)与表1中的纯车辆和结果合作方法进行比较

所有报道的方法都使用PETR(采用V oVNetV2作为主干)作为个体感知模块。完整版QUEST在APBEV |0.5上取得了20.3%的成绩,在AP3D|0.5上取得了14.1%的成绩,大幅度超过了结果合作,更不用说只有车辆的方法了。

受益于协作感知,远处和被遮挡的物体都可以被检测到,如图5所示。

理论上,查询协作可以通过两种方式提高感知性能。一个是对共同感知对象的查询增强,另一个是对由遮挡或长距离问题引起的不感知对象的查询补充。因此,我们还报告了一个消融版本(QUEST-f)的结果,该版本仅采用查询融合作为跨代理查询交互,查询互补被关闭。

注意到QUEST-f比纯运载工具方法表现更好,但比结果合作稍差。

研究表明:(1)如果一个对象可以被车辆和基础设施观察到,那么查询融合可以有效地增强实例级特征,充分利用另一个视角的信息;(2)查询互补比查询融合更占优势,因为位于车辆盲区的不可观测对象可以得到补充,这符合合作感知的动机。实例级互补让结果协作优于QUEST-f,但是当采用查询互补时,性能会进一步提升。虽然两者都是实例级的,但是查询协作的优势更加明显。

C.查询传输的灵活性得益于可解释的实例级协作,通过查询选择,跨代理的信息传输更加灵活。它可以被看作是一种考虑无线带宽的瞬时空间信息压缩。QUEST采用基于可信度的查询选择,在要求的分数阈值下过滤查询。我们在表II中报告了不同阈值(从0.1到0.8)下的性能。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

智驾攻城狮

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值