加利福尼亚大学最新!V2XPnP:多智能体V2X时空融合新方案

点击下方卡片,关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

今天自动驾驶之心为大家分享加利福尼亚大学最新的工作—V2XPnP!论文提出了面向多智能体感知与预测的V2X时空融合新方案。如果您有相关工作需要分享,请在文末联系我们!

自动驾驶课程学习与技术交流群事宜,也欢迎添加小助理微信AIDriver004做进一步咨询

>>点击进入→自动驾驶之心V2X技术交流群

论文作者 | Zewei Zhou等

编辑 | 自动驾驶之心

V2XPnP的算法概览

V2X 技术为缓解单一车辆系统在观测能力上的局限性提供了一个有前景的范式。之前的研究主要集中在单帧协同感知上,该方法融合了来自不同空间位置的智能体信息,但忽略了时间线索和时间相关任务(例如,时间感知和预测)。本文聚焦于V2X场景中的时间感知和预测任务,并设计了单步和多步通信策略(即何时传输),同时考察了这两种策略与三种融合策略——早期融合、后期融合和中间融合(即传输什么信息)的结合,并提供了与各种融合模型的综合基准(即如何融合)。此外,本文提出了V2XPnP,一个新的中间融合框架,适用于单步通信中的端到端感知和预测。本文的框架采用统一的基于Transformer的架构,有效建模跨时间帧、空间智能体和高清地图的复杂时空关系。本文还引入了V2XPnP序列数据集,该数据集支持所有V2X协作模式,并解决了现有现实世界数据集的局限性——这些现有数据集仅支持单帧或单模式的协作。大量实验表明,本文的框架在感知和预测任务中均优于现有的最先进方法。

  • 论文链接:https://arxiv.org/pdf/2412.01812

39c0e7fe074e64df8021969a578dc7c8.png

主要贡献

  1. 本文提出了V2XPnP,一个V2X时空融合框架,采用了一种新颖的中间融合模型,适用于单步通信。该框架基于统一的Transformer架构,集成了多种注意力融合模块,用于V2X时空信息的融合。

  2. 本文引入了首个大规模现实世界V2X序列数据集,涵盖多个智能体和所有V2X协作模式(即VC、IC、V2V、I2I),包括感知数据、物体轨迹和地图数据。

  3. 本文对各种时空融合策略进行了广泛分析,并为所有V2X协作模式下的协同感知和预测任务提供了全面的基准,展示了所提模型在协同时间感知和预测任务中的最先进性能。

方法设计:

自动驾驶系统需要准确感知周围的道路用户,并预测其未来轨迹,以确保安全和互动驾驶。尽管在感知和预测方面已有一些进展,但单一车辆系统仍然面临感知范围有限和遮挡问题,这影响了驾驶性能和道路安全。因此,V2X技术作为一种有前景的范式应运而生,能够让联网自动驾驶车辆(CAVs)和基础设施共享互补信息,减少遮挡,从而支持全面的环境理解。

尽管V2X技术具有潜力,现有的研究主要集中在逐帧协同检测,该方法聚合来自不同空间位置的智能体信息。然而,这些研究忽略了跨序列帧的时间线索,而这些线索对于定位之前可见但当前未检测到的物体[44]以及预测物体未来轨迹[29]至关重要。V2X在增强这些时间相关任务,特别是在协同时间感知和预测方面的潜力,仍然很大程度上未得到探索。本文旨在解决多智能体协作中的关键问题:(1)应传输什么信息?(2)何时传输?(3)如何跨空间和时间维度融合信息?为了回答“应传输什么信息”,本文扩展了单帧协同感知中的三种融合策略(即早期融合、后期融合和中间融合),以涵盖时间维度。关于“何时传输”,本文引入了单步和多步通信策略,以捕捉多帧时间信息。至于“如何融合”,本文对各种时空融合策略进行了系统分析,为所有V2X协作模式下的协同感知和预测任务提供了全面的基准。

ceb4552ca82b24b62e3e068b3c683f0c.png
图1. V2X时序任务及本文的V2X时空融合框架示意图。通过融合时间信息,本文的框架增强了V2X通信,支持超越单帧感知的端到端感知和预测。

在这些策略中,本文提倡在单步通信中使用中间融合策略,因为它有效地平衡了精度和增加的传输负载之间的权衡。此外,它能够传输中间时空特征,使其非常适合端到端的感知和预测,支持跨多个任务的特征共享,并减少计算需求,如图1所示。基于这一策略,本文提出了V2XPnP,一个V2X时空融合框架,利用统一的Transformer结构进行有效的时空融合,涵盖时间注意力、自空间注意力、多智能体空间注意力和地图注意力。每个智能体首先提取其跨帧和自空间特征,这些特征可以支持单车感知和预测,同时减少通信负载,然后多智能体空间注意力模型将单智能体特征在不同智能体之间进行融合。

另一个挑战是缺乏涵盖多种V2X协作模式的现实世界序列数据集。在V2X场景中,车辆和基础设施作为主要智能体,协作模式包括车对车(V2V)、车对基础设施(V2I)和基础设施对基础设施(I2I)。大多数现有数据集是非序列型的,局限于单一协作模式,且仅关注单帧协同感知,缺乏对时间相关任务的支持。为弥补这一空白,本文引入了首个大规模现实世界V2XPnP序列数据集,该数据集包含四种智能体,并支持所有协作模式。该数据集包括100个以车辆为中心(VC)的场景和63个以基础设施为中心(IC)的场景,具有时间一致的感知和轨迹数据,共计40k帧,并提供来自24个交叉口的点云和矢量地图数据。

f785ff51b5caa0642b89c09c0d20171f.png
图2. 不同V2X融合策略在感知和预测中的示意图。

(a) 传输什么信息:早期融合、中间融合和后期融合,分别传输原始传感器数据、中间BEV特征或边界框。
(b) 何时传输:多步通信和单步通信。

中间融合的时空特征使其成为端到端感知和预测的自然选择。因此,本文提出了一个统一的端到端感知和预测框架,用于跨时空维度执行多个任务。整体V2XPnP框架如图3所示,包括六个组件,本文将对其进行详细展开。时空融合模型的详细内容请参见第3.3节。值得注意的是,V2XPnP中的每个模块都是模块化的,便于替换。

92dd7150b0ea78dda135f46b7e4afa79.png
图3. V2XPnP框架和多智能体时空融合模型。该框架包含用于特征提取、融合和解码的各个组件。在本文的融合模型中,引入了多种注意力机制以增强融合过程。

本文提出了基于统一Transformer架构的时空融合。所提模型由三个模块组成:时间注意力、自空间注意力和多智能体空间注意力,如图3所示,以及两个核心融合模块。

(1) 多帧时间融合:每个智能体首先通过迭代的时间注意力和自空间注意力提取其时空特征。
(2) 多智能体空间融合:通过V2X获取来自多个智能体的丰富BEV特征,然后通过迭代的多智能体空间注意力和自空间注意力进行融合。

本文提出了V2XPnP-Sequential数据集,这是首个大规模、现实世界的V2X序列数据集,涵盖多个智能体和所有协作模式。该数据集包含100个场景,每个场景跨越95到283帧,采样频率为10 Hz。数据集包括来自CAV感知的两种数据序列(点云和相机图像)和来自基础设施感知的两种数据序列,如图4(b)所示。本文还为所有采集区域提供了相应的矢量地图和点云地图,如图4(c)所示。数据集包含十个物体类别,每个类别的平均轨迹长度和频率如图4(d)所示。关于数据标注、轨迹和地图生成的更多细节,请参见补充材料。

de96401e17c3744342eec9aca76e9b03.png
图4. V2XPnP序列数据集示意图。

(a) V2X数据采集系统;
(b) 序列LiDAR和相机数据;
(c) 数据采集区域和矢量地图;
(d) 每类3D跟踪物体的总数量和平均跟踪长度。

实验结果:

1dcad72cfbb445635dd3d604cf8f6322.png
图5. 不同融合模型在测试集上的定性结果。V2XPnP表现出更好的感知和预测结果。
d961c93e71e48fad51fbd1da78676604.png
表1. V2XPnP序列数据集(V2XPnP-Seq)上协同感知和预测模型的基准结果。
c16ffe5092e3306e3ad29a247c517cae.png
表2. 单步通信和多步通信的比较;粗体值表示在延迟和噪声环境下的结果。
6cedb36e5aebdba6e54cf6c948674703.png
表3. V2XPnP模型的消融实验结果。

总结:

本文提出了V2XPnP,一种用于协同时间感知和预测的新型V2X时空融合框架。该框架的核心是一个基于统一Transformer模型的时空融合和地图融合机制。此外,本文探讨了关于“传输什么信息”、“何时传输”和“如何融合”的不同融合策略,并提供了全面的基准。本文还引入了V2X Sequential数据集,该数据集支持所有V2X协作模式。大量实验评估结果表明,所提框架具有优越的性能,证明了其在推进V2X支持的协同时间任务中的有效性。未来的工作将集中于开发更有效的融合模型和自适应通信策略,以动态优化带宽利用率。

引用:

@article{zhou2024v2xpnp,
  title={V2XPnP: Vehicle-to-Everything Spatio-Temporal Fusion for Multi-Agent Perception and Prediction},
  author={Zhou, Zewei and Xiang, Hao and Zheng, Zhaoliang and Zhao, Seth Z. and Lei, Mingyue and Zhang, Yun and Cai, Tianhui and Liu, Xinyi and Liu, Johnson and Bajji, Maheswari and Pham, Jacob and Xia, Xin and Huang, Zhiyu and Zhou, Bolei and Ma, Jiaqi},
  journal={arXiv preprint arXiv:2412.01812},
  year={2024}
}

① 2025中国国际新能源技术展会

自动驾驶之心联合主办中国国际新能源汽车技术、零部件及服务展会。展会将于2025年2月21日至24日在北京新国展二期举行,展览面积达到2万平方米,预计吸引来自世界各地的400多家参展商和2万名专业观众。作为新能源汽车领域的专业展,它将全面展示新能源汽车行业的最新成果和发展趋势,同期围绕个各关键板块举办论坛,欢迎报名参加。

392e65e31a0de0785f77e1c6cab67780.jpeg

② 国内首个自动驾驶学习社区

『自动驾驶之心知识星球』近4000人的交流社区,已得到大多数自动驾驶公司的认可!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知端到端自动驾驶世界模型仿真闭环2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案大模型,更有行业动态和岗位发布!欢迎扫描加入

dff0ba32b27fc881f8d3686523b9a74b.png

 ③全网独家视频课程

端到端自动驾驶、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合多传感器标定多传感器融合多模态3D目标检测车道线检测轨迹预测在线高精地图世界模型点云3D目标检测目标跟踪Occupancy、CUDA与TensorRT模型部署大模型与自动驾驶NeRF语义分割自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频(扫码即可学习

e2fcbfa5e5319dd8fa27c7c698228bc3.png

网页端官网:www.zdjszx.com

④【自动驾驶之心】全平台矩阵

4464771b1f901daae1eefe8bc442fd45.png

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值