交互感知再升级!感知预测规划在Waymo24挑战赛中有哪些亮点?

点击下方卡片,关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

>>点击进入→自动驾驶之心自动驾驶技术交流群

编辑 | 自动驾驶之心

c78655790cc5d03bbd965b516949f437.jpeg

赛事链接:https://cvpr2024.wad.vision/

CVPR 2024 Workshop on Autonomous Driving (WAD) 作为自动驾驶领域的重要盛会,随着自动驾驶技术飞速发展不断与时俱进,全面覆盖自动驾驶的各个领域,包括感知、行为预测以及运动规划等。其中的Waymo Open Dataset Challenges 的参赛者需利用Waymo提供的大规模开放数据集,开发并优化其自动驾驶算法,以应对复杂多变的交通场景。

2024CVPR Waymo挑战赛有以下赛道:

(1)运动预测:给定相应地图上过去1秒的历史agent以及此时间间隔的相关激光雷达和相机数据,预测未来8秒内最多8个代理的位置。可以选择使用激光雷达和摄像头数据。

(2)模拟agent:给定代理在相应地图上过去1秒的轨迹,以及可选的此时间间隔的相关激光雷达,为场景中的所有agent模拟32个逼真的联合预测。

(3)3D语义分割:给定一个或多个激光雷达距离图像和相关的相机图像,为每个激光雷达点生成语义类标签。

(4)占用和流量预测:根据最后一秒观察到的agent轨迹,预测所有观察到的和被遮挡的车辆的BEV占用和运动流量。

参赛作品往往致力于融合多个模型框架,从而使模型能够处理多模态输入数据(激光雷达和摄像头数据)。这些作品多在损失函数策略方面创新或使用多种损失函数来优化模型,通过更新锚点、恢复历史轨迹、采用多帧训练、改进场景编码等方法,提高模型与场景的交互性,从而提高模型对多个agent对象预测的稳健性,提升模型在复杂场景中的表现。除了改进模型架构设计以外,参赛者还会后续不断评估模型的性能,并根据评估结果对模型进行持续优化,这包括调整模型结构、优化超参数、改进数据预处理和数据增强方式等。

运动预测挑战 MOTION PREDICTION CHALLENGE

1st:MTR v3模型

MTR v3: 1st Place Solution for 2024 Waymo Open Dataset Challenge - Motion Prediction

Chen Shi, Shaoshuai Shi, Li Jiang, The Chinese University of Hong Kong (Shenzhen) , DiDi Global

链接:https://storage.googleapis.com/waymo-uploads/files/research/2024%20Technical%20Reports/2024%20WOD%20Motion%20Prediction%20Challenge%20-%201st%20Place%20-%20MTR%20v3.pdf

本文提出的解决方案名为MTR v3,是基于先进的MTR++框架进行扩展。通过引入原始LiDAR数据和动态更新的锚点来改进模型,同时采用简单的模型集成技术进一步提升性能。模型包括场景编码器网络和运动解码器网络,其中场景编码器网络的输入为历史轨迹、道路地图和原始LiDAR点云,之后通过LiDAR编码器分割网络提取体素特征,生成语义标签,并在BEV空间中进行编码,再使用Transformer编码器通过查询中心化的局部自注意力层来聚合特征。运动解码器网络首先从K个意图点(锚点)生成每个焦点代理的意图查询(Intention Querying),再输入解码器层,通过交叉注意力模块更新意图查询,以聚合来自代理特征、地图特征和LiDAR特征的信息。最后通过预测头(Prediction Head),使用多层感知机预测多模态未来轨迹,表示为高斯混合模型(GMM)。

实验过程中,文章进行了动态锚点与模型集成。动态锚点即采用动态更新和不同的锚点,根据预测的轨迹终点动态选择正意图查询,以适应特定场景,提高回归能力。并且,文章训练多个模型变体,在推理时采用模型集成策略,通过非最大抑制(NMS)选择前6个预测轨迹。实验结果显示,该在Waymo开放数据集运动预测挑战赛中排名第一,soft mAP为0.4967,优于其他方法。

关键技术与贡献:

LiDAR数据融合:通过引入原始LiDAR数据,提供细粒度的语义信息,改善了对行人运动的预测。

动态锚点更新:采用动态更新和不同的锚点,解决了传统方法中锚点稀疏导致的高回归误差问题。

模型集成策略:通过模型集成技术,进一步提升了最终的性能表现。

c8d7aae1c393f628739d4ba5d9c25210.png

2nd:ModeSeq模型

Zikang Zhou, Jianping Wang, Yung-Hui Li, Yu-Kai Huang - City University of Hong Kong, Hon Hai Research Institute, Carnegie Mellon University

链接:https://storage.googleapis.com/waymo-uploads/files/research/2024%20Technical%20Reports/2024%20WOD%20Motion%20Prediction%20Challenge%20-%202nd%20Place%20-%20ModeSeq.pdf

ModeSeq框架是一种基于顺序模式建模的多模态运动预测框架,利用RNN风格的Transformer模块顺序解码轨迹模式,解决了多模态真实轨迹缺失的问题,提高预测轨迹的多样性。ModeSeq框架的编码器采用QCNet中的因子化Transformer,获取具有旋转平移不变性的场景嵌入(scene embeddings)。ModeSeq的层由记忆Transformer模块和因子化Transformer模块组成,顺序解码多个轨迹模式。其中记忆Transformer通过注意力机制让当前查询特征关注之前解码的模式,建模模式间的顺序依赖;因子化Transformer利用时间Transformer、代理-地图Transformer和代理-代理Transformer进一步丰富查询特征。最后预测头使用多层感知机解码轨迹和置信度分数。ModeSeq通过堆叠多个ModeSeq层并进行迭代细化,提升预测性能,并在每个新层开始前,根据置信度分数对模式嵌入进行排序,确保解码顺序的合理性。

在训练策略优化上,文章提出Early-Match-Take-All(EMTA)训练策略,采用EMTA损失,优化最早匹配的轨迹,鼓励模型尽早解码匹配轨迹。回归损失基于Laplace负对数似然,优化最早匹配的轨迹。分类损失使用二元焦点损失(Binary Focal Loss)优化置信度分数,通过单调递减的标签分配鼓励模型先输出更自信的模式。实验结果显示,在验证集上,ModeSeq在mAP、Soft mAP和Miss Rate上优于QCNet,但在minADE和minFDE上略逊一筹。该方法在不牺牲过多minADE和minFDE的情况下,显著提高了mAP、Soft mAP和Miss Rate,为多模态问题提供了新的见解和解决方案。

e55b881c149744cce4aac6bd6d549c95.png

3rd:RMP_Ensemble

Jiawei Sun, Jiahui Li, Tingchen Liu, Chengran Yuan, Shuo Sun, Yuhang Han, Keng Peng Tee, Anthony Wong, Marcelo H. Ang Jr. - National University of Singapore, Moovita Pte Ltd

链接:https://storage.googleapis.com/waymo-uploads/files/research/2024%20Technical%20Reports/2024%20WOD%20Motion%20Prediction%20Challenge%20-%203rd%20Place%20-%20RMP_Ensemble.pdf

准确预测周围交通参与者的未来轨迹对自动驾驶车辆至关重要。当前预测方法依赖完整的历史轨迹数据,但在实际场景中,由于遮挡、传感器故障和恶劣天气条件,历史轨迹可能不完整。因此本文希望提出一个简单的恢复模块,旨在恢复不完整的历史轨迹,以增强预测鲁棒性。本文基于MTR框架进行修改,引入恢复模块,提出了RMP集成方法。除了使用当前交通灯信息外,还纳入了历史相对运动信息作为输入上下文。使用多尺度LSTM和PointNet-like网络处理时空信息,并通过多上下文门控(MCG)进行特征融合。恢复模块是通过局部注意力机制和MLP层恢复不完整的历史轨迹,并将恢复的信息集成到代理标记中。编码器对特征通过多尺度LSTM和MCG模块进行聚合和融合,利用局部注意力机制进行进一步特征提取。解码器与MTR解码器相同,但在损失计算之间应用了演化和不同的锚点技巧。总损失函数由MTR原始损失和恢复损失组成,旨在同时优化预测精度和恢复模块性能。其中恢复损失是通过L1损失计算恢复的历史轨迹与真实历史轨迹之间的差异。实验结果显示,使用Waymo Open Motion Dataset进行训练和评估,RMP集成方法在Soft mAP上排名第三,重叠率排名第一,ADE和FDE也表现出色。在车辆、行人和自行车类别上分别进行了详细评估,展示了RMP方法在不同场景下的表现。文章还通过随机掩盖历史时间戳来评估方法的鲁棒性,结果显示RMP方法在处理缺失历史数据方面显著优于MTR。

e9a34d1b1e7ba28bab7e54e8e092a658.png

模拟agent挑战 SIM AGENTS CHALLENGE

1st:BehaviorGPT

Zikang Zhou, Haibo Hu, Xinhong Chen, Jianping Wang, Nan Guan, Kui Wu, Yung-Hui Li, Yu-Kai Huang, Chun Jason Xue - City University of Hong Kong, University of Victoria, Hon Hai Research Institute, Carnegie Mellon University, Mohamed bin Zayed University of Artificial Intelligence

链接:https://storage.googleapis.com/waymo-uploads/files/research/2024%20Technical%20Reports/2024%20WOD%20Sim%20Agents%20Challenge%20-%201st%20Place%20-%20BehaviorGPT.pdf

BehaviorGPT在自动驾驶领域展现了卓越性能,在Waymo开放模拟代理挑战中,其0.7473的现实性得分和1.4147的minADE得分令人瞩目,且仅使用3M模型参数。该技术强调自动驾驶系统安全性评估的重要性,通过模拟实现低成本、大规模的离线测试。BehaviorGPT利用仅解码器自回归模型提高数据和参数效率,模拟逼真的agent,对验证自动驾驶系统至关重要。

BehaviorGPT采用NP3方法解决因果混淆问题,通过轨迹补丁级别的推理(reason at the patch level)促进长范围交互建模(long-range interactions modeling),提高预测准确性。该模型还通过混合模型捕捉智能体行为的多样性,利用链式法则分解状态分布,进一步提升了多智能体系统行为预测的能力。此外,BehaviorGPT引入相对时空表示法(relative spatial-temporal positional embeddings),通过QCNet模型在空间和时间上对称地建模补丁,处理多代理交互和动态环境。同时,通过维护输入元素间的相对位置嵌入,有效保持空间-时间关系,提高代理的反应性和预测准确性。

总之,BehaviorGPT通过创新的架构和算法,为自动驾驶领域的研究与发展提供了新的思路和工具。其高性能的模拟和准确的预测能力,将有助于推动自动驾驶系统的进一步完善和应用。

181f20bd1ca402d4e4606a2a9fc93b3f.png

2nd:VBD

Zhiyu Huang, Zixu Zhang, Jaime Fernández Fisac, Chen Lv - Nanyang Technological University, Princeton University

链接:https://storage.googleapis.com/waymo-uploads/files/research/2024%20Technical%20Reports/2024%20WOD%20Sim%20Agents%20Challenge%20-%202nd%20Place%20-%20VBD.pdf

本文介绍了一种名为Versatile Behavior Diffusion Model(VBD)的交通模拟框架,该框架旨在模拟智能体在复杂交通环境中的逼真且可控行为。VBD模型通过结合场景编码器(query-centric Transformer encoder)、去噪器(Transformer denoiser)和行为预测器(Transformer-based multi-modal marginal trajectory predictor),能够有效模拟多代理的联合行为(scene-level joint behaviors of agents),并在高度交互的交通场景下降低碰撞风险。该模型利用地图和代理的历史状态作为条件输入,通过去噪和可控采样技术生成高质量的交通场景。此外,VBD模型还采用了一种基于动态函数的代理行为分析方法,将代理行为转化为物理状态,为行为预测提供了有力工具。通过编码多源输入,包括代理历史、地图信息和交通灯状态,VBD模型能够在复杂环境中实现准确的决策和预测。此外,该模型还采用了一种改进的场景编码方法,通过共享GRU网络和基于查询的Transformer层,实现场景元素间相互关系的高效编码。在Waymo 2024 Sim Agents基准测试中,VBD模型表现出竞争性的性能,为智能交通系统的研究提供了有力支持。

fc866de4b1281e62ca031189424f1dab.png

3rd:TrafficBotsV1.5

Zhejun Zhang, Christos Sakaridis, Luc Van Gool - ETH Zurich

链接:https://storage.googleapis.com/waymo-uploads/files/research/2024%20Technical%20Reports/2024%20WOD%20Sim%20Agents%20Challenge%20-%203rd%20Place%20-%20TrafficBotsV1.5.pdf

TrafficBots V1.5是基于条件变分自编码器(CVAE, conditional variational autoencoder)和异构折线变换器(HPTR, Heterogeneous Polyline Transformer with Relative pose encoding)的先进交通代理闭环模拟基线方法。它通过为每个交通代理学习特定策略,根据历史数据预测其行动,并在Waymo OpenSim Agents Challenge 2024中取得显著成绩。V1.5引入共享决策策略,设定导航目的地和人格特性,并采用相对姿态编码和K-最近邻注意力模块(KNARPE, K-nearest Neighbor Attention with Relative Pose Encoding)优化Transformer性能。该方法摒弃了RNN,采用堆叠历史观测作为输入,结合PointNet处理时间数据,保留了HPTR的优势,同时提高了效率和准确性。通过计划性教师强制和采样场景过滤,TrafficBots V1.5在目标预测器上实现显著改进,尽管在交通灯状态预测方面存在局限,但整体性能通过多项优化措施得到提升。该方法为多代理交通模拟提供了新的可能性,并公开代码供研究者使用,为交通模拟领域的研究提供了有力基线方案。

8f0a2f0b925c10d66b35f24129de62da.png

三维语义分割挑战 3D SEMANTIC SEGMENTATION CHALLENGE

1st:PTv3-EX

Xiaoyang Wu, Xiang Xu, Lingdong Kong, Liang Pan, Ziwei Liu, Tong He, Wanli Ouyang, Hengshuang Zhao - The Univeristy of Hong Kong, Shanghai AI Laboratory, National University of Singapore, Nanyang Technological University

链接:https://storage.googleapis.com/waymo-uploads/files/research/2024%20Technical%20Reports/2024%20WOD%203D%20Sem%20Seg%20Challenge%20-%201st%20Place%20-%20PTv3-EX.pdf

在2024年Waymo开放数据集挑战赛中,Point Transformer V3 Extreme凭借其前沿的多帧训练(multi-frame training)和无裁剪点策略(no-clipping-point policy),在语义分割赛道中荣登榜首。该模型不仅通过即插即用训练和推理技术显著提升了性能,还通过详细的训练设置和策略优化,充分利用了Waymo高分辨率LiDAR扫描和全面标注数据的优势。Point Transformer V3 Extreme的成功展示了其在自动驾驶领域内的技术实力和创新能力,为3D感知技术的发展提供了新的方向。该模型通过优化backbone设计、引入数据增强技术和无裁剪点策略,提高了处理复杂现实世界环境数据的能力,为语义分割领域的研究和应用提供了有价值的参考。此外,本文还探讨了点云数据的序列化方法和多帧训练策略,强调了它们在提升点云处理性能中的关键作用。

55c1e4ece4a160293b43a4e6748246bf.png d175d25e2c68be9ba619288d352929fc.png

2nd:MixSeg3D

Qing Wu - Marvell Technology

链接:https://storage.googleapis.com/waymo-uploads/files/research/2024%20Technical%20Reports/2024%20WOD%203D%20Sem%20Seg%20Challenge%20-%202nd%20Place%20-%20MixSeg3D.pdf

2024年Waymo开放数据集挑战赛中,MixSeg3D以其独特的3D语义分割解决方案荣获第二名。该方法融合了MinkUNet稀疏卷积网络和LaserMix、PolarMix两种3D数据增强策略,有效提升了模型在复杂LiDAR点云数据中的感知能力。MixSeg3D不仅克服了训练数据多样性不足的问题,还显著提高了模型的泛化性和鲁棒性,为自动驾驶技术的环境理解和导航提供了强有力的支持。MinkUNet以其高效的稀疏卷积操作和稳健的特征提取能力,在处理大规模LiDAR点云数据时表现出色。而LaserMix和PolarMix的引入,进一步增强了模型对未知数据的适应能力。MixSeg3D的成功不仅为自动驾驶领域带来了新的技术突破,也为未来的3D语义分割研究提供了新的思路和方法。

5b6dfba2343e604f3610e47628bbfa5e.png

3rd:vFusedSeg3D

Osama Amjad, Ammad Nadeem - VisionRD

链接:https://storage.googleapis.com/waymo-uploads/files/research/2024%20Technical%20Reports/2024%20WOD%203D%20Sem%20Seg%20Challenge%20-%203rd%20Place%20-%20vFusedSeg3d.pdf

VFusedSeg3D是由VisionRD团队开发的多模态融合系统,其利用相机和LiDAR数据的互补性,通过精心设计的网络架构在3D感知和分割精度上取得了显著进步。该系统结合了相机的丰富语义信息和LiDAR的精确深度感知,通过两个并行特征提取流和创新的融合技术,实现了对环境的全面理解。在验证集上,VFusedSeg3D达到了72.46%的mIoU,树立了新的性能基准。

系统采用了DLA34作为图像侧的主干网络,并引入了改进的语义特征聚合模块(SFAM)和语义特征融合模块(SFFM)来有效结合LiDAR和相机的特征。由于计算资源限制,系统采用了分阶段训练策略,成功解决了高网格分辨率导致的内存溢出问题。此外,通过全局变换和多种图像增强技术,增强了模型的泛化能力。总的来说,VFusedSeg3D以其高效的网络结构和多模态融合技术,为需要精确环境感知的应用提供了理想解决方案,展现了在3D感知领域的重要突破。

d3d07ad6c4665e657eddb397d612fd53.png 21531ed218f3f8ddab4218097190baa8.png

占用率和流量预测 OCCUPANCY FLOW CHALLENGE

1st:DOPP

Haochen Liu, Zhiyu Huang, Wenhui Huang, Haohan Yang, Xiaoyu Mo, Hongyang Gao, Chen Lv - Nanyang Technological University

链接:https://storage.googleapis.com/waymo-uploads/files/research/2024%20Technical%20Reports/2024%20WOD%20Occupancy%20Flow%20Challenge%20-%201st%20Place%20-%20DOPP.pdf

本文提出并详细阐述了一种创新的DOPP系统及其MS-OccFormer模块,该模块通过多阶段对齐实现了高精度的占用流场预测,并结合了智能体边际运动预测的一致性意识。DOPP系统通过可微分的集成方式,有效提升了未来交通状态预测的精度,特别是在处理复杂交通场景时展现出强大的能力。MS-OccFormer模块则通过全局和局部交互,将占用预测和向后流预测与边缘预测特征相结合,进一步提升了预测精度。此外,该系统还采用了一种集成学习范式,持续更新预测目标,确保预测结果的连贯性和准确性。这些创新技术不仅为自动驾驶系统的安全运行提供了更为坚实的预测支持,同时也为处理多智能体预测中的一致性问题提供了新的解决方案。未来工作将围绕进一步优化预测性能,解决运动预测与占用预测不可解耦的挑战展开。

61faf72e63b64aec821c1ae64e36b0e0.png

2nd:STNet

Gaeun Kim, Daeil Han, YeongJun Koh, Hanul Kim - Seoul National University of Science and Technology, Chungnam National University

链接:https://storage.googleapis.com/waymo-uploads/files/research/2024%20Technical%20Reports/2024%20WOD%20Occupancy%20Flow%20Challenge%20-%202nd%20Place%20-%20STNet.pdf

本文提出了一种创新的自动驾驶占用率和流量预测方法,该方法通过整合agent和静态特征,利用一维时间卷积和时空编码器构建多尺度特征图。该模型基于CAFormer-S18架构改造而来,通过空间和时间信息的融合以及多尺度聚合,有效处理包含时间维度的数据。解码器部分采用自回归设计,结合双线性插值和串联操作,以自回归方式预测未来帧。预测头部分利用卷积层和激活函数生成占用和流图,并通过多损失函数组合优化预测性能。该方法在Waymo开放数据集挑战中取得优异成果,充分展示了其在自动驾驶领域中的有效性。通过多尺度的特征提取和自回归的解码设计,该模型为自动驾驶的准确预测提供了强大的技术支持,对处理占用地图和流动场预测问题具有重要意义。

3eccfa4c2dfa39b2cd015270ebd21bac.png

3rd:HGNET

Zhan Chen, Chen Tang, Lu Xiong - Tongji University

链接:https://storage.googleapis.com/waymo-uploads/files/research/2024%20Technical%20Reports/2024%20WOD%20Occupancy%20Flow%20Challenge%20-%203rd%20Place%20-%20HGNET.pdf

本文提出了一种创新的层次特征引导网络(HGNET, hierarchical feature guided network),用于复杂交通场景中多智能体行为的预测。HGNET基于Transformer架构,通过高效的特征提取和多模态交互建模,有效整合了视觉、历史轨迹和地图信息,显著提升了预测准确性。其中,特征引导注意力模块(FGAT)利用潜在引导效果,强化了特征间的相关性,而TimeSeries Memory框架则增强了预测的时间一致性和因果关系。HGNET在Waymo Open Motion Dataset 1上表现出色,尤其在占用流场轨迹预测方面。此外,该系统还通过LSTM和跨注意力Transformer编码器,全面捕获了交通代理与地图间的交互关系,进一步提升了预测性能。通过结合文本和视觉特征,以及引入层次特征引导解码器,HGNET为自动驾驶领域提供了有力的技术支持,尤其在处理被遮挡障碍物和提高预测连续性方面展现出巨大潜力。

c4f2d4ea5e0b586bdd02a4365720efe9.png

747a40083f929fe94ef3856cc905cbd8.png

投稿作者为『自动驾驶之心知识星球』特邀嘉宾,欢迎加入交流!重磅,自动驾驶之心科研论文辅导来啦,申博、CCF系列、SCI、EI、毕业论文、比赛辅导等多个方向,欢迎联系我们!

cf49db5deb1e9baba20fd6ffbfc25856.jpeg

① 全网独家视频课程

BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合多传感器标定多传感器融合多模态3D目标检测车道线检测轨迹预测在线高精地图世界模型点云3D目标检测目标跟踪Occupancy、cuda与TensorRT模型部署大模型与自动驾驶Nerf语义分割自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频(扫码即可学习

894acc06ad64d33de05c3ad1b0091314.png 网页端官网:www.zdjszx.com

② 国内首个自动驾驶学习社区

国内最大最专业,近3000人的交流社区,已得到大多数自动驾驶公司的认可!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案大模型、端到端等,更有行业动态和岗位发布!欢迎扫描下方二维码,加入自动驾驶之心知识星球,这是一个真正有干货的地方,与领域大佬交流入门、学习、工作、跳槽上的各类难题,日常分享论文+代码+视频

24f01a97081d743d0884be8d0ce2427e.png

③【自动驾驶之心】技术交流群

自动驾驶之心是首个自动驾驶开发者社区,聚焦感知、定位、融合、规控、标定、端到端、仿真、产品经理、自动驾驶开发、自动标注与数据闭环多个方向,目前近60+技术交流群,欢迎加入!扫码添加汽车人助理微信邀请入群,备注:学校/公司+方向+昵称(快速入群方式)

53dd8d6984c034b7ade1797ffcdfe672.jpeg

④【自动驾驶之心】全平台矩阵

7af09f3a19300c01491aa572065fb9ed.png

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值