CVPR2023 轨迹预测冠军方案!QCNeXt:新一代多智能体联合轨迹预测框架

点击下方卡片,关注“自动驾驶之心”公众号

ADAS巨卷干货,即可获取

今天自动驾驶之心为大家分享CVPR2023 轨迹预测挑战冠军方案—QCNeXt,如果您有相关工作需要分享,请在文末联系我们!

>>点击进入→自动驾驶之心【轨迹预测】技术交流群

论文作者 | Zikang Zhou

编辑 | 自动驾驶之心

大家好,今天为大家分享下我们的轨迹预测方案QCNeXt,目前在CVPR23上Argoverse 2 multi-agent motion forecasting benchmark上取得了1st!

e05663891f8a0b779e28b191e99eced6.png

估计道路上智能体未来轨迹的联合分布对于自动驾驶至关重要,我们提出了一种新一代的多智能体联合轨迹预测框架,称为QCNeXt。首先采用以查询为中心的编码范式来进行联合多智能体轨迹预测。在这种编码方案的支持下,场景编码器在集合元素上具有置换等变性,在空间维度上具有旋转平移不变性,在时间维度上具有平移不变性。这些不变性不仅从根本上实现了准确的多智能体预测,而且使编码器具有流处理的能力。其次,我们提出了一种类似多智能体DETR的解码器,该解码器通过建模智能体在未来时间步长的交互来促进联合多智能体轨迹预测。

领域的难点分析

轨迹预测是自动驾驶中最棘手的问题之一。为了实现安全的自动驾驶,轨迹预测模型必须准确预测自动驾驶车辆周围一个或多个目标主体(例如,车辆、行人、骑自行车的人等)的真实运动。当涉及到多智能体预测时,以前的大多数工作主要集中在估计目标智能体未来轨迹的边际分布,即假设多个智能体的未来运动是有条件独立的,这种假设对于自动驾驶中的场景理解和决策可能并不理想,因为agent之间的社交互动不仅发生在过去的时间步长,而且发生在未来的时间步长,其它一些工作则通过考虑未来的社会互动来关注联合多智能体轨迹预测。然而,这些方法都不能在边际度量上实现与边际预测模型相同的性能水平。人们认为,联合预测任务比边际预测任务困难得多。

我们的解决方案

在这份技术报告中,我们提出了一种用于联合多智能体轨迹预测的下一代建模框架,该框架可以准确估计多个目标智能体的联合未来分布,将此框架称为 QCNeXt,因为它是下一代QCNet,是目前最强大的边际轨迹预测模型之一。QCNeXt采用基于Transformer的编码器-解码器架构作为其前身,对于编码器,我们继承了HiVT和QCNet的对称设计,该设计使模型具有集合元素上的置换等变性、空间维度上的旋转平移不变性和时间维度上的平移不变性,这些不变性有助于模型实现准确的多智能体预测,并实现流式场景编码。对于解码器,我们将QCNet的解码pipeline扩展到联合预测变体,该变体可以明确地捕捉代理在未来时间步长的社交互动。此外,我们引入了一个场景评分模块来估计所有目标代理的联合未来轨迹的可能性。在Argoverse 2多智能体运动预测基准上的实验表明,QCNeXt可以在场景级别准确预测轨迹,作为一个联合预测模型,即使在边际指标上,QCNeXt也可以优于QCNet,这展示了我们提出方案的有效性。

81cb338402ce7da9b5264432d747b050.png d1abb729373540b846221e59a6ce5f8d.png

以Query为中心的场景编码器

场景编码器与QCNet中使用的编码器相同,QCNet是一个基于因子化注意力的转换器,用于捕获时间依赖关系、agent映射交互和social交互,编码器总体架构 如图1所示。在QCNet中采用了以查询为中心的范式来对场景元素进行编码,这种编码范式背后的哲学是相对时空,它指导我们为模型配备空间维度上的旋转-平移不变性和时间维度上的平移不变性。在这种范式中,为每个场景元素建立了一个局部时空坐标系,包括车道、人行横道、车辆、行人等。然后,这些场景元素在其局部坐标系中被编码,以产生不变的表示,并且场景元素之间的关系通过变换器在相对时空位置嵌入的帮助下被捕获。在执行QKV关注之前,关注层中的键/值元素与相对于查询元素的时空位置嵌入相连接,在地图-地图注意力以及一系列时间注意力、agent-地图注意力和social注意力之后,场景编码器产生形状为[M,D]的地图编码和形状为[a,T,D],其中M,a,T,D分别是地图多边形、移动agent、历史时间步长和隐藏单元的数量,这些编码稍后将用作解码器中的场景context ,有关场景编码器的更多详细信息,请参阅QCNet论文。

multi-agent DETR解码器

解码pipeline遵循QCNet解码器的设计选择,其中递归的无anchor轨迹proposal模块以数据驱动的方式生成自适应轨迹anchor,然后是基于anchor的轨迹细化模块,该模块预测轨迹anchor的偏移。然而,QCNet的原始解码器没有考虑agent之间在未来时间步长的社交互动,因为它只聚合当前时间步长的相邻代理的编码, 因此,QCNet解码器仅适用于边缘轨迹预测。为了解决这个问题,本文提出了一种新的类似DETR的解码器,它可以捕捉未来的social互动,解码器的详细架构如图2所示。

anchor-free轨迹proposal:在训练之前,随机初始化大小为D的K个嵌入。然后,将这些嵌入中的每一个重复A次,以形成张量f形状[K,A,D],其中每一行用作K个联合特征的初始种子。对于该张量的每一行,首先使用Mode2Time交叉关注模块更新A嵌入,这使得每个嵌入负责场景中一个agent的预测。然后,Mode2Map交叉关注模块用相邻地图信息更新嵌入,接下来将逐行自关注应用于嵌入张量,该张量旨在对每个联合场景中代理之间的soical互动进行建模。

这三个模块交错堆叠L_{dec}次,然后是一个逐列自注意模块,该模块使K个联合场景能够相互通信。使用MLP从更新的嵌入张量中解码2秒的轨迹,为了预测接下来2秒的轨迹,让更新后的嵌入张量再次成为Mode2Time交叉注意力模块的输入,并重复上述过程,该计算过程重复进行,直到6秒的轨迹完成为止。

基于anchor的轨迹优化:由proposal模块预测的轨迹用作细化模块的anchor,与proposal模块相比,细化模块的初始嵌入张量是不可学习的,而是从proposal模块输出的轨迹中导出的,除了MLP预测器在不使用任何递归机制的情况下在single shot 中将偏移输出到轨迹anchor之外,其余的架构与proposal模块的架构类似!

场景评分模块

与QCNet的解码器通过应用于后细化模式嵌入的MLP产生agent级轨迹得分相比,我们的解码器需要产生场景级置信度得分以适应联合轨迹预测任务。场景评分模块将场景中所有目标代理的后细化模式嵌入作为输入。为了为每个联合预测生成一个置信度得分,需要一些场景级池化算子来将所有目标agent的模式嵌入汇总到一个场景嵌入中,并通过MLP从中解码置信度得分。典型的池化方法包括平均池化、最大池化等,根据经验选择了attentive  pooling,因为我们注意到一些目标代理具有不感兴趣的行为(例如,保持静态),并且不应该对场景得分的计算做出太大贡献。

训练目标

将所有目标agent的联合未来轨迹分布参数化为拉普拉斯分布的混合,其形式为:

0be7858c8e37cab049f7410d4ec0eb6f.png

使用分类损失Lcls来优化混合系数,这使得等式(1)的负对数似然性最小化。此外,我们采用场景级的赢家通吃策略来最小化赢家模式的拉普拉斯分布的负对数似然性。获胜模式被定义为最佳场景级轨迹建议及其细化,其中最佳场景级轨道建议相对于地面实况具有最小的位移误差。最终损失函数组合了轨迹建议损失、轨迹细化损失和分类损失:

5ccd4d551fe82d1133141c45c1c757ad.png

实验结果

隐藏特征尺寸为128,用于信息融合的所有层都具有相同的架构,这类似于HiVT中使用的注意力机制的门控变体。所有的多头注意力层都使用8个头,为了训练稳定性,在细化模块中使用anchor之前分离所提出的轨迹anchor的梯度。使用AdamW优化器进行训练,训练过程持续50个epoch,bs大小为32。dropout rate和weight decay都设置为0.1。

使用不同的随机种子来训练8个模型,总共产生48个场景级预测。对于每个场景,48个场景级预测用于基于加权k均值算法的集合,具体地,场景中所有目标agent的联合端点被作为加权k均值算法的输入,场景级得分被用作样本权重。在指定簇之后,对每个簇内的关节轨迹进行平均,这可以被视为边缘轨迹预测常用集成策略的简单扩展。

QCNeXt在Argoverse 2多智能体运动预测基准上的性能如表1所示,可以看到,我们的组合策略可以显著提高模型的性能。但即使不使用集成,我们的方法也已经表现出色,在所有度量上都有显著的优势,这表明了我们建模框架的优越性。Argoverse 2验证/测试集中约20%的场景仅评估一个agent的预测结果。在这种情况下,联合轨迹分布和边际轨迹分布的公式变得等价,因此我们对联合预测模型和边际预测模型在这些场景中的性能比较感到好奇。

9dceb45692102117682247b3c3d1dcec.png 5993e07570f0adb2189d73a8e5736506.png

参考

[1] QCNeXt: A Next-Generation Framework For Joint Multi-Agent Trajectory Prediction

① 全网独家视频课程

BEV感知、毫米波雷达视觉融合、多传感器标定、多传感器融合、3D目标检测、目标跟踪、Occupancy、cuda与TensorRT模型部署、协同感知、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频(扫码免费学习)

e9eabfd9d44230e3b822fb917810a95b.png 视频官网:www.zdjszx.com

② 国内首个自动驾驶学习社区

近2000人的交流社区,涉及30+自动驾驶技术栈学习路线,想要了解更多自动驾驶感知(2D检测、分割、2D/3D车道线、BEV感知、3D目标检测、Occupancy、多传感器融合、多传感器标定、目标跟踪、光流估计)、自动驾驶定位建图(SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案、AI模型部署落地实战、行业动态、岗位发布,欢迎扫描下方二维码,加入自动驾驶之心知识星球,这是一个真正有干货的地方,与领域大佬交流入门、学习、工作、跳槽上的各类难题,日常分享论文+代码+视频,期待交流!

a90ee73eb9f16ae9bf3ecb09b02e4678.png

③【自动驾驶之心】技术交流群

自动驾驶之心是首个自动驾驶开发者社区,聚焦目标检测、语义分割、全景分割、实例分割、关键点检测、车道线、目标跟踪、3D目标检测、BEV感知、Occupancy、多传感器融合、大模型、SLAM、光流估计、深度估计、轨迹预测、高精地图、NeRF、规划控制、模型部署落地、自动驾驶仿真测试、产品经理、硬件配置、AI求职交流等方向。扫码添加汽车人助理微信邀请入群,备注:学校/公司+方向+昵称(快速入群方式)

339a568ab1c05c767d70305490ad243c.jpeg

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值