点击下方卡片,关注“自动驾驶之心”公众号
ADAS巨卷干货,即可获取
论文作者 | 汽车人
编辑 | 自动驾驶之心
ICCV 2023 | MotionLM:作为语言建模的多智能体运动预测
❝原标题:MotionLM: Multi-Agent Motion Forecasting as Language Modeling
论文链接:https://arxiv.org/pdf/2309.16534.pdf
作者单位:Waymo
会议:ICCV 2023
论文思路:
对道路代理未来行为的可靠预测是自动驾驶车辆安全规划的关键组成部分。在这里,本文将连续轨迹表示为离散运动tokens序列,并将多智能体运动预测作为该领域的语言建模任务。本文的模型 MotionLM 提供了几个优点:首先,它不需要anchors或显式潜变量(explicit latent variable)优化来学习多模态分布。相反,本文利用单一标准语言建模目标,最大化序列tokens的平均对数概率。其次,本文的方法绕过了 post-hoc 交互启发法,其中个体代理轨迹生成是在交互评分之前进行的。相反,MotionLM 在单个自回归解码过程中生成交互式代理未来的联合分布。此外,模型的顺序分解可以实现时间上的因果条件的推出。所提出的方法在 Waymo Open Motion Dataset 上为多智能体运动预测建立了新的最先进性能,在交互式挑战排行榜上排名第一。
主要贡献:
本文将多智能体运动预测作为一种语言建模任务,在经过因果语言建模损失训练的离散运动tokens上引入时间因果解码器。
本文将模型中的采样与简单的 rollout 聚合方案配对,该方案有助于联合轨迹的加权模式识别,在 Waymo Open Motion Dataset 交互预测挑战中建立新的最先进性能(在排名联合 mAP 指标上提高6% )。
本文对本文的方法进行了广泛的消融实验,并对它的时间因果条件预测进行了分析,这在很大程度上是目前的联合预测模型所不支持的。
网络设计:
本文的目标是以一种通用的方式对多智能体交互上的分布建模,这种分布可以应用于不同的下游任务,包括最低限度的、联合的和条件预测。这需要一个有表现力的生成框架,能够捕捉到驾驶场景中的多种形态。此外,本文在这里考虑保存时间依赖性; 即,在本文的模型中,推理遵循一个有向无环图,每个节点的父节点在时间上较早,子节点在时间上较晚,这使得条件预测更接近于因果干预[34],因为它消除了某些虚假的相关性,否则就会导致不服从时间因果关系。本文观察到,不保留时间依赖关系的联合模型可能在预测实际agent反应方面的能力有限——这是规划中的一个关键用途。为此,本文利用了未来解码器的自回归分解,其中代理的运动tokens有条件地依赖于所有先前采样的tokens,并且轨迹按顺序推出(rolled out)(图2)。
图1。本文的模型自回归地为一组代理生成离散运动tokens序列,以产生一致的交互式轨迹预测。
图2。MotionLM架构。本文首先将与每个建模代理相关的异构场景特征(左)编码为形状R、N、·、H的场景嵌入。其中,R为首次推出(rollouts)的数量,N为联合建模的代理数量,H为每次嵌入的维数。在推理过程中,为了并行采样,本文在批量维度上重复嵌入R次。接下来,一个轨迹解码器以一种时间因果的方式(中心)为多个代理推出(rolls out) T 个离散运动tokens。最后,通过使用非最大抑制初始化的k-means聚类的简单聚合,可以恢复 rollouts 典型模式(右图)。
图3。展示了三个WOMD场景的前两种预测联合推出(joint rollout)模式。颜色梯度表示从t = 0s到t = 8s的时间推移,联合模式由绿色过渡到蓝色,次联合模式由橙色过渡到紫色的概率最大。观察到三种类型的交互:相邻车道中的智能体根据变道时间向变道智能体让行(左),行人根据车辆的进度走在过往车辆后面(中),转弯车辆要么给过路的骑车人让路(最可能的模式),要么在骑车人接近之前转弯(次要模式)(右)。
图4。对于联合推出(joint rollout)(左)、干预后因果贝叶斯网络(中)和因果条件反射(右)的因果贝叶斯网络表示。实线表示时间上的因果相关性,而虚线表示因果信息流。没有时间依赖约束的模型将支持因果条件作用,但不支持时间因果条件作用,这在试图预测agent反应时可能是有问题的。
实验结果:
引用:
Seff, A., Cera, B., Chen, D., Ng, M., Zhou, A., Nayakanti, N., Refaat, K. S., & Sapp, B. (2023). MotionLM: Multi-Agent Motion Forecasting as Language Modeling. ArXiv. /abs/2309.16534
① 全网独家视频课程
BEV感知、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、点云3D目标检测、目标跟踪、Occupancy、cuda与TensorRT模型部署、协同感知、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频(扫码即可学习)
视频官网:www.zdjszx.com② 国内首个自动驾驶学习社区
近2000人的交流社区,涉及30+自动驾驶技术栈学习路线,想要了解更多自动驾驶感知(2D检测、分割、2D/3D车道线、BEV感知、3D目标检测、Occupancy、多传感器融合、多传感器标定、目标跟踪、光流估计)、自动驾驶定位建图(SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案、AI模型部署落地实战、行业动态、岗位发布,欢迎扫描下方二维码,加入自动驾驶之心知识星球,这是一个真正有干货的地方,与领域大佬交流入门、学习、工作、跳槽上的各类难题,日常分享论文+代码+视频,期待交流!
③【自动驾驶之心】技术交流群
自动驾驶之心是首个自动驾驶开发者社区,聚焦目标检测、语义分割、全景分割、实例分割、关键点检测、车道线、目标跟踪、3D目标检测、BEV感知、多模态感知、Occupancy、多传感器融合、transformer、大模型、点云处理、端到端自动驾驶、SLAM、光流估计、深度估计、轨迹预测、高精地图、NeRF、规划控制、模型部署落地、自动驾驶仿真测试、产品经理、硬件配置、AI求职交流等方向。扫码添加汽车人助理微信邀请入群,备注:学校/公司+方向+昵称(快速入群方式)
④【自动驾驶之心】平台矩阵,欢迎联系我们!