ICCV2023 | MotionLM：Waymo新作问世，一举斩获SOTA！

自动驾驶之心

于 2023-12-01 07:30:29 发布

阅读量157

点赞数

原文链接：https://mp.weixin.qq.com/s?__biz=Mzg2NzUxNTU1OA==&mid=2247576407&idx=2&sn=84786c8f14f02de48c8683aaf1aa4904&chksm=ceb9869ef9ce0f88a58fc899c4379286a7f2d9e7c0f8d06c4e99100d003c283c47cb029c6b19&scene=126&sessionid=0

版权

作者 | Deep蓝同学编辑 | 深蓝AI

原文链接：https://arxiv.org/abs/2309.16534

点击下方卡片，关注“自动驾驶之心”公众号

ADAS巨卷干货，即可获取

点击进入→自动驾驶之心【轨迹预测】技术交流群

本文只做学术分享，如有侵权，联系删文

论文标题：MotionLM: Multi-Agent Motion Forecasting as Language Modeling

导读：

本文提出了一种名为MotionLM的模型，用于多智能体的运动预测。该模型将轨迹生成和交互建模结合在一个解码过程中，通过受自回归语言模型启发的训练目标来生成联合轨迹。该模型通过采样离散的运动标记，并关注其他智能体的行为，生成联合轨迹。文档描述了MotionLM的架构，包括场景编码器和轨迹解码器，并解释了模型的分解和训练目标。作者还提供了在Waymo Open Motion数据集上进行的实验结果，证明了MotionLM在预测联合智能体轨迹方面的性能改进。总体而言，本文将MotionLM描述为一种有效的多智能体运动预测模型，能够捕捉驾驶场景的多模态性和时序依赖性。

可靠地预测道路各参与者的未来行为对于自动驾驶车辆的安全规划至关重要。本文中，我们将连续的轨迹表示为由离散运动标记构成的序列，并将多智能体运动预测建模为一个语言建模任务。我们的模型MotionLM具有以下几个优点：首先，它不需要锚点或显式的潜在变量优化来学习多模态分布。相反，我们采用了一个简单的语言建模目标，最大化序列标记的平均对数概率。第二，我们的方法不需要后处理的交互启发式，它们先生成各个智能体的轨迹，再进行交互评分。

▲图1｜模型能够为一组智能体自动回归地生成离散运动标记序列，从而产生一致的交互轨迹预测。

相反，MotionLM通过自回归解码过程直接生成交互智能体的联合分布。此外，模型的顺序分解使得条件化的时间顺序列出成为可能。我们在Waymo开放运动数据集上进行了实验，结果表明我们的方法在多智能体运动预测方面达到了新的最先进水平，并在交互预测挑战排行榜上获得了第一名。

▲图2｜MotionLM的体系结构。我们首先对每个建模智能体的参考框架编码异构场景特征（左），得到形状为R、N、、H的场景嵌入。其中R表示轨迹数，N表示(联合建模的)智能体数，H表示每个嵌入的维度。我们在批量维度上重复嵌入R次，以便在推理期间进行并行采样。接下来，一个轨迹解码器以时间因果的方式为多个智能体自动回归地生成运动标记序列（中）。最后，我们可以通过使用非最大抑制初始化的k均值聚类来恢复轨迹的代表模式（右）。

我们的目标是建立一个通用的多智能体交互的分布模型，可以适用于多种下游任务，包括边缘预测、联合预测和条件预测。这需要一个具有强大表达能力的生成框架，能够捕捉驾驶场景中存在的多种多样性。此外，我们还要考虑保持时间上的依赖性；即我们模型推理遵循一个有向无环图，每个节点只依赖于之前发生的节点，而影响之后发生的节点。这使得条件预测更像是在排除混淆因素后进行因果干预的近似；我们模型分解至少消除了违反时间因果导致某些伪相关。我们发现，不遵循时间依赖性的联合模型可能会降低预测智能体合理反应的能力。为此，我们利用未来解码器的自动回归分解，其中每个智能体的运动标记都依赖于之前采样过的所有标记，轨迹是顺序生成的。设表示给定场景的输入数据。这可能包括上下文，如道路图元素、交通信号状态，以及描述道路智能体（例如车辆、自行车手和行人）及其最近历史的特征，所有这些都是在当前时间提供的。

我们的任务是为N个感兴趣的智能体生成预测的联合状态在未来时间步。然而，这些未来状态目标通常是二维waypoint（即坐标），每个智能体的waypoin形成完整的真实轨迹。

■2.1 联合概率轨迹

在我们的建模框架中，我们对每个目标智能体在每个未来时间步采样一个预测动作。这些动作被表述为来自有限词汇表的离散运动标记，让表示第个智能体在时间的目标动作（来自真实waypoint），则表示时间t所有智能体的目标动作集。

我们将未来联合动作序列的分布分解为条件概率的乘积：

等式（2）表示我们在时间t将智能体动作视为在先前动作和场景上下文的条件下独立的。这与真实世界驾驶在短时间间隔内的经验一致；例如，非受损人类司机通常需要至少500毫秒才能在前车制动时释放加速器。在我们的实验中，我们发现2Hz的反应足以超过最先进的联合预测模型。

我们注意到，我们模型的分解完全不包含潜在变量；多模态预测纯粹来自每个滚动时间步的分类标记采样。

训练目标。MotionLM被表述为一个生成模型，训练去匹配观察到的智能体行为的联合分布。具体来说，我们遵循多智能体动作序列的最大似然目标：

与现代语言模型的典型训练方式类似，我们采用了‘教师强制’（teacher forcing）的方法，其中在每个时间步提供先前的真实(非预测)标记，这有助于提高稳定性并避免训练过程中的采样误差。我们注意到，这对于所有目标代理（agent）都是适用的；在训练中，每个目标代理都可以看到所有目标代理在当前时间步之前发生的真实动作序列。这自然允许利用基于注意力（attention）的现代体系结构（如Transformer[48]）来实现时间上的并行化。

我们的模型也存在与一般模仿学习框架相同的理论限制。但这并不妨碍我们实现强大的预测性能。

▲图3｜WOMD场景中预测的前两个联合轨迹模式。颜色渐变表示从t=0s到t=8s的时间推移，最可能的联合模式从绿色转为蓝色，次要的联合模式从橙色转为紫色。观察到三种类型的交互：相邻车道中的智能体根据变道智能体变道时机让路（左）、行人根据车辆的进展绕过经过的车辆（中）、转弯车辆要么让路给过街自行车手（最可能的模式），要么在自行车手接近之前转弯（次要模式、右）。

■2.2 模型实现

我们的模型由两个主要网络组成，一个编码器处理初始场景元素，后面是一个轨迹解码器，它执行对场景编码的交叉注意力以及沿着智能体运动标记的自注意力，遵循Transformer体系结构。

1）场景编码器：

场景编码器的任务是处理来自几个输入模态的信息，包括道路图、交通灯状态和周围智能体的轨迹历史。在这里，我们遵循了早期融合网络的设计作为我们模型的场景编码骨干。特别选择早期融合是因为其灵活地处理所有模态的能力，而具有最小的归纳偏见。

上述特征都是相对于每个建模智能体的参考框架提取的。输入张量然后馈送到一堆自注意力层，在所有过去时间步和智能体间交换信息。在第一层中，潜在查询交叉参与原始输入，以将正在处理的向量集合减少到可管理的数量。

2）联合轨迹解码器：

我们的轨迹解码器的任务是为多个智能体生成运动标记序列。

离散运动标记。我们选择将由连续waypoint组成的轨迹转换为离散标记序列。这使得仅将每个时间步的采样视为分类任务成为可能，通过标准softmax层实现。以这种方式离散化连续目标已在其他本质上连续的域中被证明是有效的。为了提取准确重建整个轨迹的目标离散标记，我们首先通过将每个智能体的真实轨迹归一化到场景中该智能体在时的位置和朝向来开始。然后，我们参数化一个均匀量化的

，词汇表，根据总计数的箱数以及最大和最小值。一个连续的、单坐标动作然后可以映射到对应索引，，为完整的，动作产生两个索引。为了提取尽可能少误差地重建下一个waypoint坐标的动作，我们采用贪心搜索，顺序选择量化动作。

我们用“Verlet”步骤包装Δ动作，其中零动作表示应使用与前一步相同的Δ索引。由于智能体速度在连续时间步之间往往平滑变化，这有助于减少总词汇量，简化了训练动力学。最后，为了在顺序预测中有所保留，我们将每个坐标的动作折叠到它们的笛卡尔积的单个整数索引中。在实践中，对于这里呈现的模型，我们使用每个坐标13个标记，总共有13^2=169个离散运动标记可用(参见附录A了解更多细节)。

我们为每个离散运动标记计算一个学习的值嵌入和两个学习的位置嵌入(表示时间步和智能体标识)，它们通过元素 Wise 求和组合以输入到Transformer解码器中。

扁平化的智能体-时间自注意力。我们选择在解码器中包含一个自注意力机制，该机制沿着所有建模智能体的运动标记上的时间操作。因此，给定每个个智能体长度为的目标序列，我们对个元素执行自注意力。虽然这确实意味着随着联合建模智能体数量的增加，这些自参与序列以线性比例增长，但我们注意到这里的绝对序列长度仍然非常小（WOMD交互分割的长度为32 - 2Hz预测8秒用于2个智能体）。独立的因式分解的智能体和时间注意力传递也是可能的，但我们在此使用单传递以简化。

为方便了解基于智能体的特征编码的交叉注意力，我们为每个建模智能体表示扁平化标记序列一次。每个建模智能体都被视为一次“自我”智能体，并对该智能体的场景特征执行交叉注意力。将自我智能体折叠到批处理维度允许训练和推理期间的并行化。

■2.3 强制时间因果性

我们的自动回归分解自然尊重联合轨迹期间的时间依赖性；对任一特定智能体的运动标记采样仅受过去标记(来自任何智能体)的影响，不受未来标记的影响。在训练时，我们需要一个掩码来确保自注意力操作只根据这些依赖关系更新每个步骤处的表示。此注意力掩码呈阶梯形块状模式，使所有智能体只暴露每个其他智能体直到上一步的历史。

▲图4｜联合轨迹的因果贝叶斯网络表示（左）、干预后因果贝叶斯网络（中）和非因果条件化（右）。实线表示时间因果依赖性，虚线表示非因果信息流动。

时间因果条件。如前所述，这种分解的一个特定好处是querying时间因果条件轨迹的能力（图4）。在这种设置下，我们固定一个查询智能体采取某些动作序列，并仅展开其他智能体。

我们可以将这视为在没有混杂者的情况下计算因果干预的近似；一般来说，仅通过观察数据无法学习干预(由于可能存在未观察到的混杂者)，但我们模型的分解至少消除了违反时间因果导致的某些伪相关。

在图4(a)中，我们展示了一个治理联合轨迹的因果贝叶斯网络的示例。将干预应用于节点，通过删除它们的入边，会产生图4(b)所示的干预后贝叶斯网络，它遵循时间因果性。另一方面，非因果条件化（图4(c)）导致非因果信息流动，其中节点影响我们关于节点的信念，其中。

■2.4 轨迹聚合

像WOMD这样的联合运动预测基准任务需要以少量“模式”的形式紧凑表示未来联合分布。每个模式被赋予一个概率，并可能对应于一个特定的同胚结果（例如通过/产量）或速度/几何的更细微差异。

在这里，我们聚合轨迹以实现两个主要目标：

1)发现分布的基本模式

2)估计每个模式的概率。

具体来说，我们采用非最大抑制（NMS）聚合方案，但通过确保所有智能体预测都在对应簇内保持在给定距离阈值范围内，将其扩展到联合设置。另外，我们利用模型集成来考虑表面不确定性，进一步改善预测质量，在聚合步骤之前合并独立训练的副本的轨迹。

实验结果的分析显示，MotionLM模型在预测多个交互代理的联合轨迹方面表现出卓越的性能。模型通过采样离散的运动令牌并关注其他代理的动作，将轨迹生成和交互建模结合在一个解码过程中。实验结果表明，MotionLM在预测联合代理轨迹方面的性能得到了显著的提高。与其他现有方法相比，MotionLM能够捕捉驾驶场景的多模态性和时间依赖关系。通过比较模型在不同情境下的表现，可以发现模型在边缘预测和联合预测方面都取得了优异的结果。边缘预测的模型版本相对于联合预测的版本，在预测重叠度方面获得了相对较高的性能。然而，联合预测的模型能够更好地捕捉代理之间的交互情况，使其能够更准确地适应其他代理的动作。在模型规模和推断延迟的分析中，我们可以看到不同模型大小和滚动次数的性能差异。

总体而言，MotionLM模型在多代理运动预测方面的实验结果显示出其卓越性能和潜力，并提出了未来工作的发展方向。

▲表1｜在WOMD测试集上的边缘预测性能。我们展示了跨时间步（3、5和8秒）以及智能体类型（车辆、行人和自行车手）的平均指标。灰色列表示该挑战的官方排名指标。

▲表2｜在WOMD交互测试集上的联合预测性能。我们展示了跨时间步（3、5和8秒）以及智能体类型（车辆、行人和自行车手）的场景级联合指标。灰色列表示该挑战的官方排名指标。

▲表3｜不同模型配置的预测重叠率。展示了各种模型在WOMD交互测试和验证集上的自定义预测重叠指标。

▲表4｜条件预测性能。展示了在三种预测设置下模型在WOMD交互验证集上的边缘（单智能体）指标：边缘、时间因果条件和非因果条件。

▲图5｜在研究的交互注意力频率两极端，显示了场景中预测的顶部联合轨迹模式。在没有交互注意力的情况下（左），两个建模智能体仅在8秒轨迹开始时相互参与一次，之后再也不会，这与2 Hz注意力下的16次完全相反（右）。零交互注意力导致独立轨迹可能导致场景不一致的重叠。例如，转弯车辆未考虑过街行人（左上），或者未适当让路过街车辆（左下）。

▲图6｜在WOMD交互验证集上，跨不同的交互注意力频率（顶部）和每个副本的轨迹数（底部），显示了联合预测性能。垂直轴显示8个副本集成的场景级联合指标。参见附录表5和6以获取完整的参数范围和指标。

▲图7｜在边缘设置（左）和时间因果条件设置（右下），可视化行人在最可能的未来预测。当独立考虑行人时，模型对穿过道路的轨迹分配了最大概率。当考虑车辆的真实转弯轨迹（品红色）时，行人被预测停下来让路。

这篇文章主要讨论了一个名为MotionLM的模型，该模型旨在进行多智能体运动预测。文章详细介绍了MotionLM作为一个生成模型用于预测多个交互智能体未来轨迹的开发和实施。文章强调了现有方法的局限性，这些方法要么侧重于边际轨迹生成，要么在不明确建模轨迹内的时间依赖性的情况下进行交互评分。

相反，MotionLM将轨迹生成和交互建模结合在一个单一的解码过程中，利用基于自回归语言模型的训练目标。该模型通过采样离散的运动标记并关注其他智能体的动作来生成联合轨迹。文章描述了MotionLM的架构，包括场景编码器和轨迹解码器，并解释了模型的分解和训练目标。

作者还提供了在Waymo Open Motion数据集上进行的实验结果，展示了MotionLM在预测联合智能体轨迹方面的改进性能。

总体而言，文章将MotionLM作为一种有效的多智能体运动预测模型，能够捕捉驾驶场景的多模态性和时间依赖性。

① 全网独家视频课程

BEV感知、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、点云3D目标检测、目标跟踪、Occupancy、cuda与TensorRT模型部署、协同感知、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频（扫码即可学习）

视频官网：www.zdjszx.com

② 国内首个自动驾驶学习社区

近2000人的交流社区，涉及30+自动驾驶技术栈学习路线，想要了解更多自动驾驶感知（2D检测、分割、2D/3D车道线、BEV感知、3D目标检测、Occupancy、多传感器融合、多传感器标定、目标跟踪、光流估计）、自动驾驶定位建图（SLAM、高精地图、局部在线地图）、自动驾驶规划控制/轨迹预测等领域技术方案、AI模型部署落地实战、行业动态、岗位发布，欢迎扫描下方二维码，加入自动驾驶之心知识星球，这是一个真正有干货的地方，与领域大佬交流入门、学习、工作、跳槽上的各类难题，日常分享论文+代码+视频，期待交流！

③【自动驾驶之心】技术交流群

自动驾驶之心是首个自动驾驶开发者社区，聚焦目标检测、语义分割、全景分割、实例分割、关键点检测、车道线、目标跟踪、3D目标检测、BEV感知、多模态感知、Occupancy、多传感器融合、transformer、大模型、点云处理、端到端自动驾驶、SLAM、光流估计、深度估计、轨迹预测、高精地图、NeRF、规划控制、模型部署落地、自动驾驶仿真测试、产品经理、硬件配置、AI求职交流等方向。扫码添加汽车人助理微信邀请入群，备注：学校/公司+方向+昵称（快速入群方式）

④【自动驾驶之心】平台矩阵，欢迎联系我们！

自动驾驶之心

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
ICCV2023 | MotionLM：Waymo新作问世，一举斩获SOTA！

作者|Deep蓝同学编辑|深蓝AI原文链接：https://arxiv.org/abs/2309.16534点击下方卡片，关注“自动驾驶之心”公众号ADAS巨卷干货，即可获取点击进入→自动驾驶之心【轨迹预测】技术交流群本文只做学术分享，如有侵权，联系删文论文标题：MotionLM: Multi-Agent Motion Forecasting as Language Modeling导...
复制链接

扫一扫