【论文学习笔记】Forecast-MAE: Self-supervised Pre-training for Motion Forecasting with Masked Autoencoders

技术宅学长

已于 2024-02-29 09:51:03 修改

阅读量687

点赞数 3

文章标签：学习笔记

于 2023-11-02 09:28:43 首次发布

本文链接：https://blog.csdn.net/qq_33440910/article/details/134163163

版权

ICCV2023: Forecast-mae:用蒙面自编码器进行运动预测的自监督预训练

Abstract

本研究探讨了自监督学习(SSL)在运动预测任务中的应用，尽管SSL在计算机视觉和自然语言处理中取得了广泛的成功，但这一领域尚未得到广泛的研究。为了解决这一差距，我们引入了Forecast-MAE，这是掩模自编码器框架的扩展，专为运动预测任务的自监督学习而设计。我们的方法包括一种新的掩蔽策略，该策略利用了智能体轨迹和道路网络之间的强互连，包括对智能体未来或历史轨迹的互补掩蔽和车道段的随机掩蔽。我们在具有挑战性的Argoverse 2运动预测基准上的实验表明，与依赖于监督学习和复杂设计的最先进方法相比，使用具有最小感应偏差的标准Transformer块的Forecast-MAE取得了具有竞争力的性能。此外，它比以前的自监督学习方法有很大的优势。

代码可在https://github.com/jchengai/forecast-mae获得。

1. Introduction

运动预测是一个快速发展的研究领域，在先进的自动驾驶系统中起着至关重要的作用。这项任务包括预测其他车辆和行人的未来轨迹，同时考虑到复杂的相互作用和道路布局。智能体固有的多模式驾驶行为，加上不同的道路网络，使得运动预测成为一项特别具有挑战性的工作。

自监督学习(SSL)是一种创新的方法，可以从未标记的数据中获取有价值的潜在特征。通过在借口任务和源自数据的伪标签上对模型进行预训练，并随后对下游任务进行微调，SSL已经证明了学习更广泛和适应性更强的潜在特征的能力，从而在计算机视觉([3])和自然语言处理(NLP)([10])方面取得了显著进步。然而，尽管它广泛的流行和成功，在运动预测领域仍然明显缺乏SSL的探索。我们已经确定了将SSL集成到运动预测中的两个主要挑战:

(i)运动预测预训练需要带注释的数据，这将其与计算机视觉和自然语言处理等领域区分开来，在这些领域，未标记的原始输入很容易获得。在运动预测中，我们依赖于注释跟踪序列和手工制作的高清地图，这些地图通常由昂贵的机载传感器和arXiv:2308.09882v1 [cs]收集。[au:] 2023年8月19日

(i)运动预测预训练需要带注释的数据，这将其与计算机视觉和自然语言处理等领域区分开来，在这些领域，未标记的原始输入很容易获得。在运动预测中，我们依赖于注释的跟踪序列和手工制作的高清地图，这些地图通常由昂贵的机载传感器收集，需要人工注释[5,44,12]。这对扩大自我监督的预训练提出了挑战，而这是SSL成功的一个关键方面。为了应对这一挑战，PreTraM[45]最近的工作提出了从整个高清地图的局部区域裁剪额外的栅格化地图补丁(28.8米)，以训练具有对比学习的鲁棒地图编码器。尽管与基线相比，这种方法产生了显著的性能改进，但它仅限于基于栅格化映射表示的模型，与最近的基于向量或基于图的模型相比，这种模型的性能差距很大。然而，另一项开创性的工作SSL-Lanes[1]表明，精心设计的借口任务可以通过学习更丰富的特征而不使用额外的数据来显着提高性能。在本文中，我们遵循这种方法使用现有数据集学习更好和更广义的特征。

(ii)运动预测的任务涉及整合多个模态输入，如静态地图特征、时空代理运动特征和语义场景上下文[40,26,13,4,37,51,29,9,53]。虽然各种自监督学习方法在处理单模态输入(如图像[3]、文本[10]或点云)方面已经被证明是成功的[48,33]，但开发建立跨模态互连的借口并不是一件容易的事。

SSL-Lanes专注于为每个特定的输入模式设计借口任务，例如车道节点屏蔽或代理机动分类。然而，他们没有探索这些不同任务的组合，也没有开发明确涉及多模态输入的借口任务。PreTraM的作者从CLIP的b[36]跨模态对比学习框架中获得灵感，该框架涉及文本和图像。

他们设计了一种通过配对(map, trajectory)训练实例来预训练map和轨迹编码器的技术。然而，他们的方法仅仅包含历史轨迹图连接，从而将模态互连的范围限制在特定类型。本研究通过利用一个掩模自动编码器框架来应对这一挑战，该框架可以在统一的场景重建任务中吸收所有跨模态相互依赖关系。

掩蔽自编码器(MAE)[20]由于其最近在基于图像的自监督学习方面的成就而引起了广泛的关注。这种方法包括屏蔽一部分输入数据，并使用自动编码器结构重建缺失的部分。MAE的有效性也在其他领域得到了证明，例如音频[21]和点云[33]。一个有趣的问题出现了:我们能将MAE扩展到运动预测吗?事实上，运动预测本身可以看作是一个掩蔽和重建任务，其中智能体的未来轨迹被掩蔽和预测。基于智能体的历史和未来轨迹与道路网络之间的强相关性，我们进一步将这一概念扩展到整个场景重建。具体来说，我们以互补的方式屏蔽agent的历史轨迹或未来轨迹(即要么屏蔽历史轨迹，要么屏蔽未来轨迹)，并随机屏蔽不重叠的车道段，如图1所示。

这种屏蔽方案有几个优点。首先，模型必须学会如何从过去的运动中重建未来，反过来，在有限的车道结构访问下，从未来推断历史。这个借口任务允许模型在过去和未来运动之间建立一个强大的双向关系。其次，模型通过联合利用相邻的可见车道、智能体的历史轨迹和未来轨迹来学习重建车道段，从而建立更深刻的跨模式理解。

为此，我们引入了Forecast-MAE，这是一种专门为运动预测任务的自监督学习而设计的掩码自编码器框架的扩展。

我们的方法包括一种新颖的掩蔽设计，利用所有智能体的轨迹和道路网络之间的强相互依赖性。尽管简单且包含最小的归纳偏差，但我们提出的ForecastMAE在具有挑战性的Argoverse 2 (AV2)运动预测基准[44]上表现出色，并且显著优于之前的自监督学习方法。

我们的贡献可以总结如下:

•据我们所知，我们提出了第一个用于运动预测任务的自监督学习的掩码自动编码框架。在没有额外数据和伪标签的情况下，与从头开始训练相比，我们的方法通过预训练大大提高了运动预测的性能。

•我们引入了一种简单而高效的掩蔽方案，有助于在单个重建借口任务中学习双向运动连接和跨模态关系。

•我们表明，我们的方法完全基于具有最小归纳偏倚的标准Transformers，与具有挑战性的Argoverse 2基准的监督学习相比，实现了具有竞争力的性能，并且显著优于之前的自监督学习方法。
•我们的研究结果表明，SSL可能是一种很有前途的运动预测方法，我们预计这可能会引发对该领域更大的兴趣。图1所示。Argoverse 2验证场景的重建结果。(a)起源设想。(b) 50%的智能体轨迹使用互补掩蔽策略被掩蔽(历史或未来被掩蔽)。50%的车道段被随机屏蔽。(c)由建议的预测预测模型重建的情景。

2. Related Work

运动预测。近年来，运动预测模型的性能有了显著的进步，这主要归功于对自动驾驶汽车的兴趣扩大和标准基准的广泛可用性。在此，我们简要概述了有助于其改进的三个关键方面。

(i)场景表现的改进。在早期阶段，栅格化的自上而下语义图像通常用于场景表示，并且使用现成的图像编码器进行学习[40,34,4,15]。这种基于图像的表示虽然简单统一，但在光栅化过程中不可避免地会丢失详细的结构信息。随着VectorNet[13]的引入，矢量化表示的普及程度大大提高，因为它们具有更高的表示能力和更强的性能。此外，图[26,49,9,16,25]作为另一种有前景的场景表示被广泛使用。TPCN[46]作为一种独立的方法，通过将智能体的轨迹和车道作为点云来处理，获得了令人印象深刻的结果。

(ii)改进模型架构。早期的栅格化方法自然依赖于完善的卷积网络。后来，受到Transformer[42]令人印象深刻的性能的启发，由于其优越的灵活性和有效性，注意力机制被广泛用于交互建模和信息聚合。有些工作[32,29,53,17]直接将Transformers纳入预测，取得了满意的效果。最近的一项研究，MTR[37]，建立在尖端的视觉目标检测架构DETR[2]上，产生了最先进的性能。图神经网络(GNN)领域的进展也得到了广泛的探索[49,16,25,9,6,28,7]。LaneGCN[26]改进的图卷积操作尾巷图编码。HDGT[24]使用异构图对不同类型的代理和映射元素进行编码。HiVT [53]， QCNet[52]和[23]探索不同的协调系统。

(iii)引入先验知识。结合先验知识来解决多模态未来预测的复杂问题在最近的文献中越来越普遍。一些工作利用预定义的候选轨迹[34,38]或锚点[4,41]，通过聚类地面真相或与规划器生成。另一项研究涉及可驾驶区域内的采样目标，并利用两阶段预测管道[49,51,18,15,16]。DCMS[47]基于预测不会突然改变的假设引入了时间一致性约束。然而，这些方法通常需要额外的计算或具有更高的模型复杂性。

尽管在运动预测方面取得了重大进展，但最近的趋势是更大的架构复杂性和对先验知识的利用。在本研究中，我们探索了一个不同的提升绩效的方向，即自我监督学习。通过利用MAE框架的简单性，我们证明了我们提出的Forecast-MAE，采用具有最小先验知识的标准Transformers架构，与具有复杂设计的最先进的基于监督学习的方法相比，可以获得具有竞争力的性能

运动预测中的自监督学习。在运动预测中探索SSL的研究很少。据我们所知，VectorNet是最早整合了类似bert的[10]图完成任务，以更好地捕获代理和地图之间的交互的工作。然而，这是一个非常初步的尝试，并且将图补全作为辅助训练目标，与运动预测任务共同优化。PreTraM和SSL- lanes是最近系统地研究SSL的两个作品。PreTraM的作者认为，轨迹数据的稀缺性限制了SSL在运动预测中的应用。他们从整个地图中生成额外的局部地图补丁，并利用单模态和跨模态对比学习分别预训练地图和轨迹编码器。相比之下，我们的方法采用了一个完全不同的基于mae的框架，其中不同模态的表示是联合学习的。SSL- lanes证明SSL可以在不使用额外数据的情况下更好地学习潜在特征。它研究了四个借口任务，每个任务专注于一个特定的输入模式，如车道掩蔽或智能体的机动分类。然而，他们没有探索结合这些不同的任务或设计涉及多模态输入的借口任务。相反，所提出的Forecast-MAE通过设计学习跨模态互连，并且在很大程度上优于SSL-Lanes。

3. Methodology

我们提出了Forecast-MAE，一个简单整洁的基于mae的框架，用于运动预测任务的自监督预训练。预训练过程如图2所示。可见代理的历史/未来轨迹和车道段作为标记嵌入，然后用标准Transformers编码器进行处理。根据视觉MAE[20]的非对称设计，在解码器的输入序列中添加不同的掩码tokens，然后使用简单的预测头重建掩码轨迹和车道段。图2。我们Forecast-MAE的整体预训练方案。左侧显示了一个示例场景的屏蔽过程(两个代理在观察范围内是静态的)。我们随机屏蔽了整个代理的历史或未来轨迹，以及车道段。预训练方案如图所示。只有可见的历史，未来的轨迹和车道段将被嵌入到tokens中并由编码器处理。在解码器的输入序列中加入三种不同类型的掩码tokens，分别重建历史、未来轨迹和车道段。

3.1. Masking

与目前所有用于运动预测的自监督学习框架相比，我们利用智能体的未来轨迹作为预训练的额外输入。我们的实验表明，掩盖未来的轨迹是Forecast-MAE有效的一个关键方面。首先，道路地图最初被分割成不重叠的车道部分。然后，我们根据均匀分布随机屏蔽一个车道段子集。药剂的掩蔽技术略有不同。尽管随机屏蔽仍然用于智能体轨迹，但我们只屏蔽每个智能体的历史或未来轨迹(例如，40%的智能体保留其历史，而其余60%保留其未来)。我们把这个过程称为互补随机掩蔽。这种约束是合理的，因为当历史和未来的轨迹都被掩盖时，从单一姿态重建轨迹并不是一个有意义的借口任务。

3.2. Input Representation and Embedding

输入表示与嵌入

遵循流行的矢量化表示，我们将所有智能体的轨迹和车道段视为折线。具体来说，我们将N个agent的历史轨迹表示为AH∈R N×TH×CH，其中TH为历史帧数，CH为包含步进位移/速度差的历史特征通道，填充标志表示该帧的观测状态。同样，未来的轨迹记为AF∈R N×TF ×CF，其中TF为未来帧数，CF为未来的特征通道，包括归一化到agent当前位置的未来坐标和表示可用性的填充标志。不重叠的车道段记为L∈RM×P ×CL，其中M为目标agent在一定半径内的车道段数，P为每条折线的点数，CL为车道特征通道(如坐标、可用性)。注意，我们将每个车道折线的所有坐标归一化到其几何中心。

嵌入层的主要目标是将顺序特征编码为一维向量或标记，这些向量或标记可以由标准Transformer直接处理。

我们使用类似于LaneGCN的特征金字塔网络(FPN)[27]来融合多尺度智能体的运动特征。在每个尺度上采用一维邻域关注[19]提取局部运动特征。

agent的历史和未来特征是分开嵌入的。为了捕获更大范围的路线图，我们使用了一个轻量级的mini-PointNet[35]，主要包括mlp和最大池化层，来嵌入车道折线。

嵌入过程可表示为

其中TH、TF、TL分别为历史、未来、车道tokens，C为嵌入维数。

语义属性，如代理类别(例如，车辆、行人、骑自行车的人)或车道类型被初始化为可学习的嵌入，并添加到嵌入的tokens中。考虑到代理和车道特征的坐标是标准化的，在tokens中包含全局位置信息是至关重要的。位置嵌入(PE)是用[48]后面的一个简单的两层MLP实现的，表示为

式中(x, y， θ)为agent的最新观测位姿或lane polylines的几何中心位姿。在被自动编码器处理之前，PE被添加到tokens中。

3.3. AutoEncoder

自动编码器完全基于标准Transformers。编码器由几个Transformer块组成，只编码连接的可见代理和通道tokens，从而产生编码的潜在tokens TE∈R (N+M)×C。

根据MAE的非对称自编码器设计，将历史、未来和车道掩码M = (MH, MF, ML)与编码的潜在掩码一起作为解码器的输入序列，解码后输出解码后的掩码M ' = (M ' H, M ' F, M ' L)。位置嵌入被添加到完整的输入序列中，包括掩码标记。每种类型的掩码标记都是由相应类型的掩码元素共享的学习向量。自动编码过程表述为

解码后的掩码令牌随后用于通过简单的预测头重建掩码元素，该预测头在实践中被实现为线性投影层

3.4. Reconstruction Target

预测头预测历史/未来轨迹PH/F和车道折线PL的归一化二维坐标;

其中，α为agent的历史掩码比，β为车道段掩码比。我们使用L1损失LH、LF进行轨迹重建，使用均方误差(MSE)损失LL进行车道折线重建，其中wH、wF、wL分别对应损失权重。最后的损失是

3.5. Motion Forecasting

对于目标运动预测任务，我们采用了端到端微调方法。在微调过程中，对预训练模型进行了以下修改:(1)丢弃MAE解码器和掩码tokens;(2)从输入中剔除agent的未来特征，不进行掩蔽;(3)用多模态未来解码器代替pretext prediction heads。

Multi-modal decoder。鉴于智能体行为的多模态性质，运动预测需要产生多个潜在的未来预测，不同于隐藏的未来重建pretext task。为了保持一个整洁的框架和最小的感应偏置，我们使用一个简单的三层MLP实现多模态解码器。使用一个单独的三层MLP来生成每个预测的置信度得分。解码过程可以表示为

其中T ' H是编码的历史标记，K是输出模式的数量。预测的未来轨迹被归一化为每个智能体最近观察到的位置。

训练损失。我们采用广泛使用的Huber损失进行轨迹回归，采用交叉熵损失进行等权置信度分类。采用“赢者通吃”策略，即只对最优预测进行优化，使平均预测误差最小。

我们使用场景中存在的所有代理来计算损失。

4. Experiments

4.1. Experimental Setup

数据集。我们在最近发布的大规模Argoverse 2 (A V2)数据集上评估了所提出的框架。该数据集包括250K个非重叠场景，分别分为199,908、24,988和24,984个样本，用于训练、验证和测试。每个采样包含5秒的历史记录，并且需要预测未来6秒的时间，采样率为10hz。每个场景都包括一个需要预测的焦点轨迹代理，并为每个样本提供详细的高清地图补丁。我们选择在Argoverse 2数据集上进行评估，因为它提供了多样性和数据集大小之间的最佳平衡。

流行的Argoverse 1[5]数据集具有类似的大小，但缺乏场景多样性(例如，大多数车辆都是直行行驶)。相反地，《Argoverse 2》则打算变得更加多样化和复杂。另一个广泛使用的数据集，Waymo开放运动数据集(WOMD)[12]，具有类似的场景复杂性，但只包含不到一半的场景数量(104K)。我们认为，更大、更复杂的数据集更适合评估SSL框架。

指标。我们使用官方基准指标，包括minADE、minFDE、MR和brier-minFDE，如果没有指定，它们涉及六种预测模式。

实现细节。详细的模型架构和训练设置在补充部分提供。

4.2. Ablation Study

我们在Argoverse 2验证集上进行消融研究。缺省情况下，预训练历元设置为40，微调历元设置为30，历史和信道掩码比例设置为0.5，编解码器深度设置为4。预训练只在训练集上进行。

屏蔽率。图3描述了不同掩蔽比率的影响。在代理的历史和未来之间采用均衡的掩蔽比，范围从40%到50%，会导致最有利的结果，符合常识。我们假设智能体轨迹的平衡掩蔽比有助于防止模型学习有偏差的特征，并增强其对历史和未来运动之间双向关系的理解。极端历史掩蔽比(20%和80%)的性能进一步证明了这一点，它们的表现明显不佳。

预测- mae对车道掩蔽比相对不敏感，因为在较宽的比率范围内(30%至60%)表现良好。

然而，当信道掩蔽比超过70%时，性能受到明显影响。可能的原因是当掩蔽比超过70%时，大部分道路结构信息丢失，极大地增加了场景重建和从地图中提取几何特征的难度。相反，当通道掩蔽比低于20%时，ADE和FDE都显著增加。我们推断，当只有一小部分车道被遮挡时，可以很容易地通过附近的可见车道推断出被遮挡的车道。

屏蔽策略。与现有的SSL方法相比，我们的方法的一个独特之处在于在预训练期间引入了代理的未来轨迹作为额外的输入。各种输入和屏蔽策略的结果如表3所示。当仅使用车道掩蔽时，使用未来轨迹作为输入会产生显著差异(不使用未来的minADE为0.865，使用未来的minADE为0.828)。一种可能的解释是，该模型可以通过车道重建在车道和未来轨迹之间建立更好的联系，这有利于预测任务。有趣的是，如果我们使用未来作为输入而不掩盖它，仅仅掩盖历史表现甚至比从头开始训练更差(minADE 0.864/0.866 vs. 0.8314)。

一个合理的理由是，数据集旨在使智能体未来轨迹的分布多样化和多模态(例如，智能体开始通过十字路口)，而历史轨迹更简单，更可预测。模型可能会通过外推未来轨迹来走一条捷径来重建历史，从而导致无法从智能体的运动中学习到有意义的特征。因此，学习到的潜在特征对后续的预测任务是无用的，甚至是有害的。添加未来屏蔽立即解决了这个问题，minADE改进到0.820和0.814。所提出的互补掩蔽策略在各指标上均达到最佳性能。

深度编码器。一个相对深度的编码器是必要的，如表2所示。通过将编码器深度从2增加到4,minADE的性能提高了4.6%。添加更多的编码器层不会产生显著的差异。我们使用4的编码器深度作为默认设置，以便更好地权衡效率和性能。

4.3.Results

对于最终的排行榜提交，我们将解码器和编码器的深度都设置为4。历史掩蔽比和信道掩蔽比分别为0.4和0.5。我们将预训练和微调时间都设置为60。我们最终的运动预测模型简单轻巧，总共只有190万个参数。

与其他SSL方法的比较。我们将我们的方法与SSL- lanes进行比较，因为它是唯一使用矢量表示和SSL的公开方法。我们对其官方代码base1进行了最小的修改，以使其适应av2数据集。我们的实验利用了它的三个借口任务，特别是车道设置，到十字路口的距离(区域到内部)和成功-失败分类(S/F分类)。我们不执行机动分类借口任务，因为A V2缺少车道转向信息。表3(下一组)显示了在av2验证集上的比较结果。我们的Forecast-MAE在所有指标上都明显优于所有SSL-Lanes变体。值得注意的是，SSL-Lanes在验证集和测试集之间受到性能下降的影响，而我们的方法在两个集上都实现了一致的性能，甚至在测试集上的性能略好。这表明我们的方法通过基于mae的自监督预训练学习到更优、更广义的特征。

与最先进的比较。我们的Forecast-MAE使用标准Transformer模块和最小的先验知识开发，在排行榜上展示了令人印象深刻的性能，如表3所示。特别值得注意的是，我们的方法(w/o集成)在minADE1和minFDE1方面优于所有其他方法，包括集成模型，这表明它具有预测最可能的未来的优越能力。我们将此归因于SSL预训练方案，该方案要求模型重建最可能被掩盖的历史和未来轨迹。此外，Forecast-MAE (w/o ensemble)在所有非集成方法中获得了最好的minADE6，性能与QML (w/ ensemble)相当。通过采用包含我们框架的6个变体的集成策略(例如，不同的掩蔽比，编码器深度)，我们的集成模型在所有方法中实现了跨越6个指标的最佳性能。特别是，我们的集成模型在minFDE1方面比第二好的(GANet)高出7.5%。

与从零开始训练相比。调整后的模型与从头开始训练的模型的对比结果如表3所示。值得注意的是，尽管香草模型很简单，但它可以作为一个强大的基线。然而，我们的微调模型在所有指标上都优于基线，在没有使用额外数据或更复杂的模型的情况下，minADE1的性能提高了5.1%，minFDE1的性能提高了5.7%，minADE6和minFDE6的性能提高了2.4%。

当我们在预训练期间将智能体的未来轨迹作为输入时，一个合理的担忧是，经过微调的模型可能会从额外的训练迭代中受益。

为了解决这个问题，我们使用余弦学习率衰减对更多epoch的香草模型进行进一步训练。

表4中的结果表明，继续增加训练迭代并不能提高从零开始训练的模型的性能，这强调了预训练的重要性。

泛化能力。我们的方法在A V2基准测试中表现出较强的泛化能力，如表3所示。为了进一步研究这一点，我们设计了一个实验，其中训练和测试使用不同的数据分布。具体来说，我们将A V2数据集中涉及六个城市的所有场景划分为两个不同且不重叠的组。然后，我们仅在迈阿密、匹兹堡和奥斯汀的场景上训练或预训练模型，并在迪尔伯恩、帕罗奥图和华盛顿特区对它们进行评估。表5所示的结果表明，经过微调的模型在所有指标上都超过了基线，这表明自监督预训练能够学习到更多可推广的特征。

定性的结果。我们在A V2验证集上可视化微调模型的定性结果，如图4所示。由于篇幅有限，我们把更多的结果留给补充。

5. 结论

提出了一种简单、简洁的运动预测任务自监督预训练框架Forecast-MAE。基于MAE的非对称结构，我们设计了一种基于掩蔽策略的场景重构借口任务。通过在预训练过程中利用智能体轨迹的互补掩蔽和车道段的随机掩蔽，该模型获得了联合捕获双向智能体运动特征、道路几何特征和跨模态互联的能力。我们在具有挑战性的Argoverse 2基准上的实验表明，我们的predict - mae超越了监督学习方法和以前的自监督学习作品，特别是在minADE1和minFDE1方面，表明它具有预测最可能未来的卓越能力。

限制和讨论。我们工作的一个限制是缺乏对所提出方法的迁移学习或少镜头学习的探索(例如，在WMOD上的预训练和在A V2上的微调)。这种探索受到不同问题设置的阻碍，即不同数据集的观察/预测范围。此外，由于与计算机视觉或自然语言处理相比，公开可用的运动预测数据集的规模相对有限，我们无法确定Forecast-MAE的性能是否会随着训练数据和模型容量的增加而扩大。然而，通过从MAE和我们的最小归纳偏置设计中得出直觉，我们对这一点是肯定的。我们的方法可能对拥有大规模内部数据集的自动驾驶公司有利。虽然Forecast-MAE在设计简单的同时已经取得了较好的性能，但我们期待它可以进一步改进。从ViT[11]到swing - trainsformer[30]等技术的发展中汲取灵感，适当地结合归纳偏倚，如相对位置设计[53,8,52]或局部关注[37]，可以进一步提高Forecast-MAE的性能和效率。另一个可能的方向是在这项工作的基础上产生现实的交通场景。这些可能性留给未来的作品。

A.实现细节

Training. 对于所有实验，我们使用AdamW[31]优化器训练模型，权重衰减为1e-4，批处理大小为128，在4个gpu上。我们使用余弦学习率衰减，初始学习率是1e-3。所有变压器块的丢包率设置为0.2。我们使用以代理为中心的坐标系统，并且只考虑焦点代理150米范围内的代理和车道段。潜在特征维度设置为128。

Agent embedding. 代理嵌入，智能体的嵌入层是一个特征金字塔网络(FPN)，主要由邻域关注块(NA TBlock)和一维卷积网络组成，如图5所示。代理的输入形状为N ×50×4，它对应于一个跨越5秒的历史状态序列，以10hz的频率采样。每个状态包括代理相对于前一个时间戳的位移和速度差，以及指示观察状态的填充标志。NA TBlock具有与标准Transformer编码器块[42]相同的结构(多头自注意、add & norm和全连接层)，只是用1D邻域注意[19]取代了自注意。

所有下采样和上采样算子都是用一维卷积实现的，下/上采样比为2。在预训练阶段，我们为智能体的未来嵌入使用了相同的层(但是是单独的一层)。

Lane embedding. 车道嵌入使用官方Argoverse 2 API2获取非重叠车道段。每个单独的车道段被精确地插值为由20个点组成。每个点包含其二维坐标，相对于其几何中心进行标准化，以及表示其在焦点代理感兴趣的区域内存在的填充标志。车道嵌入层的架构遵循PointNet设计[35]，图6对其详细结构进行了全面描述。

Fine-tune.微调。我们对运动预测任务采用端到端微调方法，如图7所示的整体架构所示。在整个微调过程中，只有历史和车道特征被嵌入作为输入。随后，通过多模态解码器利用代理的编码历史令牌生成未来预测和相关置信度。

SSL-Lanes。为了使SSL-Lanes[1]适应Argoverse 2数据集，我们将历史和未来长度分别更改为50和60。考虑到更长的观测/预测范围，感兴趣的区域从100米增加到150米。我们采用SSL-Lanes的默认实验设置，如表8所示。

实验设置。我们在表6和表7中报告了Forecast-MAE预训练和微调阶段的默认设置。

B. Additional Results

更多数据集上的结果。我们提供了Argoverse 1[5]和WOMD[12]的初步实验结果。结果如表9所示。

更多的视觉结果和比较。我们将Forecast-MAE的性能与两个基线进行比较，即SSL-Lanes和Scratch(从头开始训练)。对比的可视化结果显示在图8中。与基线相比，我们的Forecast-MAE模型在方向和速度预测方面具有更高的准确性，即使在高速和高度交互的情况下也是如此。值得注意的是，我们的微调模型是唯一一个捕获场景(III)中车道变化行为的模型。此外，Forecast-MAE可以在确保精度的同时生成各种多模态预测，而其他方法通常预测不可行的轨迹。可视化结果提供了令人信服的证据，证明我们的方法在封装运动、道路几何和跨模态交互特征方面非常有效。

制作场景重建。我们展示了Argoverse 2验证集中的两个复杂场景的重建结果，使用我们的预训练模型，该模型的历史和车道掩蔽比为0.5。如图9(第一行)所示，预训练模型显示出恢复原始场景的卓越能力，包括智能体的历史和未来轨迹以及复杂的车道几何形状。有趣的是，即使在更高的车道掩蔽比下(图9中的第二行和第三行)，我们的模型也表现良好。尽管车道掩蔽比高达0.8，大部分车道结构都丢失了，但我们的模型仍然可以合理地重建大部分车道结构。

这些结果表明，我们的模型通过基于mae的自监督预训练学习到了丰富而深刻的场景表示。