Forecast-MAE: Self-supervised Pre-training for Motion Forecasting with Masked Autoencoders 论文翻译

摘要: 本研究探索了自监督学习(SSL)应用于运动预测任务的可能性,尽管SSL在计算机视觉和自然语言处理领域已取得广泛成功,但其在运动预测领域的探索仍相对有限。为填补这一空白,我们引入了Forecast-MAE,这是一个针对运动预测任务特别设计的掩码自动编码器框架的扩展。我们的方法包括一种新颖的遮蔽策略,利用代理轨迹与道路网络之间的强联系,通过互补遮蔽代理的未来或历史轨迹以及随机遮蔽车道段来实现。我们在具有挑战性的Argoverse 2运动预测基准上的实验表明,Forecast-MAE在几乎不引入归纳偏见的情况下,与依赖监督学习和复杂设计的最新方法相比表现出竞争性的性能,并且显著优于之前的自监督学习方法。此外,我们还证明了其优于先前的自监督学习方法。相关代码已在https://github.com/jchengai/forecast-mae上提供。

我们的主要贡献可以概括为:首次提出了一种针对运动预测任务的自监督学习的掩码自动编码框架,通过预训练显著提升了从头开始训练的性能,而无需额外数据或伪标签。我们引入了一种简单而有效的遮蔽方案,有助于学习双向运动连接和跨模态关系。我们展示了我们的方法,完全基于标准Transformers且几乎不引入归纳偏见,能够在具有挑战性的Argoverse
2基准上与依赖监督学习和复杂设计的最新方法相比表现出竞争力,并显著超越以往的自监督学习方法。我们的发现表明自监督学习是运动预测领域一个有前景的方法,我们期待这将激发更广泛的兴趣。


1. 引言

运动预测是一个迅速发展的研究领域,对于先进的自动驾驶系统至关重要【22】。这项任务涉及预测其他车辆和行人的未来轨迹,同时考虑到复杂的交互和道路布局。代理(agents)固有的多模态驾驶行为以及多样化的道路网络,使得运动预测成为一个特别具有挑战性的任务。

自监督学习(SSL)是一种创新方法,它能够从未标记的数据中获取有价值的潜在特征。通过在预文本任务和数据派生的伪标签上预训练模型,并随后在下游任务上进行微调,SSL已经展示了学习更广泛和适应性更强的潜在特征的能力,从而在计算机视觉【3】和自然语言处理(NLP)【10】中取得了显著进展。然而,尽管SSL在计算机视觉和NLP中广受欢迎和成功,但在运动预测领域的探索却相对有限。我们确定了将SSL集成到运动预测中的两个主要挑战:

(i) 运动预测的预训练需要注释数据,这使其与计算机视觉和NLP领域不同,在那些领域中,未标记的原始输入很容易获得。在运动预测中,我们依赖于注释的跟踪序列和手工制作的高清地图,这些通常是通过昂贵的车载传感器收集并需要人工注释的【5,44,12】。这对于扩大自监督预训练——SSL成功的一个关键方面——构成了挑战。为了应对这一挑战,最近的工作PreTraM【45】提出了生成额外的光栅化地图块(28.8M),这些地图块从整个HD地图的局部区域裁剪出来,以训练具有对比学习的健壮地图编码器。尽管这种方法与基线相比取得了显著的性能改进,但它仅限于基于光栅化地图表示的模型,与最近的基于矢量或基于图的模型相比,性能差距显著。然而,另一项开创性工作SSL-Lanes【1】证明,通过设计精心设计的预文本任务,可以在不使用额外数据的情况下显著提高性能,通过学习更丰富的特征。在本文中,我们遵循这种方法,使用现有数据集学习更好、更通用的特征。

(ii) 运动预测任务涉及整合多种模态输入,如静态地图特征、时空代理运动特征和语义场景上下文【40,26,13,4,37,51,29,9,53】。尽管各种自监督学习方法已成功处理单模态输入,如图像【3】、文本【10】或点云【48,33】,但开发涉及跨模态互连的预文本任务并非易事。SSL-Lanes专注于为每个特定输入模态设计预文本任务,如车道节点掩蔽或代理机动分类。然而,它们没有探索这些不同任务的组合,或开发明确涉及多模态输入的预文本任务。PreTraM的作者从CLIP【36】的跨模态对比学习框架(涉及文本和图像)中汲取灵感,设计了一种通过将批量的(地图,轨迹)训练实例配对来预训练地图和轨迹编码器的技术。然而,他们的方法仅涵盖了历史轨迹-地图连接,因此限制了模态互联系的范围到特定类型。本研究通过采用掩码自动编码器框架来应对这一挑战,该框架可以在统一的场景重构任务中整合所有跨模态依赖。
在这里插入图片描述

图1. Argoverse 2验证场景上的重构结果。(a) 原始场景。(b)
使用互补掩码策略遮蔽50%代理的轨迹(要么是历史,要么是未来被遮蔽)。随机遮蔽50%的车道段。©
由所提出的Forecast-MAE重构的场景。

掩码自动编码器(MAE)【20】因其在基于图像的自监督学习中取得的最新成就而受到广泛关注。这种方法涉及到遮蔽输入数据的一部分,并使用自动编码器结构重构缺失的部分。MAE的有效性也在其他领域得到了证明,如音频【21】和点云【33】。一个引人注目的问题是:我们能将MAE扩展到运动预测吗?事实上,运动预测本身可以被视为一个掩蔽和重构任务,其中代理的未来轨迹被遮蔽并预测。基于代理的历史和未来轨迹与道路网络之间的强相关性,我们进一步将这一概念扩展到整个场景重构。具体来说,我们以互补方式遮蔽代理的历史轨迹或未来轨迹(即,要么遮蔽历史,要么遮蔽未来),并随机遮蔽不重叠的车道段,如图1所示。这种遮蔽方案有几个优点。首先,模型必须学习如何从过去的运动中重构未来,并反过来从未来推断历史,同时对车道结构的访问受到限制。这个预文本任务允许模型建立过去和未来运动之间的稳健双向关系。其次,模型学习通过共同利用相邻可见的车道、代理的历史和未来轨迹来重构车道段,从而建立更深层次的跨模态理解。为此,我们引入Forecast-MAE,一个为自监督学习运动预测任务特别设计的掩码自动编码器框架扩展。我们的方法包括一个新颖的遮蔽设计,利用代理轨迹和道路网络之间的强依赖性。尽管简单且几乎不包含归纳偏差,我们提出的Forecast-MAE在具有挑战性的Argoverse 2(AV2)运动预测基准上表现强劲,并且显著超过了之前的自监督学习方法。我们的贡献可以总结如下:

  • 我们提出了第一个针对运动预测任务的自监督学习的掩码自动编码框架。我们的方法通过预训练,而不需要额外的数据或伪标签,显著提高了运动预测的性能。
  • 我们介绍了一种简单而高效的遮蔽方案,促进了模型学习双向运动连接和跨模态关系的能力,这一切都集中在单一的重构预文本任务中。
  • 我们展示了我们的方法,完全基于标准的Transformers且几乎不包含归纳偏见,能够在具有挑战性的Argoverse 2基准上与依赖监督学习和复杂设计的最新方法相媲美,并且显著优于之前的自监督学习方法。
  • 我们的发现表明,自监督学习可以成为运动预测的一个有前景的方法,我们期待这可能激发该领域更大的兴趣。

该部分概述了运动预测的重要性,介绍了自监督学习在该领域的应用,以及通过提出一种新的自监督预训练框架——Forecast-MAE,来解决运动预测中存在的挑战。此外,还总结了本文的主要贡献。

第二章概述了运动预测领域的发展,特别关注场景表示、模型架构的改进以及引入先验知识三个方面的进步。


2. 相关工作

运动预测。 近年来,随着自动驾驶汽车的兴趣日增,以及标准基准的广泛可用性,运动预测模型的性能得到了显著提高。在此,我们简要概述了推动其改进的三个关键方面。

(i) 场景表示的改进。 在早期,通常使用栅格化的自顶向下语义图像作为场景表示,并使用现成的图像编码器进行学习【40,34,4,15】。尽管这种基于图像的表示方法简单且统一,但它不可避免地在栅格化过程中丢失了详细的结构信息。VectorNet【13】引入了矢量化表示,由于其更高的表示能力和显著更强的性能,矢量化表示的受欢迎程度显著提高。此外,图【26,49,9,16,25】也被广泛用作另一种有前途的场景表示方法。TPCN【46】作为一种独立方法,通过将代理的轨迹和车道视为点云来取得了令人印象深刻的结果。

(ii) 模型架构的改进。 早期基于栅格化方法自然依赖于成熟的卷积网络。后来,受到Transformer【42】的卓越性能的启发,注意力机制被广泛用于交互建模和信息聚合,鉴于其更好的灵活性和效率。一些工作【32,29,53,17】直接采用了transformers进行预测,并取得了满意的结果。最近的工作MTR【37】基于最先进的视觉对象检测架构DETR【2】,实现了最新的性能。图神经网络(GNN)领域的进展也被广泛探索【49,16,25,9,6,28,7】。LaneGCN【26】修改了图卷积操作,专门用于车道图编码。HDGT【24】使用异构图编码不同类型的代理和地图元素。HiVT【53】、QCNet【52】和【23】探索了不同的坐标系统。

(iii) 引入先验知识。 在处理多模态未来预测的复杂问题时,越来越多的研究通过引入先验知识。一些工作利用预定义的候选轨迹【34,38】或锚点【4,41】,通过对真实轨迹进行聚类或使用规划器生成。另一线研究涉及在可行驾驶区域内采样目标,并采用两阶段预测管道【49,9,51,18,15,16】。DCMS【47】引入了基于假设预测不应突然改变的时间一致性约束。然而,这些方法通常需要额外的计算或具有更高的模型复杂性。尽管运动预测的性能显著提高,但最近的趋势是向更复杂的架构和利用更多先验知识方向发展。在本研究中,我们探索了一种不同的方向来提高性能,即自监督学习。通过利用简单的MAE框架,我们证明了我们提出的Forecast-MAE,使用标准的transformer架构和最少的先验知识,就能与最先进的基于监督学习的方法及其复杂设计相竞争。

自监督学习在运动预测中的应用。 目前,只有少数研究探讨了自监督学习(SSL)在运动预测中的应用。据我们所知,VectorNet是最早将类似BERT【10】的图完成任务结合起来,以更好地捕捉代理和地图之间相互作用的工作。然而,这只是一个初步尝试,并且图完成被视为与运动预测任务共同优化的辅助训练目标。PreTraM和SSL-Lanes是两项最近的系统性研究SSL的工作。PreTraM的作者认为,轨迹数据的稀缺限制了SSL在运动预测中的应用。他们通过从整个地图中生成额外的局部地图块,并利用单模态和跨模态对比学习分别预训练地图和轨迹编码器。与此相反,我们的方法采用了完全不同的基于MAE的框架,其中不同模态的表示是联合学习的。SSL-Lanes展示了SSL能够在不使用额外数据的情况下学习更好的潜在特征。它研究了四个预文本任务,每个任务专注于一个特定的输入模态,例如车道掩蔽或代理机动分类。然而,它们没有探索将这些不同任务结合起来,或设计涉及多模态输入的预文本任务。相比之下,我们提出的Forecast-MAE通过设计学习跨模态连接,并且在所有指标上大幅度超过SSL-Lanes。


该部分概述了运动预测领域的主要研究进展,包括场景表示的改进、模型架构的优化、引入先验知识以及自监督学习在运动预测中的应用。特别强调了自监督学习如何通过预文本任务和模型预训练来提升模型的泛化能力和预测精度,以及本研究如何在这一基础上进一步发展,提出了Forecast-MAE框架来解决运动预测的特定挑战。

3. 方法论

我们提出了Forecast-MAE,一个基于简洁而整洁的MAE框架的自监督预训练方法,专为运动预测任务设计。预训练过程如图2所示。可见的代理历史/未来轨迹和车道段被嵌入为token,并通过标准transformer编码器进行处理。遵循视觉MAE【20】的不对称设计,不同的掩码token被添加到解码器的输入序列中,后用于通过简单的预测头重构被掩码的轨迹和车道段。

在这里插入图片描述

图2.
我们的Forecast-MAE的整体预训练方案。左侧展示了一个示例场景的掩码过程(两个代理在观察范围内保持静止)。我们随机掩盖了整个代理的历史或未来轨迹以及车道段。预训练方案展示在右侧。只有可见的历史、未来轨迹和车道段被嵌入为token并由编码器处理。三种不同类型的掩码token被添加到解码器的输入序列中,用于分别重构历史、未来轨迹和车道段。

3.1. 掩码

与当前所有自监督学习框架不同,我们将代理的未来轨迹作为预训练的额外输入。我们的实验揭示,掩码未来轨迹对于Forecast-MAE的有效性至关重要。首先,道路地图被初始分割成不重叠的车道段。然后,我们根据均匀分布随机掩码一部分车道段。代理轨迹的掩码技术略有不同。尽管对代理轨迹采用随机掩码,但我们仅掩码每个代理的历史或未来轨迹(例如,40%的代理保留其历史,而剩余的60%保留其未来)。我们将此过程称为互补随机掩码。这种约束是有意义的,因为从单一姿态重构轨迹并不是一个有意义的预文本任务。

3.2. 输入表示和嵌入

遵循流行的矢量化表示,我们将所有代理的轨迹和车道段视为多段线。具体来说,我们将N个代理的历史轨迹表示为
A H ∈ R N × T H × C H A^H \in \mathbb{R}^{N \times T_H \times C_H} AHRN×TH×CH
,其中 T H T_H TH是历史帧数, C H C_H CH是历史特征通道,包括逐步位移/速度差异和一个填充标志,指示此帧的观察状态。类似地,未来轨迹表示为
A F ∈ R N × T F × C F A^F \in \mathbb{R}^{N \times T_F \times C_F} AFRN×TF×CF
,其中 T F T_F TF是未来帧数, C F C_F CF是未来特征通道,包括相对于代理当前位置的未来坐标和一个填充标志,指示可用性。非重叠车道段表示为
L ∈ R M × P × C L L \in \mathbb{R}^{M \times P \times C_L} LRM×P×CL
,其中M是目标代理一定半径内的车道段数,P是每条多段线的点数, C L C_L CL是车道特征通道(例如,坐标可用性)。注意,我们将每条车道多段线的所有坐标都归一化到其几何中心。

嵌入层的主要目标是将序列特征编码为一维向量或token,这些可以直接由标准Transformer处理。我们使用一个与LaneGCN相似的特征金字塔网络(FPN)【27】来融合多尺度代理运动特征。在每个尺度上使用1D邻域注意力【19】来提取局部运动特征。

代理的历史和未来特征分别嵌入。为了捕获道路图的更广范围,我们使用一个轻量级的mini-PointNet【35】,主要由MLPs和最大池化层组成,来嵌入车道多段线。嵌入过程可以表示为:

T H = F P N ( A H ) T^H = FPN(A^H) TH=FPN(AH)

T F = F P N ( A F ) T^F = FPN(A^F) TF=FPN(AF)

T H F ∈ R N × C T^{HF} \in \mathbb{R}^{N \times C} THFRN×C

T L = M i n i P o i n t N e t ( L ) T^L = MiniPointNet(L) TL=MiniPointNet(L)

T L ∈ R M × C T^L \in \mathbb{R}^{M \times C} TLRM×C

其中, T H , T F , T L T^H, T^F, T^L TH,TF,TL分别代表历史、未来、车道的token,C是嵌入维度。

代理的类别(例如,车辆、行人、自行车手)或车道类型的语义属性被初始化为可学习的嵌入,并添加到嵌入的token上。考虑到代理和车道特征的坐标被归一化,包含全局位置信息在token中至关重要。位置嵌入(PE)通过一个简单的两层MLP实现,如下所示:

P E = M L P [ x , y , c o s ( θ ) , s i n ( θ ) ] PE = MLP[x, y, cos(\theta), sin(\theta)] PE=MLP[x,y,cos(θ),sin(θ)]

P E ∈ R C PE \in \mathbb{R}^{C} PERC

其中, ( x , y , θ ) (x, y, \theta) (x,y,θ)代表代理的最后观测姿态或车道多段线的几何中心姿态。PE被加到autoencoder处理之前的token上。

3.3. 自动编码器

自动编码器完全基于标准Transformers。编码器由若干个Transformer块组成,仅对可见的代理和车道token进行编码,得到编码的潜在token T E ∈ R ( N + M ) × C T^E \in \mathbb{R}^{(N+M) \times C} TER(N+M)×C

遵循MAE的不对称自动编码器设计,历史、未来和车道掩码token M = ( M H , M F , M L ) M = (M^H, M^F, M^L) M=(MH,MF,ML)与编码的潜在token作为解码器的输入序列一起添加,之后输出解码的掩码token M ′ = ( M ′ H , M ′ F , M ′ L ) M' = (M'^H, M'^F, M'^L) M=(MH,MF,ML)。包括掩码token在内的完整输入序列都添加了位置嵌入。每种类型的掩码token是一个由相应类型的掩码元素共享的学习向量。自动编码过程可以表示为:

T E = E n c o d e r ( c o n c a t ( T H , T F , T L ) + P E ) T^E = Encoder(concat(T^H, T^F, T^L) + PE) TE=Encoder(concat(TH,TF,TL)+PE)

M ′ = D e c o d e r ( c o n c a t ( T E , M ) + P E ) M' = Decoder(concat(T^E, M) + PE) M=Decoder(concat(TE,M)+PE)

解码的掩码token随后用于通过简单的预测头重构被掩码的元素,实践中通常实现为线性投影层。

3.4. 重构目标

预测头预测历史/未来轨迹的归一化二维坐标 P H / F P^H/F PH/F 和车道多段线 P L P^L PL

P H = P r e d i c t i o n H e a d ( M ′ H ) P^H = PredictionHead(M'^H) PH=PredictionHead(MH)

P H ∈ R α N × T H × 2 P^H \in \mathbb{R}^{\alpha N \times T_H \times 2} PHRαN×TH×2

P F = P r e d i c t i o n H e a d ( M ′ F ) P^F = PredictionHead(M'^F) PF=PredictionHead(MF)

P F ∈ R ( 1 − α ) N × T F × 2 P^F \in \mathbb{R}^{(1-\alpha)N \times T_F \times 2} PFR(1α)N×TF×2

P L = P r e d i c t i o n H e a d ( M ′ L ) P^L = PredictionHead(M'^L) PL=PredictionHead(ML)

P L ∈ R β M × P × 2 P^L \in \mathbb{R}^{\beta M \times P \times 2} PLRβM×P×2

其中, α \alpha α是代理历史掩码比率, β \beta β是车道段掩码比率。我们使用L1损失 L H , L F L^H, L^F LH,LF 来进行轨迹重构,以及均方误差(MSE)损失 L L L^L LL 来进行车道多段线重构, w H , w F , w L w^H, w^F, w^L wH,wF,wL 分别对应损失权重。最终的损失为:

L M A E = w H L H + w F L F + w L L L L^{MAE} = w^H L^H + w^F L^F + w^L L^L LMAE=wHLH+wFLF+wLLL

3.5. 运动预测

针对目标运动预测任务,我们采用端到端的微调方法。在微调过程中,我们进行了以下修改:(1) 我们移除了MAE解码器和掩码token;(2) 从输入中去除了代理的未来特征,并且不使用掩码;(3) 将预文本预测头替换为多模态未来解码器。

多模态解码器。考虑到代理行为的多模态性质,运动预测需要产生多个潜在的未来预测,这与掩码未来重建的预文本任务有所不同。为了保持框架的简洁性和最小的归纳偏置,我们使用一个简单的三层MLP实现多模态解码器。另一个独立的三层MLP用于为每个预测生成置信度得分。解码过程可以表示为:

P T r a j = M L P ( T ′ H ) P^{Traj} = MLP(T'^H) PTraj=MLP(TH)

P T r a j ∈ R N × K × T F × 2 P^{Traj} \in \mathbb{R}^{N \times K \times T_F \times 2} PTrajRN×K×TF×2

其中, T ′ H T'^H TH是编码的历史token,K是输出模式的数量。预测的未来轨迹相对于每个代理的最后观察位置进行归一化。

训练损失。我们采用广泛使用的Huber损失进行轨迹回归,以及交叉熵损失进行置信度分类,这两种损失权重相等。采用胜者全拿(winner-take-all)策略,仅优化与真实轨迹平均预测误差最小的最佳预测。我们计算场景中所有代理的损失。

4. 实验

4.1 实验设置

数据集。我们在最新发布的大规模Argoverse 2 (AV2)数据集上评估了所提出的框架。该数据集包含250K个不重叠的场景,分为199,908个训练样本,24,988个验证样本和24,984个测试样本。每个样本包含5秒的历史信息,并需要预测未来6秒的轨迹,采样率为10Hz。每个场景包括一个需要预测的焦点轨迹代理,并为每个样本提供了详细的高清地图补丁。我们选择在Argoverse 2数据集上进行评估,因为它在多样性和数据集大小之间提供了最佳平衡。Argoverse 1【5】数据集的大小相似,但缺乏场景多样性(例如,大多数车辆直行)。相比之下,Argoverse 2旨在更加多样化和复杂。另一个广泛使用的数据集是Waymo开放运动数据集(WOMD)【12】,具有类似的场景复杂性,但包含的场景数量不到一半(104K)。我们认为,更大、更复杂的数据集更适合评估自监督学习框架。

度量标准。我们使用官方基准指标,包括minADE、minFDE、MR和brier-minFDE,这些指标引用了六种预测模式(如果没有特别说明)。

实施细节。详细的模型架构和训练设置在补充材料中提供。

4.2 消融研究

我们在Argoverse 2验证集上进行了消融研究。默认情况下,预训练epoch设置为40,微调epoch为30,历史和车道掩码比例为0.5,编码器和解码器深度为4。预训练仅在训练集上进行。

掩码比率。图3展示了不同掩码比率的影响。采用平衡的掩码比率,即代理的历史和未来之间的掩码比率在40%到50%之间,可以获得最佳结果,这符合常理。我们认为,对代理轨迹进行平衡掩码有助于模型避免学习到偏置的特征,并提高对历史和未来运动之间双向关系的理解。特别是,当历史掩码比率达到极端值(20%和80%)时,性能显著下降。

对于车道掩码比率,Forecast-MAE对于较宽的比率范围(30%到60%)表现出相对不敏感性。然而,当车道掩码比率超过70%时,性能显著下降。可能的原因是,当超过70%的车道结构被掩码时,大部分道路结构信息丢失,极大增加了场景重建和地图几何特征提取的难度。相反,当车道掩码比率低于20%时,ADE和FDE也显著增加。我们推断,当只有少数车道被掩码时,模型可以轻松地通过附近可见的车道推断出被掩码的车道。

掩码策略。我们的方法与现有的SSL方法相比,一个独特之处在于在预训练期间引入代理的未来轨迹作为额外输入。各种输入和掩码策略的结果见表3。当仅使用车道掩码时,未来轨迹作为输入使得性能显著提高(minADE为0.865,不使用未来时为0.828)。可能的解释是,模型通过车道重建建立了更好的车道与未来轨迹之间的联系,这对预测任务有益。有趣的是,如果我们使用未来作为输入但不对其进行掩码,仅掩码历史,性能甚至比从头训练更差(minADE为0.864/0.866对比0.8314)。合理的解释是,数据集旨在使代理的未来轨迹分布多样化和多模态(例如,代理开始通过交叉口),而历史轨迹则更简单和可预测。模型可能采取捷径,通过外推未来轨迹来重构历史,导致未能学习到有意义的特征。引入未来掩码立即解决了这一问题,minADE提高到0.820和0.814。我们提出的互补掩码策略在所有指标上均获得最佳性能。

编码器深度。适当深度的编码器是必要的,如表2所示。通过将编码器深度从2增加到4,minADE的性能提高了4.6%。增加更多的编码器层并没有显著差异。我们选择编码器深度为4作为默认设置,因为它提供了更好的效率-性能权衡。

4.3 结果

为最终排行榜提交,我们使用了编码器和解码器深度为4,历史和车道掩码比率分别为0.4和0.5。我们将预训练和微调epoch都设置为60。我们的最终运动预测模型简单轻量,总共只有1.9M参数。

与其他SSL方法比较,我们的方法与SSL-Lanes【1】进行了比较,
因为它是唯一一种使用矢量表示和SSL的公开方法。我们对其官方代码库进行了最小修改,以适应AV2数据集。我们的实验使用了其三种预文本任务:车道掩蔽、交叉口距离(Dist. to Inter.)和成功/失败分类(S/F Classification)。我们没有实现AV2缺少的车道转向信息的机动分类预文本任务。表3(下半部分)显示了在AV2验证集上与SSL-Lanes各种变体的比较结果。我们的Forecast-MAE在所有指标上显著优于所有SSL-Lanes变体。值得注意的是,SSL-Lanes在验证集和测试集之间的性能下降,而我们的方法在两个集合上都表现一致,甚至在测试集上表现稍好。这表明我们的方法通过MAE基础的自监督预训练学习到了更优越和更泛化的特征。

与最新技术的比较。我们的Forecast-MAE展示了在排行榜上的印象深刻表现,如表3(上半部分)所示。特别是,我们的方法(无集成)在minADE1和minFDE1上超越了所有其他方法,包括使用集成模型的方法,这表明它在预测最可能的未来方面具有卓越的能力。我们认为,这得益于我们的SSL预训练方案,它要求模型重构最可能的被掩码历史和未来轨迹。此外,Forecast-MAE(无集成)在minADE6上在所有非集成方法中表现最好,并与QML(带集成)相媲美。通过采用包含6种变体的集成策略(例如,不同的掩码比率、编码器深度),我们的集成模型在所有方法中所有六个指标上表现最佳。特别是,我们的集成模型在minFDE1上比第二名(GANet)高出7.5%。

与从头开始训练的比较。我们的微调模型与从头开始训练的基线模型相比,在所有指标上都有所改善,展现了5.1%的提升在minADE1、5.7%在minFDE1、2.4%在minADE6和minFDE6上,而没有使用额外的数据或更复杂的模型。我们在预训练期间将代理的未来轨迹作为输入,有可能担心微调模型可能从额外的训练迭代中受益。为了解决这一点,我们对从头开始训练的基线模型进行了更多epoch的训练,使用余弦学习率衰减。

结论

我们提出了Forecast-MAE,一个简单而整洁的自监督预训练框架,专为运动预测任务设计。通过采用MAE的不对称架构,我们设计了一种场景重构预文本任务,采用了一种新颖的掩码策略。通过在具有挑战性的Argoverse 2基准上的实验,我们展示了Forecast-MAE超越了基于监督学习的方法和之前的自监督学习工作,尤其在预测最可能的未来方面表现卓越。

  • 15
    点赞
  • 21
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

技术宅学长

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值