[文献阅读笔记]：Forecast-MAE: Self-supervised Pre-training for Motion Forecasting with Masked Autoencoders

Way_X

已于 2024-02-02 15:49:09 修改

阅读量1.4k

点赞数 29

分类专栏：文献阅读报告文章标签：自动驾驶算法笔记人工智能

于 2024-02-02 15:41:17 首次发布

本文链接：https://blog.csdn.net/qq_41897558/article/details/135995094

版权

文章目录

文章地址：https://arxiv.org/pdf/2308.09882.pdf
代码仓库：https://github.com/jchengai/forecast-mae

1. 概述

文章标题已经表明了文章的主要创新点：self-supervised（自监督）、pre-training（预训练）、Masked-autoencoder（带mask的自编码器），之前的轨迹预测方法日趋成熟，总体架构日益稳定，整体的模型架构遵循编码器-交互层-解码器的范式。而本文将在CV与NLP中大方异彩的预训练方法：自监督学习（self-supervised learning，SSL）应用在了轨迹预测领域，另辟蹊径的寻求提高预测性能的方法。

什么是SSL，自监督学习：

自监督学习作为CV和NLP领域中的一种重要的预训练方法，通过学习（未打标、pretext任务、虚拟任务-由数据中衍生出来）数据中的潜在（隐藏）特征，来使模型具备通用性强的初始化参数，在此基础上fine-tuning模型可以获得较高的性能指标。

1.1 模型解决问题的方向

在当前轨迹预测方法由于追求高点数，而存在模型架构日趋复杂以及越来越多的引入高计算复杂度的先验的大环境下，本文通过引入自监督学习的方法，在不添加模型复杂度的前提下，为提升轨迹预测性能提供了可行性方向。

1.2 主要问题或挑战

如何在轨迹预测任务中使用自监督学习？

轨迹预测任务需要大量的标签数据，包括但不限于轨迹信息、地图信息；PreTraM提出从局部区域裁剪出一个栅格化地图（类似于multi-path内的语义地图）补丁来生成高清地图，通过对比学习来生成强图像编码器来提高数据量；SSL-Lanes，通过pretext任务，无需通过额外的数据就可以提高性能指标。
轨迹预测涉及到多模态输入，而传统的SSL仅涉及图像或者文本的单模态输入；PreTraM通过图像与文本的对比学习来实现多模态的互联

解决方法： MAE（Masked AutoEncoders），通过屏蔽掉一部分的输入数据，使用自编码器重建缺失部分数据；历史轨迹和预测轨迹使用互补的mask方法，只mask历史轨迹或者只mask预测轨迹，随机mask车道线。

为什么要采用这种mask方法：

模型通过去学习历史轨迹与预测轨迹的互相转换，可以建立历史轨迹与预测轨迹之间更为鲁棒性的联系。

模型通过使用周围残缺的车道线以及轨迹信息，重建周围的车道线，提高模型多模态预测的能力。

1.3 主要结论和贡献

基于MAE的自监督学习在轨迹预测领域的成功应用。
通过一个简单高效的mask策略，在预训练模型中捕获（历史和未来）双向运动之间的联系以及提高模型跨模态信息交互（场景重建）的能力。
通过上述方法，在不提高模型复杂度以及引入更多先验的基础上，使用简单的Transformer blocker就可以获得较高的性能指标。

2. 模型

2.1 Pre-training 模型架构与方法

Input：

N个障碍物的历史轨迹 $A_H\in \mathbb{R}^{N\times{T_H}\times{C_H}}$ ，其中N为agents的数量、 $T_H$ 为历史轨迹的帧数、 $C_H$ 为历史轨迹的特征（x，y方向上的位移偏差和速度偏差以及可见状态的flag）；
N个障碍物的未来轨迹 $A_F\in \mathbb{R}^{N\times{T_F}\times{C_F}}$ ， $T_F$ 为未来轨迹的帧数、

最低0.47元/天解锁文章