Forecast-MAE: Self-supervised Pre-training for Motion Forecasting with Masked Autoencoders
这项工作发布于2023年的ICCV,作者团队来自于香港科技大学。
Abstract
这项工作是将自监督学习(Self-Supervised Learning,SSL)引入到运动预测任务当中的一次尝试,自监督学习目前已经在计算机视觉和自然语言处理两大领域中得到了广泛的使用,但是尚且没有工作将自监督学习引入到自动驾驶运动预测任务当中。
本文提出了Forecast-MAE,它是一种对掩码自编码器架构(mask autoencoders framework)的拓展,专门设计用于将自监督学习引入到运动预测任务当中。
本文方法使用了一种新颖的掩码策略,它充分地利用了代理历史轨迹与道路网络之间的强相互关联,其中包括互补地对代理未来或历史轨迹施加掩码,或随机地对车道段施加掩码。
在Argoverse Motion Forecasting v2数据集上的实验结果验证了Forecast-MAE的有效性,它使用标准的Transformer blocks作为模型基本架构,确保最小的归纳偏置,并达到了与使用监督学习以及复杂模型设计的SOTA方法的相近结果。
此外,Forecast-MAE的性能完全优于过去该领域当中的自监督方法。
Forecast-MAE本身是开源的,详情可见原文相关链接。
Contributions
- 据作者所知,本文方法是第一个使用masked autoencoding framework来解决自动驾驶运动预测问题的方法。本文方法不需要额外的数据或是伪标签,而是通过预训练任务,可以极大程度地提升模型在运动预测任务上的性能。
- 本文方法提出了一种直接并且高效的掩码策略,有助于仅借助单个代理任务来学习双向运动关联以及跨模态关联。
- 本文所使用的模型是基于Transformer的,它具有最小的归纳偏置,其可以在Argoverse v2 benchmark上达到与有监督学习相近的结果,并且其性能远优于其它自监督学习方法。
- 本文研究的结果表明,自监督学习是运动预测任务的一个可行方向,作者期待后续在自监督学习与运动预测任务相结合的方向上有更优秀的工作出现。
Conclusion
本文提出了Forecast-MAE,它是一种简单并且简洁的自监督预训练框架,用于解决自动驾驶运动预测任务。基于MAE对称的结构设计,本文设计了一种基于新型掩码策略的场景重建代理任务。通过在预训练过程中使用代理轨迹当中互补的掩码,以及道路段的随机掩码,模型可以学习到对双向代理运动特征、道路几何特征以及跨模态交互特征的捕捉能力。
于Argoverse v2数据集上的实验结果验证了本文方法的有效性。Forecast-MAE的性能不仅超过了之前所有的自监督学习方法,并且其性能优于大部分的有监督学习方法,特别是在 m i n F D E 1 minFDE_1 minFDE1和 m i n A D E 1 minADE_1 minADE1两项指标上,并且Forecast-MAE可以预测出与现实状况更接近的未来轨迹。