目录
摘要
准确预测周围交通参与者的未来运动对于自动驾驶车辆的安全至关重要。最近,矢量化方法由于能够捕捉交通场景中的复杂交互而在运动预测领域占据主导地位。然而,现有的方法忽略了问题的对称性并且受到昂贵的计算成本的影响,面临着在不牺牲预测性能的情况下进行实时多主体运动预测的挑战。为了应付这一挑战,我们提出了用于快速准确的多智能体运动预测的分层矢量Transformer(HiVT)。通过将问题分解为局部上下文提取和全局交互建模,我们的方法可以有效且高效地对场景中的大量参与者进行建模。同时,我们提出了平移不变的场景表示和旋转不变的空间学习模块,提取对场景的几何变换具有鲁棒性的特征,并使模型能够在单个前向传递中对多个智能体进行准确的预测。实验表明HiVT在Argoverse运动预测基准上以较小的模型尺寸实现了最先进的性能,并且可以进行快速的多智能体运动预测。
1.介绍
以安全的方式在动态环境中导航是自动驾驶汽车的一项重要任务。为此,自动驾驶汽车需要了解周围环境并预测道路未来。然而,准确预测附近目标或意图可能未知的交通主体(比如车辆/自行年/行人)的未来运动具有挑战性。在多智体流量场景中,参与者的行为是由其他