Real-Time Motion Prediction via Heterogeneous Polyline Transformer with Relative Pose Encoding
这项工作发布于2023年的NeuraIPS,作者团队来自于ETH Zurich。
Abstract
自动驾驶系统在真实环境中的部署需要其中的组件能够实时运行,其中包括能够对自动驾驶车辆周围其它交通参与者的未来轨迹进行预测的运动预测模块。
现有的以代理为中心的方法已经在多项公开数据集上取得了非常好的结果。然而,这类方法大多具有较高的计算开销,并且它们的可拓展性会随着自动驾驶汽车周围交通参与者数量的增加而降低。
为了解决上述问题,本文提出了一种带有相对位置编码的K近邻注意力(K-nearest Neighbor Attention with Relative Pose Encoding,KNARPE),它是一种新颖的注意力机制,使得Transformers当中可以利用实体之间的成对相对表示(pairwise-relative representation)。
之后,基于KNAPRE,本文提出了一种带有相对姿态编码的异构折线Transformer(Heterogeneous Polyline Transformer with Relative pose encoding。HPTR),它是一种层级的框架,使得异步的token可以于在线推理期间得到更新。
通过在代理之间共享并复用不变的上下文,本文方法与scene-centric方法同样高效,并且其性能达到了与agent-centric方法相近的SOTA水准。
于Waymo Open Motion Dataset和Argoverse v2 Dataset之上的实验验证了HPTR性能的有效性,并且验证了HPTR是一种不需要数据尾处理和模型集成的端到端方法。
HPTR是开源的,详情可见原文相应链接。
Contributions
- 本文提出了KNARPE,它是一种新颖的注意力机制,使得基于Transformer的模型框架可以利用实体之间的成对相对表示;
- 基于KNARPE,本文进一步提出了HPTR,它是一种层级的框架,可以通过在代理之间进行上下文共享来最大程度上减少计算的开销,并且于在线推理期间可以对异步的token进行更新;
- 与SOTA水准的agent-centric方法相比,HPTR取得了与agent-centric相似的精度,但是HPTR将计算开销和推理延迟降低了80%。
Conclusion
本文提出了一种新颖的注意力模块,名为KNAPRE,使得Transformers可以利用实体之间的成对相对表示。基于KNAPRE,本文提出了一种基于Transformer的运动预测架构,名为HPTR,它使用层级的结构,使得异步的token可以在推理时得到更新,并避免了额外的计算开销。现有的agent-centric方法的拓展性较差,而scene-centric的精度较差,HPTR对上述两种方法的缺点均进行了改进,并取得了两种方法当中的最好成绩。于两项大规模自动驾驶运动预测数据集上的实验结果验证了HPTR的有效性,并且验证了HPTR满足真实驾驶场景中的实时部署。