【Motion Forecasting】【摘要阅读】Scene Transformer:A unified architecture for predicting future trajectorys

Scene Transformer: A unified architecture for predicting multiple agent trajectories

这项工作发布于2022年的ICLR,作者来自于Waymo。Scene Transformer是scene-centric方法当中的典型代表,scene-centric方法不需要以每一个目标代理作为场景的坐标中点对整个场景进行标准化,而是在场景当中选取一个全局坐标系,将场景中所有的代理根据这一全局坐标系进行标准化,从而降低重复标准化所带来的计算开销(agent-centric方法中重复的标准化使得模型的推理开销随着代理数量的增加而呈指数级增长)。但是scene-centric方法的代价是,模型不能够学习到有关场景的视角不变性。

Abstract

对场景中多个代理的未来运动进行预测对于在动态环境中进行规划而言是有必要的。针对自动驾驶任务而言,这项任务是具有挑战性的,因为场景当中代理的行为具有多样性,并且代理之间彼此会互相影响。
在这里插入图片描述
大多数过去的工作主要关注于基于场景中代理的历史运动信息,对代理的未来行为进行独立的预测,并根据这些独立的预测结果进行运动规划。然而,基于独立预测的运动规划结果难以对不同代理在未来可能发生交互的概率进行表示,使得规划的结果是次优解。

在这项工作当中,作者提出了一种可以对场景中所有代理的行为进行同时预测的模型,该模型给出的预测结果在代理的未来行为之间具有一致性。

受近期文本建模方法的启发,本文方法在模型中使用了掩码策略作为query,使得单一模型可以使用多种方式对代理的未来行为进行预测,比如以使用代理的运动目标、或是自动驾驶汽车的整条轨迹、或是环境中其它代理的行为,来对目标代理的未来轨迹进行预测。
在这里插入图片描述
本文提出的模型使用注意力机制来对车道元素、代理交互以及时序依赖关系进行特征融合。

本文方法在边缘运动预测和联合运动预测两项任务上进行了评估,实验结果表明,本文方法在两个大规模自动驾驶数据集上取得了SOTA水准的精度。

通过将scene-centric的场景编码方法、对代理具有排列等变性的模型以及序列掩码策略相结合,作者发现本文提出的模型可以胜任联合运动预测以及条件预测等多项自动驾驶运动预测任务。

【实际上,Scene Transformer当中所采用的场景编码方法(即scene-centric方法)是选取自动驾驶汽车(即数据采样车,在WOMD数据集上)或是要预测的单个目标代理(在Argoverse Motion Forecasting v1.1数据集上)在最后一个可见的观测时刻的位置及行驶方向作为整个场景的坐标中心对全局进行标准化的】

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值