【Scene Transformer】scene transformer论文阅读笔记

shuaixio

已于 2025-04-22 22:53:18 修改

阅读量1k

点赞数 28

分类专栏：自动驾驶机器学习文章标签： transformer scene-trans 边缘预测联合预测序列掩码策略

于 2024-08-04 12:40:57 首次发布

本文链接：https://blog.csdn.net/baidu_35692628/article/details/140337078

版权

文章目录

scene transformer模型架构

掩码策略进行独立/联合预测

序言

论文: https://arxiv.org/pdf/2106.08417v3
代码: https://github.com/Chen-Albert-FENG/SceneTransformer
年份: 2021.06
数据: argoverse + waymo

(Abstract)

核心思想: 受语言模型的启发, 在模型中使用序列掩码策略作为Query, 通过改变数据的可见性，允许用多种方式进行预测(MP,CMP,GCP)，如给定自车的goal或自车完整轨迹或其他agent的行为，以这些为条件来进行多目标预测，估算被掩码掉的未来时间和agents的feature
即:
- Quety ---- 自车goal或自车完整轨迹或agent行为
- Result — 多目标预测结果
文章采用的注意力机制结合了agent时间步, agents之间交互和道路元素之间的特征
文章独立预测和联合预测都做了, 并在当时获得了最优结果, 但现在在waymo online排行榜中并不靠前

(Introduction)

以前将自动驾驶任务划分为sub-task的方式是基于各个模块(感知,预测,规划)真正独立的假设, 但这个假设是不成立的,不光是模块化之后存在信息丢失,还因为自车和目标之间是互相影响的. 基于此文章提出了联合运动预测与规划的模型, 支持多目标多轨迹同时预测规划
交互式预测要求建模联合特征joint features, 以保持agents未来轨迹的一致性. 建模joint feature最简单的方法是agents独立预测的结合, 但这种结合不具有一致性, 尤其是在轨迹重叠的时候没法避免重叠. 文章提出的模型天然的能捕获agents之间的交互, 得到场景级scene-level的agents预测结果
文章给出了一种从规划角度的一种联合预测规划的方法
文章支持多目标多模态的预测, 难点也就是目标本身行为的多样性(diverse)以及目标对彼此轨迹的影响(influence)
为什么要进行联合预测呢: 首先因为运动预测和规划的子任务并不是真正独立的, 自车也会影响其他agent的行为, 而且独立预测的方案不利于表示不同agent之间未来的交互问题, 由此得到的规划也是次优(sub-optimal)的轨迹
边缘预测 vs 联合预测 (marginal/independent prediction vs. joint prediction)
- 边缘预测: 未来时刻, 不同agent之间的预测轨迹可能有冲突部分, 轨迹相交
- 联合预测: 未来同一时刻, 不同agent之间的轨迹不会相交, respect each other’s prediction
按照文章的说法, 文章的贡献

最低0.47元/天解锁文章