【TNT】Target-driveN Trajectory Prediction学习笔记

shuaixio

已于 2025-04-22 22:52:45 修改

阅读量1.2k

点赞数 23

分类专栏：自动驾驶机器学习文章标签： TNT VectorNet 轨迹预测

于 2024-09-01 16:35:38 首次发布

本文链接：https://blog.csdn.net/baidu_35692628/article/details/141749727

版权

TNT Framework

论文: https://arxiv.org/abs/2008.08294
代码: https://github.com/Henry1iu/TNT-Trajectory-Prediction
年份: 2020.08
数据: argoverse + INTERACTION dataset + In-house Pedestrian-at-Intersection dataset + Stanford Drone dataset

$p(s_F|\chi)=\int_{\tau\in \tau(c_P)}^{} p(\tau|\chi)p(s_F|\tau,\chi)d\tau$

其中， $\chi = (s_P, c_P)$ ， $s_P$ 是单个目标的观察状态序列， $c_P$ 是与其他代理和场景元素组成的环境交互， $s_F$ 是未来时间步的状态序列
我们想捕获的是整体概率分布 $p(s_F|\chi)$
$\tau$ 是目标空间， $p(\tau | \chi)$ p(t|x)是目标分布可以很好的捕获意图的不确定性
文章使用一组离散的位置来近似目标空间, 将目标分布p(t|x)的估计转换为分类任务，有更好的解释性，在考虑目标空间t的时候也引入了专家知识即道路拓扑结构

文章分为三个阶段进行:

1阶段: 确定目标空间 $\tau$ 的信息。即目标预测, 根据观察到的 $\chi$ , 用一组离散目标状态来模拟意图的不确定性, 然后输出目标分布 $p(\tau | \chi)$ , 也就是anchor打分
2阶段: 以目标为条件的运动估计。有了选定的目标空间, 即top离散点, 对从初始状态到未来可能运动状态进行单模态建模, 即输出公式(1)的结果
3阶段: 适应下游任务。需要给出一小部分有代表性的未来预测, 而不是所有可能未来的完整分布, 什么都预测相当于没预测。所以3阶段就是学习评分函数对结果进行评分选择

pipeline的三个阶段

在这里插入图片描述

场景上下文编码是轨迹预测的第一步, 以捕获agent-agent和agent-road交互
如果场景上下文仅自上而下的图像可用, 采用ConvNet作为上下文编码器
如果高精地图可用, 采用先进的VectorNet作为上下文编码器
- polyline作为高精地图元素 $c_P$ 和智能体轨迹 $s_P$ 的抽象
- 采用子图网络（MLP+GNN）对每条折线进行编码, 使用全局图（注意力机制的GNN）来模拟折线之间的交互关系
- 输出每个agent的全局上下文特征x（MLP作为decoder）

通过一组N个离散的, 具有连续偏移量的量化位置来模拟潜在未来目标
$\tau = \left \{ \tau^n \right \} =\left \{ (x^n,y^n)+(\bigtriangleup x^n, \bigtriangleup y^n) \right \} _{n=1}^{N}$
- 小写 $\tau$ 被定义为agent在固定时间范围T(预测时长)内可能出现的位置 $(x, y)$ ，然后通过离散连续分解, 对目标分布进行建模 $p(\tau^n|\chi)=\pi(\tau^n | \chi)\cdot N(\bigtriangleup x^{n}|v_{x}^{n}(\chi) )\cdot N(\bigtriangleup y^{n}|v_{y}^{n}(\chi) )$