论文理解 A Survey on Trajectory-Prediction Methods for Autonomous Driving

失忆星辰

已于 2023-03-03 20:09:04 修改

阅读量1.6k

点赞数 2

文章标签：人工智能深度学习 nlp

于 2023-03-03 20:01:31 首次发布

本文链接：https://blog.csdn.net/m3197783956/article/details/129326480

版权

标题：A Survey on Trajectory-Prediction Methods for Autonomous Driving
链接：[A Survey on Trajectory-Prediction Methods for Autonomous Driving | IEEE Journals & Magazine | IEEE Xplore](https://ieeexplore.ieee.org/document/9756903/#:~:text=A Survey on Trajectory-Prediction Methods for Autonomous Driving,the capability of predictive driving of human drivers.)
发表于：IEEE 2022

相关领域:轨迹预测，智能交通，综述

1.总体内容

轨迹预测近20年方法（非图像）

基于物理
基于经典机器学习
基于深度学习
基于强化学习

轨迹预测的问题建模

轨迹预测的定义

前t个时间步长的轨迹(x,y) 预测出后h个时间步长的轨迹(x,y)
轨迹预测方法的分类
- 基于预测方法
  
  物理、经典机器学习、深度、强化
- 基于语境因素
  - 物理因素：车辆动力学、运动学
  - 道路因素：交通规则、地图信息建模
  - 交互因素：车辆间交互、社会规则
输出内容
- 单模态轨道：单个/多个驾驶员->单条未来轨迹
- 多模态轨道：多条未来轨迹（概率）
- 意图：中间产物或最终结构，驾驶者行为动作

2.作者总结的方法

物理方法

动力学模型：简化为自行车动力模型

运动学模型：恒定加速度模型，恒定速度模型，恒定转速模型，恒定角加速度模型

前两者运用：单轨迹预测

卡尔曼滤波方法：上述的单轨迹预测不抗噪，加入卡尔曼滤波考虑了预测轨迹的不稳定性，但单峰正态分布表示能力弱----->IIM-KF：输出多轨迹预测

蒙特卡洛方法：随机采样输入，用侧向加速度制约生成的轨迹样本的机动可行性

总结：最先使用最简单，精度低，短预测（<1s），但IIM-KF的交互信息提取思路可以借鉴

传统机器学习方法

GP:利用原型轨迹法，度量历史轨迹和原型集之间的相似度进行预测

SVM:机动车动作作为分类边界（左转右转直行），需提前定义机动车动作，预设动作影响分类结果

HMM:优于SVM，HMM作为经典轨迹预测方法之一，转向角和全局坐标作为输入，后续加入交互信息感知->GMM-HMM

动态贝叶斯:贝叶斯引入时序->DBN，时间为离散化的具有预设时间的细粒度点，在该时传感器采样实际状态，用传统贝叶斯方法推理训练，泛化能力弱

深度学习方法

时序网络

RNN

特点：时间步长较大时，梯度容易衰减或爆炸

改进：LSTM->GRU(LSTM少参数同等效果版)

分类：单RNN和多RNN，单RNN主要用于基于动机和基于单模态的轨迹预测，或者作为交互感知预测的辅助。加权高斯混合模型GMM用于多模态轨迹预测，其参数是由ED结构的三层LSTM获得，然后使用概率最高的模态对预测轨迹进行聚类。多RNN：两组LSTM，一组用于建模周围车辆轨迹，另一组用于建模车辆间交互。用多组RNN分组完成子任务，特定动作的分类。或者组成ED结构。

CNN

使用理由：轨迹的时空连续性较好

特点：使用车辆状态和栅格图像组成可能未来轨迹，分析语义特征造出轨迹

改进：用CNN理解场景图像，TCN/MANN处理轨迹特征

RCNN

CNN：加入HD，提前场景上下文信息和交互信息

RNN-CNN结构：RNNencoder编码周围车辆时间信息，CNN池化层生成社会张量捕获栅格化后的车辆交互信息，CNN学习车辆空间相关性，RNNdecoder生成特定机动的分布，最后输出某种机动的概率，以此生成轨迹。

AM-TF

AM作用：提取车道线和车辆注意力输出来未来轨迹的分布

功能：从RNNencoder中提取注意力来建模交通参与者之间的交互，注意力头代表一种交互方式

优点：基于TF的模型在长期预测中有更好表现，可应对缺失的输入观测值,可交通参与者-环境建模

图神经网络

GNN：优点：处理交互信息，表示非欧空间的信息

GCN:

特点：CNN栅格地图丢失信息且计算量大->GCN矢量地图，利用带控制点的折线结构化道路信息

功能：CNN图像数据处理->GNN图数据处理，学习映射函数，处理节点特征和其邻居特征中提取交互信息

代表算法：

GRIP——每个采样时间车辆算作一个节点，相邻采样时间的同车辆构成边（时间）关系；相同采样时间相邻距离车辆构成边（时空）关系，输出结果至LSTM-ED结构，最终轨迹预测
改进：GRIP->GRIP++:固定图->固定图+动态图，LSTM-ED–>GRU-ED;
SCALE-NET（预测任意数量周围车辆轨迹）:边增强GCN——每辆车都是一个节点，在同一采样时间任意节点间均有边，节点为多维向量，边为节点之差，由此每个时间的构建出动态图，输出至LSTM-ED…
GNNLSTM：基于频谱的，LSTM-ED预测未来轨迹,之后通过DGG建模交互因素，将其经过LSTM-ED后对特征值进行正则化提取图中频谱，输入第一层的LSTM中

利用向量地图的(VM):利用与车辆相关的车道信息执行地图拓扑，获取其未来沿车道行驶轨迹

VectorNet:CNN提取车辆特征，GCN从向量图中提取车道特征，由该方法提取特征图，提出一种目标驱动算法->TNT:利用稀疏的目标锚点，选择到目标的最佳路线

改进：DenseTNT——由稀疏->密集

LaneRCNN:获取每个参与者的局部车道地图，编码过去轨迹和局部地图拓扑，通过交互模块完成局部车道地图的交互

GAT：

特点：对每个交通参与者计算注意力权重

代表算法：Trajectron++：图构递归模型，基于实际位置和速度动态构建有向图，在该社会图基础上，利用LSTM生成面向终端和交互感知的表示，利用时间随机学习交互的不确定性以预测轨迹

生成网络

GAN：

代表算法：

1.SGAN:G利用LSTM-ED结构，池化模块生成轨迹，D利用LSTM判断是否合理。其中，池化为social pooling考虑所有的行人，减少计算量

改进：social pooling->用于处理行人的交互，设计行人轨迹预测，以及加入潜变量预测器以提高交互信息的提取和多种预测轨迹的生成

2.加入环境注意力机制EAM，生成器改用GRU

3.特征提取器加入CNN从场景提取特征，用注意力机制考虑交互相关因素

4.TS-GAN：自创卷积社交机制和循环社交机制提取GAN的车辆时空信息

5.利用车辆状态和矢量地图信息生成的基于模型的多模态轨迹，利用基于学习的判别器提取车辆交互信息，得出轨迹

CVAE：

CVAE+RNN结合的利用原始传感器完成的多模态轨迹预测

强化学习方法

MDP(马尔可夫决策）为基础——>IRL(逆向强化学习)\GAIL(生成式对抗模仿学习)\DIRL（深度强化学习）

3.模型评估

数据集

制作方法：由激光雷达/摄像头等传感器采集，通过人工标注/自动生成产生车辆运动的序列

评估指标

评估指标	公式	特点
RMSE	$RMSE=\sqrt{\frac{1}{n}\sum_{t-1}^n(Y_{pred}^t-Y_{GT}^t)^2}$	敏感较大的预测误差,判断模型平均误差
NLL	$N LL = - l o g (f (Y))$	相比于RMSE，更侧重判断轨迹正确性
ADE	$FDE=\frac{1}{N_p\times T}\sum_{i=1}^{N_p}\sum_{t=1}^{T}\vert Y_{pred}^t[i]-Y_{GT}^t[i]\vert$	预测轨迹与ground truth的平均L2距离
FDE	$FDE=\frac{1}{N_p}\sum_{i=1}^{N_p}\vert Y_{pred}^t[i]-Y_{GT}^t[i]\vert$	预测结果与ground truth position的平均L2距离
MR	X	基于最终position的L2距离，轨迹预测不在ground truth间2m内的比率
CT	X	计算时间/成本
PH	X	模型可以预测的未来时间步长，时域越长精度越低
mADE(mFDEk)	X	ADE在多模态中取前K个最小的
mFDE(mFDEk)	X	FDE在多模态中取前K个最小的