论文阅读：A Spatial-Temporal Attention Model for Human Trajectory Prediction

本文链接：https://blog.csdn.net/Sun_ZD/article/details/114299981

A Spatial-Temporal Attention Model for Human Trajectory Prediction

摘要
1 引言
2 Related Work
3 Method
4 Performance Analysis
5 Conclusion

Human Trajectory Prediction)

人体轨迹预测的时空注意模型

作者：Xiaodong Zhao, Yaran Chen,
论文地址：IEEE/CAA JOURNAL OF AUTOMATICA SINICA
发表时间：
备注：
论文解析
代码开源
代码解析

摘要

人体轨迹预测在许多相关应用中至关重要且很有前途。由于人类行为的不确定性，这极具挑战性，人类行为的不确定性不仅会受到他自己的影响，还会受到周围环境的影响。基于长期短期记忆（LSTM）模型的最新工作为轨迹预测任务带来了巨大的改进。但是，它们大多数关注人类的空间影响，却忽略了时间影响。
在本文中，我们提出了一种新颖的时空注意（ST-Attention）模型，该模型可以共同研究时空亲和力。
具体来说，我们引入一种注意力机制来提取时间关系，以了解不同时刻历史轨迹信息的重要性。
为了探索空间关系，采用了深度神经网络来衡量邻居的不同重要性。
实验结果表明，与公开数据集上的最新方法相比，我们的方法具有竞争优势。

1 引言

人类轨迹预测是根据历史轨迹来预测未来的路径。轨迹由一组采样的连续位置坐标表示。轨迹预测是自主移动平台的核心组成部分，未来的应用包括自主驾驶[1] – [3]，移动机器人导航[4]，辅助技术[5]和智能视频监控[6]等。
当一个人在人群中行走时，未来的道路取决于各种因素，例如意图，社交习惯和附近人们的影响。例如，人们更喜欢沿着人行道而不是穿过高速公路。一个人能够通过估计周围人的未来道路来调整自己的道路，而人们所做的同样的事情又会影响目标。由于人们的这种复杂性，人类轨迹预测成为一个极具挑战性的问题。得益于强大的深度学习[7]，[8]，近几年来，人类的轨迹预测已取得了显着的进步。Yagi et al.在[5]中，提出了一种针对第一人称视频的多流卷积解卷积架构，该构架可验证姿势，比例和自我运动线索对于将来的人的定位很有用。 [9] [10]的开创性研究表明，长期短期记忆（LSTM）具有学习一般人类运动并预测未来轨迹的能力。

尽管已经做出了巨大的努力来应对这些挑战，但是仍然存在两个局限性：
1）不同时刻的历史轨迹信息对目标人类的影响程度不同，大多数作品都忽略了这一点。但是，它在未来路径的预测中起着重要作用。对于目标人，如图1（a）所示，最新的轨迹信息通常对未来的路径有较高的影响。至于邻居，如图1（b）所示，只要距离接近目标，轨迹信息就会产生很大的影响。因此，在不同时刻的历史轨迹信息应该被赋予不同的权重。注意机制能够根据重要性学习不同的权重。
在这里插入图片描述

图1.不同时刻的影响示意图。（a）关于目标人PT，与时间和相比，时间和可能影响未来路径的轨迹信息更多。（b）至于邻居PN，他在时间离开。考虑到不允许占据刚刚离开的位置，时间的轨迹信息具有更大的影响。

2）大多数轨迹预测方法无法捕获环境中的全局上下文。一些方法通过注释文本来捕获全局上下文，该注释文本记录了数据集提供的人员位置坐标。但是，本文仅对少数人进行了注释，因此它并不是真正的全球信息。可以使用预先训练的检测模型[11]来提取图像中的所有人，而不是依赖注释文本。

在这项工作中，我们提出了一个时空注意力网络来预测未来的人类轨迹。
我们采用一种称为自我编码器的LSTM对目标人的自我运动进行建模。
我们还通过提取邻居位置的预训练检测模型来考虑场景中的所有人员。
将位置馈入多层感知器（MLP）中以获得高维特征。
然后，将内积用于获取权重，该权重用于衡量邻居对目标的重要性。
此外，遵循另一个称为交互编码器的LSTM对人与人之间的交互进行建模。
需要注意的是，在大多数现有模型中，不同时刻的轨迹信息获得了同等的对待，不适用于复杂的轨迹预测。受此启发，我们引入了一种关注机制来获取权重，该权重表示在不同时刻对轨迹信息的影响程度。
最后，采用LSTM解码器为接下来的几帧生成人体轨迹。

我们的贡献可以归纳为以下几点：
1）我们引入了一种自动学习权重的注意力机制。他们动态地确定了我们应该更加注意的时刻信息。
2）我们利用预先训练的检测模型[11]来捕获全局上下文，而不是从数据集中检索局部上下文，然后使用MLP和内部乘积对不同的邻居进行加权。
3）基于以上两个思想，提出了一种时空注意力（ST-Attention）模型，以解决轨迹预测的难题。
ST-Attention在两个基准数据集上获得了竞争性能：ETH和UCY [12]，[13]和ActEV / VIRAT [14]。

2 Related Work

A. Traditional Approaches for Trajectory Prediction

B.轨迹预测的CNN模型

C.轨迹预测的RNN模型

D.轨迹预测的注意方法
E.轨迹提取的行人重新识别
随着行人重新识别（Re-ID）的发展[35]，可以准确地识别出具有不同外貌的同一个人，这有利于人体轨迹的提取。 Köstinger等 [36]认为同一行人的各种图像特征之间的差异符合高斯分布，并提出了保持简单简单的度量学习（KISSME）。但是，KISSME在计算各种类别的协方差矩阵时遇到了样本量小的问题，这阻碍了Re-ID性能的提高。 Han等。在[37]中，验证了虚拟样本可以缓解KISSME的小样本规模问题。遗传算法消除了虚拟样本特征的重新提取过程，大大提高了行人Re-ID的匹配率。此外，提出了KISS + [38]算法，通过使用正交基向量生成虚拟样本，由于其简单，快速执行和易于操作的优点，非常适合于开放环境中的实时行人Re-ID。这些工作对人体轨迹预测具有重要意义。

3 Method

一个人在人群中行走时，会根据确定的目的地和邻居的影响来调整自己的轨迹。
一方面，目标人类的未来轨迹取决于不同时刻的历史轨迹，我们将其称为时间亲和力。
另一方面，未来的轨迹取决于距离，邻居的速度和前进方向，我们将其称为空间亲和力。
这个想法激励我们结合时间和空间亲和力来研究轨迹预测。
在本节中，我们介绍解决该问题的时空注意力模型。

A. Problem Formulation

我们假设获得了目标人在不同时刻的位置坐标。另外，通过预先训练的检测模型提取所有人的边界框[11]。
假设有n个行人，我们将第i个行人 $p_{i}(i \in[1, n])$ 在时间t的位置表示为 $L_{t}^{i}=\left(x_{t}, y_{t}\right)$ 。在时间t处观察到的第j个行人 $p_{j}(j \in[1, n])$ 定义为 $B_{t}^{j}$ 。给定目标人物的位置和从时间1到时间 $T_{\text {obs }}$ 的周围人群的边界框，我们的系统旨在预测时间 $T_{\text {obs }+1} \text { to } T_{\text {pred }}$ 的目标人物的位置。我们假设t∈ $\left[1, T_{\mathrm{obs}}\right] \text { and } t^{\prime} \in\left[T_{\mathrm{obs}+1}, T_{\mathrm{pred}}\right]$ 。

B.概述
整个网络架构如图2所示。我们的模型采用了编码器-解码器框架。
在这里插入图片描述

具体来说，编码器由自我模块和交互模块组成，解码器由注意力模块和预测模块组成。
我们将这些位置输入到自我模块中，以获取自我特征，该特征用于对目标的运动进行建模。
同时，将观察到的盒子输入交互模块，得到交互特征，用于探索邻居之间的关系。
注意模块沿着时间维度对上述特征向量进行加权和求和。然后，预测模块采用LSTM生成未来轨迹。在本节的其余部分，我们将详细介绍上述模块。

C. Ego Module
自我模块旨在探索目标人类的意图，该意图可以通过诸如速度，加速度和方向之类的运动特征来反映。由于具有寻址序列数据的强大功能，因此选择LSTM作为自我模块结构。
对于行人，我们将位置嵌入向量中。然后将嵌入信息馈入自我编码器，该编码器的隐藏状态由表示，代表位置t在时间t的位置坐标，它是具有ReLU非线性的嵌入函数。我们将嵌入权重表示为，将LSTM权重表示为。最后，我们获得形状为 $T_{\mathrm{obs}} \times d$ 的特征表示 $\operatorname{Ego}\left(h_{1}, \ldots, h_{T_{\mathrm{obs}}}\right)$ ，其中LSTM的隐藏大小。

在这里插入图片描述

D. Interaction Module

一个人通过观察邻居的运动来改变自己的轨迹。单凭自我模块就无法捕捉附近人与人之间的关系。如图3所示，引入了交互模块来解决这个问题。 [5]指出人的规模是估计未来轨迹的重要线索。观察到的同时反映位置和比例的方框对于建模人与人之间的交互非常有用。此外，徐等。 [30]表明，光学空间亲和力测度可以通过非线性函数和内积运算自动学习。

在这里插入图片描述

图3. 交互模块的框架。给定一系列观察盒，我们提取附近人们之间的空间亲和力

给定在时间t观察到的行人箱 $B_{t}^{j}$ ，我们使用多层感知器将箱映射到固定长度矢量 $z_{t}^{j}$ ，然后可以通过以下方式获得空间亲和力：

在这里插入图片描述
其中
<>是内积运算，即矩阵的点乘法。
在时间t，行人pj对行人pi的空间亲和力表示为 $\alpha_{t}^{i j}$ ，这通过softmax函数进行归一化。

此外，我们将观察盒 $B_{t}^{j}$ 嵌入到固定长度的向量 $r_{t}^{j}$ 中，然后沿空间维度将在每个时间t附近的人对目标人 $p_{i}$ 的影响 $c_{t}^{i}$ 汇总如下：

在这里插入图片描述

其中
Wr是嵌入权重。
同样，将交互编码器应用于获得的空间特征表示 $\operatorname{Inter}\left(h_{1}, \ldots, h_{T_{\mathrm{obs}}}\right) \text { of } T_{\mathrm{obs}} \times d$ 。

E. Attention Module
人体轨迹预测可以看作是序列到序列的问题，将位置序列作为输入，然后输出另一个位置序列。同时，神经机器翻译（NMT）[24]是序列学习中非常关注的一个问题。巧合的是，最近为NMT提出的模型也属于编码器-解码器系列。 NMT通常伴随有一种注意力机制，可以帮助其有效应对较长的输入序列。transformer[39]是一个有代表性的工作，它专门研究远程依赖关系，并且由于其顺序计算而放弃了RNN。transformer中的自注意权重是通过查询的点积函数和相应的键来计算的。这要求查询矩阵和键矩阵具有相同的维，并且点积函数没有可学习的参数。在我们的论文中，我们采用了Bahdanau等人的介绍 [40]通过共同学习在注意力的帮助下对齐和翻译，扩展了编码器-解码器模型。我们使用的注意力[40]是可以学习的，并且允许编码器和解码器具有不同的隐藏大小，这更加灵活并且适用于我们的算法。

实际上，不同时刻的历史位置序列对未来轨迹的影响也不同。通过注意力机制，解码器决定要注意输入序列的哪一部分，从而避免对时间1到 $T_{\text {obs }}$ 的所有信息进行编码。

自我模块和交互模块都输出形状 $T_{\mathrm{obs}} \times d$ 的特征表示。注意机制如图4所示。
在这里插入图片描述

我们以ego模块的输出 $\operatorname{Ego}\left(h_{1}, \ldots, h_{T_{\mathrm{obs}}}\right)$ 为例进行说明。
例如，将 $\operatorname{Ego}\left(h_{1}, \ldots, h_{T_{\mathrm{obs}}}\right)$ 输入到注意力模块中，我们的目标是预测目标人在时间t’的轨迹位置。
$\operatorname{Ego}\left(h_{1}, \ldots, h_{T_{\mathrm{obs}}}\right)$ 的第k个序列表示为 $h_{k}$ ，在时间 $t^{\prime}-1$ LSTM解码器的隐藏状态表示为 $s_{t^{\prime}-1}$ 。
在给定编码器状态和解码器状态的情况下，每对的注意力得分由下式计算：
在这里插入图片描述
其中 $W_{1}, W_{2} \text { and }$ 是可学习的参数。
注意， $s_{t^{\prime}-1}$ 与查询矩阵相似，并且 $h_{k}$ 与transformer[39]中的对应键矩阵相似，但是点积函数被可学习的函数代替。
注意分数反映了编码器状态和先前解码器状态之间的依赖关系。然后，所有注意力得分都减去它们的最大值，以防止它们变得很大，从而使训练更加稳定。概率计算如下：
在这里插入图片描述
其中反映了编码器状态在确定下一个状态并产生时间时下一个轨迹位置的重要性。
然后，将解码器特征向量作为沿时间维度的加权和给出

如果输入序列在某个特定时刻起着更重要的作用，它将在解码器特征向量中占据更大的比例。

F.预测模块
通过注意力机制，自我模块和交互模块将分别产生d维解码器特征向量。此外，我们将最后一个时刻的xy坐标嵌入到另一个解码器特征向量中。上述特征被串联到一个张量中，该张量被馈送到LSTM解码器以获得解码器状态st’
在这里插入图片描述
我们直接从后面预测一个完全连接的层来直接预测目标的位置。

4 Performance Analysis

A. Evaluation Metrics评估指标

Average Displacement Error (ADE):
Final Displacement Error (FDE)
B. Baseline Methods基线方法
Linear [10] :
S-LSTM [9] :
Next [28] :
LiteNext:
C. Experiments on ETH and UCY关于ETH和UCY的实验

数据集中包括帧、行人、组、障碍物等标签的数量汇总如表I所示。
在这里插入图片描述

Setup:留一法的策略,基于0.4 s的采样周期，我们观察8帧（3.2 s）的轨迹，并预测接下来的12帧（4.8 s)
Implementation Details:
在交互模块中，采用了多层感知器，该感知器包含3层。这些层中的节点大小分别设置为32、64、128。嵌入层的大小为128。LSTM隐藏大小d设置为256。使用批处理大小为64，训练阶段的纪元数为100。我们使用Adam优化器，其初始学习率为0.001。为了便于培训，我们将渐变的值裁剪为10。单个NVIDIA GeForce GTX Titan-Xp GPU用于培训。
Quantitative Results:
我们在表II中报告了针对人群中所有方法的ADE和FDE的实验结果。

在这里插入图片描述
在表III中，我们在速度方面与其他模型进行了比较。

我们可以看到S-LSTM具有较少的参数，但是计算时间没有预期的那么快。
速度的下降是因为S-LSTM采用递归方法来预测未来的轨迹，这意味着S-LSTM需要计算占用网格以在每个时刻实现社交池。
与Next相比，我们的方法将参数数量减少了近一半，因为ST-Attention使用的输入通道更少。相应地，我们的方法比Next快2.5倍，在此前提下花费约0.02 s即可获得。
由于有效的交互模型，我们的模型也比LiteNext快。

Qualitative Results:

图5.我们的ST-Attention预测路径在ETH和UCY数据集上的可视化结果：历史轨迹（橙色），地面真实情况（红色），Next模型的预测轨迹（蓝色）和我们的模型（绿色）。前三行显示了一些成功的案例，最后一行显示了一些失败的示例。我们可以看到，在大多数情况下，我们的预测轨迹与地面真实情况相吻合。

D. Experiments on ActEV/VIRAT
E. Ablation Study
为了探索每个模块在轨迹预测中的作用，我们对ETH＆UCY和ActEV / VIRAT数据集进行了消融研究。
1）交互模块的有效性：为了验证交互模块的重要性，我们训练了一个删除交互分支的网络。然后进行了带有和不带有交互模块的对比实验，结果如表V所示。我们可以看到，带有交互模块的模型可以实现更好的性能。这是因为交互模块测量邻居对目标的影响。
2）注意力模块的有效性：为了评估我们的注意力模块的有效性，我们与焦点学习进行了比较[29]，这是无法学习的。比较结果如表V所示，我们的注意力模块的表现要优于焦点注意力。这是因为我们的软注意力可以在焦点注意力失败时自动学习权重，这表明我们的注意力模块对于轨迹预测是有效的。

在这里插入图片描述