SS LSTM全文翻译_ss-lstm-CSDN博客

本文提出了一种名为SS-LSTM的分层LSTM网络，用于行人轨迹预测，同时考虑社会邻域和场景布局的影响。通过三种不同尺度的LSTM，SS-LSTM捕获行人个体、社会和场景信息。与传统的矩形邻域相比，SS-LSTM采用圆形邻域提高了预测精度。在多个数据集上，SS-LSTM的表现优于其他方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

SS-LSTM：一种用于行人轨迹预测的分层LSTM模型

由于场景的拥挤和杂乱，行人轨迹预测是一个极具挑战性的问题。以往的基于深度学习的LSTM方法关注的是行人对周围环境的影响，而忽略了行人轨迹预测中的场景布局。在本文中，提出了一种新颖的基于LSTM的层次化网络，以同时考虑社会邻域和场景布局的影响。我们的SS-LSTM是Social-Scene-LSTM的缩写，它使用三种不同的LSTM来捕获人、社会和场景尺度信息。在社会尺度上，我们也使用圆形邻里设置，而不是传统的矩形邻里。我们在三个公共数据集上针对两种基线方法和一种最新技术对我们提出的方法进行了评估。结果表明，我们的方法优于其他方法，并且使用圆形邻域提高了预测精度。

Introduction

基于深度学习方法的行人未来轨迹预测问题近年来在计算机视觉和人工智能领域重新引起了人们的兴趣[1，22，14，23，26]。这个预测是关于根据行人先前观察到的轨迹生成轨迹方面的未来位置。拥挤场景中行人运动轨迹的预测对于社会机器人的人类感知导航和智能跟踪具有重要意义。然而，由于拥挤场景中复杂的运动行为和杂乱，自动预测行人的轨迹对于人工智能系统来说并不是一件容易的任务。

现有的行人轨迹预测算法可以分为两类：基于模型的方法和基于长短期记忆(LSTM)架构的深度学习方法。基于模型的方法[8，19，28]依赖于人工设计的行为模型函数和行人属性的手工制作的设置，而不是从训练数据中学习行人的运动行为。这些方法不能在更拥挤和复杂的场景中可靠地预测轨迹，因为很难将所有运动模式组合到一个模型中。对于基于LSTM的方法[1，6，14，23]，在训练过程中结合来自行人邻居的信息并使用场景上下文来细化轨迹都已被尝试。然而，场景的布局对行人在导航过程中的路径规划具有更多的全局影响，还没有得到广泛的研究

图1.我们的SS-LSTM网络融合了3种不同尺度的信息，用于行人轨迹预测：Person Scale，捕获个体行人过去的轨迹信息；Social Scale，捕获每个行人的邻居信息；以及Scene Scale，捕获场景布局特征。

在本文中，我们提出了一种由三个尺度组成的层次化LSTM网络来克服上述限制。我们将这个网络命名为Social-Scene-LSTM(SS-LSTM)。当行人在拥挤的地方行走时，其他邻近的行人和场景布局会影响他们的移动轨迹。例如，行人通常与陌生人保持一段舒适的距离，但与朋友或家人走得更近；行人会稍微绕道避开障碍物或朝某个特定出口步行。如图1所示，我们使用三种不同的尺度处理行人轨迹预测问题：Person Scale，捕获每个人过去的轨迹信息；Social Scale，捕获每个行人周围邻居的信息；Scene Scale，捕获有关场景布局的信息。我们关于使用社会规模的工作是受到最先进的社会LSTM技术的启发[1]。我们使用占用图来提取邻域特征。我们还使用了更健壮的圆形邻域，而不是广泛使用的矩形占用网格[1，26]。这种新颖的SS-LSTM网络可以从数据中自动学习社会邻居和场景影响。

本文的贡献在于：(1)提出了一种新颖的分层LSTM人体轨迹预测模型，该模型具有三个层次尺度，综合了影响行人导航的所有可能因素；(2)实现了三种不同类别的占用地图(网格地图、圆形地图和对数地图)来全面模拟社会尺度的人-人交互，并比较了这些占用地图的预测性能。

Related Work

2.1. Model-Based Trajectory Prediction

最初的社会力模型[8]是为了模拟行人的运动行为而提出的。这个社会作用力模型包括三种力：朝向所需运动速度的加速度、排斥力和吸引力。在原始社会力量模型的基础上，Yamaguchi et al.。[28]通过利用更多的行为因素，如阻尼、碰撞和社会互动，改进了轨迹预测模型。在轨迹研究文献中使用的另一个行为因素是碰撞时间因子[11]，它描述了如果两个行人继续以目前的行走速度相撞之前的持续时间。

基于代理的建模[3，13]也被用于建模行人的行为模式。Yi等人。[29]将静止人群组因子、移动行人因子和场景布局因子结合在一种新颖的基于Agent的模型中，以提高密集人群中的预测性能。Pellegrini等人。[19]提出了一种用于短期行人轨迹预测的线性轨迹回避(LTA)模型。最近，Vmula et al.。[26]在交互高斯过程(IGP)模型的基础上，提出了一种描述拥挤场景中合作人类行为的交互模型[25]。

基于模型的方法的一个缺点是它们在很大程度上依赖于手工制作的因素，如行人的首选步行速度。此外，将所有的弹道影响因素组合成一个单一的模型也不是一件简单的事情。这限制了基于模型的方法在拥挤场景中进行轨迹预测的应用。

1. LSTM-based Trajectory Prediction

递归神经网络(RNNs)被设计用于基于网络中的递归结构来处理时间序列数据。然而，当持有相关信息的单元与需要信息的单元之间的距离变得更大时，由于梯度消失或爆炸问题，RNN在学习连接信息方面存在困难[18]。因此，通过引入三门结构(输入门、忘记门和输出门)，设计了长期短期记忆(LSTM)网络[9]来改进原有的RNN。最近，RNN和LSTM都证明了它们在时序数据处理领域的成功，例如语音识别[7，20]，语言翻译[24]，动作识别[30，16]和图像字幕[12，4]。

直观地说，行人的轨迹可以被认为是时间序列数据，所以LSTM可以用于预测行人的轨迹。与基于模型的方法相比，使用LSTM进行轨迹预测是一种更通用的数据驱动方法。Alahi等人。[1]提出了一种社会-LSTM模型，它结合了大社区内其他人的行为。然而，该Social-LSTM在预测中不包括重要的场景上下文信息。最近，Lee等人提出了深度随机逆最优控制RNN编解码器(Deep Stochastic Inverse Optimal Control RNN Encoder-Decder)框架。[14]使用场景上下文融合来对生成的轨迹进行排序和细化，而不是将场景信息合并到轨迹预测过程中。与SocialLSTM和Desire相比，我们提出的分层SS-LSTM在预测过程中既考虑了人与人的交互影响，又考虑了场景尺度特征。

最近，基于LSTM的方法已经被用于城市层面的应用，如公共交通预测[21]和位置预测问题[17]。分层LSTM架构也被用于上下文事件预测[10]和活动识别[27]。然而，据我们所知，分层的LSTM架构还没有被设计用于行人轨迹预测。

Our Method

在实际应用中，行人所走的路线会受到附近其他行人的位置的影响。在复杂的场景中，行人会稍微绕行或绕道，以避开树木、垃圾桶和长凳等障碍物。在我们的方法中，每个行人的过去轨迹(即预测时间步长之前的轨迹)被称为人尺度上的信息。我们使用另外两个LSTM来处理受邻近行人和场景布局影响的轨迹。我们将它们称为社会尺度和场景尺度下的LSTM。因此，我们提出的分层框架，即我们创造的Social-Scene-LSTM(SS-LSTM)，由这三个尺度的三个LSTM编码器和一个用于预测轨迹坐标的LSTM解码器组成(图2)。我们建议的方法的细节将在LSTM简要回顾之后的小节中描述。

3.1. Brief Review on LSTM

在基本的LSTM网络体系结构中，给定由表示的输入序列，可以通过迭代计算来获得输出序列对于

其中项表示不同的权重矩阵，表示输出的偏差向量，h表示隐藏状态。在单元函数LSTM(·)中，隐藏状态由输入门i、忘记门f、输出门o和单元状态c通过以下等式确定：

其中是从a层到b层的权重矩阵；σ(·)表示Sigmoid激活函数；每个带下标的b项是适当层的偏置矢量。

1. Person Scale

Person Scale LSTM对观察到的轨迹进行编码，其中包含用于轨迹预测的基本信息。在时间步t，第i个行人的轨迹由图像坐标。我们观察从时间t=1到t=obs的所有行人的位置，并且我们的目标是从t=obs+1到t=pred预测他们的位置。因此，轨迹预测的问题可以被定义为来自输入观察轨迹的未来轨迹的序列生成问题，∀i

对于Person Scale LSTM编码器，第i个行人的观测轨迹坐标Xi OBS被读入作为输入。该行人在时间t的隐藏状态pi t通过以下方式更新：

其中表示Person Scale LSTM编码器，是在训练过程中估计的未知权重矩阵。

1. Social Scale

为了捕捉附近其他行人的影响，我们为每个行人构建了一张占用地图，将社会比例因子纳入我们的模型中。通过将行人的邻居划分为不重叠的单元来构建占用图。在时间步长t处第i个行人和周围邻居之间的空间关系在占用映射矩阵中建模。

在社会尺度LSTM中，我们采用两种邻域形状，如图3所示，形成三种不同类别的占用地图：网格地图、圆形地图和日志地图。对于网格映射类别，使用矩形邻域；对于圆形映射和对数映射类别，使用圆形邻域。圆形贴图和对数贴图之间的区别在于如何定义贴图的半径。在圆形映射中，使用半径的线性比例；在对数映射中，使用对数比例。与传统的矩形邻域设置[1，26]相比，圆形邻域是更合适的形状，因为社会影响的重要性主要由第i个行人与相邻行人之间的距离决定。

图3.传统的矩形和我们提出的圆形占用图。占用地图用于模拟研究中行人(绿色)周围其他行人(红色)的影响。

占用图的大小由划分该图的单元格的数量确定。例如，在图3中，网格地图的大小为4×4，圆形地图的大小为3×4。根据占用每个小区的相邻行人的数量，计算占用地图矩阵如下：

其中是区分第j个行人的坐标是否在占用地图的(a，b)单元的第i个行人的邻域集合中的判别函数。

使用占用图作为输入，社会规模LSTM编码器如下计算隐藏状态：

其中是相应的权重矩阵

1. Scene Scale

与社会尺度相比，在行人轨迹预测的文献中，场景尺度并没有受到太多的关注。可以手动指定场景布局，如入口、出口、固定障碍物等。但是，更好的替代方法是使用更通用的数据驱动方法。与捕捉行人与其邻居之间的局部交互的社会尺度类似，我们引入场景尺度LSTM来捕捉预测框架中的场景特征(参见图2中的场景尺度LSTM编码器)。使用场景尺度的另一个动机是，虽然社会尺度更关注行人的局部邻域，但场景特征捕获场景的全局信息以进行轨迹预测。当需要预测长轨迹时，这种全局信息很有价值。

对于场景尺度，我们训练CNN在时间步长t提取每帧的场景特征Ft。与传统的CNN不同的是，我们的CNN是为分类任务而训练的，我们的CNN是在我们的框架中与其他LSTM一起专门训练来进行轨迹预测的。它包含三个卷积层和最大池层(图4)。在CNN的卷积部分之后使用两个完全连接的层。批处理归一化层也用于避免过度拟合。由最后一个完全连接层产生的输出Ft是256维特征向量。传递给CNN的每个输入视频帧都包含移动的行人。由于拍摄场景的摄像头是固定的，所以视频帧之间CNN特征的变化主要是由行人的运动引起的。

图4.场景规模CNN中用于提取全局特征的卷积架构，包括3个卷积层、3个最大池层和2个批次归一化层(一个在最大池化1之后；一个在最大池化2之后)。网络不同层次的特征图既捕捉了静态场景结构，又捕捉了由行人运动引起的动态场景特征。

在我们的情况下，当从视频帧中提取的CNN特征通过针对时间序列预测的LSTM网络进行微调时，静态和动态场景特征都将被提供给预测网络。此外，这种特征变化与在社会和人物尺度上捕获的行人信息同步。这个场景特征矩阵被馈送到我们的场景尺度，以计算在时间t的第i个行人的隐藏状态向量：

其中W3是关联的权重矩阵

我们建议的网络的下一部分是合并层ϕ(.)。其将上面计算的所有矢量pit，si，to和si，tc连接起来，给出了三个比例LSTM编码器的隐藏状态hi，如下所示：

其中⊕表示串联运算符。连接状态hi t由行人i的所有过去轨迹信息、所有行人邻域信息和时间步长t处的场景布局信息组成。

1. Trajectory prediction

为了在稍后的时间预测行人的轨迹坐标，图2中的lstm解码器将编码的作为输入，并预测行人i在时间t通过的位置

图2.我们建议的SS-LSTM网络的管道。三种刻度有三个LSTM编码器。场景比例还包括CNN。将编码向量连接以形成LSTM解码器的输入，以产生每个输入观察轨迹的预测轨迹。

类似于EQ(1)和(2)中的基本LSTM，是LSTM解码器和输出层的权重矩阵，是输出层的偏置项。

3.6.。实施细节

在我们的SS-LSTM模型中，所有的LSTM层都有128维，并且隐藏状态具有非线性RELU(整流线性单元)激活。人、社会和场景尺度LSTM的输入维度分别基于观察轨迹的长度、占用图的大小和CNN特征矩阵的大小。为了避免过度拟合，将丢失值设置为0.2。我们提出的网络的参数用RMSprop优化器[5]进行训练，学习率设置为0.003。所有的模型都经过了1000个纪元的训练。我们的SS-LSTM模型是在KERAS上使用PythonTensorFlow后端构建的，并使用NVIDIA GTX-1080GPU进行培训(代码可在https://github.com/xuehaouwa/SSLSTM).获得

4. Experiments

4.1. Datasets

ETH和UCY：ETH[19]和UCY[15]是两个公开可用的行人轨迹数据集，涵盖了具有挑战性的运动模式，如一起行走和避免碰撞。从这两个数据集中总共有5个子集，包含数百个注释的行人轨迹。这些子集是ETHhotel、ETHuniv、UCYuniv、zara01和zara02。

类似于Alahi等人采用的设置。[1]，我们在训练/测试集上实现了留一分策略，并使用归一化像素单元。在这些数据集的实验过程中，我们使用4个子集训练我们的网络，并在剩余的1个子集上测试它。观察轨迹和预测轨迹的长度分别为3.2秒和4.8秒，这意味着我们观察8帧并预测接下来的12帧。邻域和网格大小设置为32像素和4像素，给出8×8网格占用图。对于圆形映射和对数映射，我们使用相同大小的占用映射。

城镇中心数据集：城镇中心数据集[2]包含真实世界拥挤场景中的数百个人的轨迹。城市中心数据集的注释文件提供了每个行人头部和身体的边界框。在我们的实验中，身体包围盒的中心被认为是轨迹坐标。视频每秒25帧，分辨率为1920×1080像素。我们通过每隔5帧向下采样对注释轨迹进行预处理。

在实验过程中，我们还观察了每个轨迹的前8帧(1.6秒，5fps)。由于视频的高分辨率和图像中相对较大的行人(摄像机靠近人)，我们选择160×160像素的邻域和20像素作为网格大小。在此设置中，占用图的大小与ETH和UCY实验中使用的占用图相同。

4.2.。基线和评估指标

我们比较了以下方法和不同占用地图设置的性能：

·线性：基于线性回归的基线方法。这种方法假设每个行人都在笔直的路径上行走。

·LSTM：这是基本的基于普通LSTM的轨迹预测方法，不考虑任何社会或场景尺度信息。这是基于LSTM的轨迹预测的基线方法。

·S-LSTM：一种基于LSTM的预测方法，它包含了与Alahi等人提出的SocialLSTM相同的社会池层。[1]。有3种变体：S-LSTM-g、S-LSTM-c和S-LSTM-l，分别表示使用网格映射、圆形映射和对数映射。

·SS-LSTM：这是我们建议的Social-Scene-LSTM方法。类似地，根据所使用的占用地图，有3种变体，由SS-LSTM-g，SS-LSTM-c，SS-LSTM-l表示

因为我们采用Alahi等人的公共代码中的设置，其中使用归一化像素单元，所以我们不能将我们的方法与使用其他单位的其他行人轨迹预测算法(例如，山口等人使用的米)进行比较。[28])。我们也不与Desire方法[14]进行比较，因为在那里使用了不同的数据集，并且作者的计算机代码不是公开可用的。

4.3. Quantitative Results

4.3.1 ETH and UCY

表1给出了我们的实验的定量结果。一般来说，我们提出的SS-LSTM-l方法在大多数情况下都优于其他方法。此外，对于基于S-LSTM的方法，日志映射也具有更好的性能。从ADE和FDE值可以清楚地看出，圆形映射和对数映射的性能优于传统的网格映射。使用圆形邻域设置的优势是显而易见的。值得注意的是，即使是基本的线性预测方法在某些情况下(如ETHuniv和UCYuniv)也具有可比性。这是因为在这些场景中行人的运动模式很简单。例如，如果行人和他/她的目标目的地之间没有障碍物，他/她将直接前往目的地。

表2.SS-LSTM对城镇中心数据集的预测误差(以像素为单位)。观察到的轨迹长度为8帧。Tp值分别对应于4、8、12和16帧。

从平均结果来看，SS-LSTM-l相对于ADE和FDE都具有最好的结果。这意味着我们的方法可以生成更好的预测轨迹，并给出更准确的目的地预测。此外，所有包含人-人交互的方法(S-LSTM和SS-LSTM)的性能都优于基线方法(线性和香草LSTM方法)。这表明行人周围的环境对该行人的轨迹预测有着极其重要的影响。我们提出的分层SS-LSTM的性能优于具有相同类别占用映射的S-LSTM。这些实验表明，场景尺度信息有助于轨迹预测。

4.3.2 Town Centre

对于城市中心实验，我们重点研究了SS-LSTM在不同Tp值下具有不同占用地图的性能。在轨迹预测术语中，术语预测地平线(由Venula等人介绍。[26])，此后用TP表示，通常用于描述预测轨迹的长度。在我们的实验中，给定相同的1.6秒的观察轨迹长度，我们预测了一系列不同预测视界的轨迹，即TP=0.8，1.6，2.4，3.2秒。在训练和测试阶段，过滤掉小于4.8秒的轨迹(帧速率为5的24帧)。

SS-LSTM的预测结果(以像素为单位)如表2所示。为每个TP值提供最佳性能的占用映射类别以粗体突出显示。虽然有些FDE值超过100个像素，但如果图像分辨率为1920×1080，则认为100个像素的位移误差是可以接受的。当预测时域TP大于输入观测轨迹时，使用圆形映射和对数映射可以显著降低ADE和FDE。当观测轨迹长度大于Tp时，矩形和圆形邻域的性能大致相同。这是因为矩形邻域和圆形邻域之间的差异是在远离行人的区域中。例如，如果网格地图矩阵和圆形地图矩阵的大小相同(实验中均为8×8)，则邻域最外面的人与圆形预测行人的距离相同。对于矩形形状，邻里角落里的人比旁边的行人有更大的距离。因此，当Tp较小时，所有三类占用映射具有几乎相同的性能。当TP较大时，圆形邻域给出比传统矩形邻域设置更好的性能。此外，由于社会影响力的大小取决于两个行人之间的距离，因此原木地图显示出更好地描述这种距离关系。因此，一般而言，就所有Tp值的最终位移误差而言，对数贴图的性能优于圆形贴图和网格贴图。

表3.城市中心数据集的小预测和大预测水平的预测误差。

图5.我们的SS-LSTM方法的几个预测轨迹的图示。前两行显示了ETH和UCY数据集的结果。最后一行显示了预测结果稍差的四个示例。每个子图中的黄色轨迹表示地面真实轨迹。使用网格地图、圆圈地图和对数地图预测的轨迹分别以绿色、红色和蓝色显示(彩色效果更好)。

为了展示使用场景尺度的优势，我们比较了香草LSTM，S-LSTM-l和SS-LSTM-l对于小的和大的预测范围TP。表3列出了结果。在两种情况下，S-LSTM-l和SS-LSTM-l的性能都优于香草LSTM方法。当Tp较小时，S-LSTM-l和SS-LSTM-l都表现良好。结果表明，当Tp较小时，场景尺度信息的影响是有限的。但是，当TP较大时，SS-LSTM-l的性能明显优于S-LSTM-l。以上结果证实了我们在SS-LSTM中学习的场景级特征捕获了更多关于场景的全局信息，并且它们有助于提高长轨迹的预测精度。

4.4.。定性结果

在图5中，我们展示了在ETH(第一行)和UCY(第二行)数据集上具有不同占用映射的SS-LSTM的一些预测轨迹。在社会尺度和场景尺度的帮助下，SS-LSTM能够预测人们与他人一起行走或附近的树木和停放的汽车等障碍物时的轨迹。我们的SS-LSTM不仅可以在行人直线行走时做出成功的预测，而且当行人转过街角进入另一条街道时，它们还能稳健地处理这种情况。

图5的第三行显示了预测结果不太理想的一些示例。在这些情况下，我们预测的轨迹比地面真实轨迹短。这些行人的速度被错误地预测了。然而，就行人的一般移动方向而言，预测的轨迹仍然是可以接受的。一个可能的原因是我们认为不同距离的邻居(离目标人)是相同的(在占用图中给定相同的权重)。

香草LSTM、S-LSTM和SS-LSTM之间的比较如图6所示。我们选择小的(TP=0.8秒)和大的(TP=3.2秒)预测范围。对于S-LSTM和SS-LSTM方法，在社会尺度中使用对数映射。对于较小的TP值(图6，第1行)，这三种预测方法的性能大致相同。S-LSTM和SS-LSTM的预测轨迹都非常接近地面真实。在这种情况下，场景比例的影响是最小的；仅使用行人的邻居就足以获得良好的预测。在图6(F)中，行人与附近的邻居走得很近，与S-LSTM和SS-LSTM相比，香草LSTM给出的预测轨迹更差。这个例子显示了社会规模信息的重要性。

图6.从不同方法预测的几个轨迹的图示。在情况(A)至(C)中，Tp=0.8秒；在情况(D)-(I)中，Tp=3.2秒。在所有情况下，观察到的轨迹都是1.6秒(即8帧)长。

在图6(H)中，因为只有穿白色长袍的女人在穿黑衣服的女人的附近，所以使用SLSTM，产生的红色轨迹是朝向相反方向行走的人群。然而，全局场景信息使得SS-LSTM能够克服这个问题。对于香草LSTM方法，情况更糟，因为第一个预测点已经很远了。在图6(I)中，行人的潜在路径上存在障碍。在没有场景尺度信息的情况下，LSTM和S-LSTM生成的轨迹朝向明显无效的障碍物。因此，在预测网络中，考虑全局场景尺度是必不可少的。

5Conclusions and Future Work

我们提出了一种新的基于分层LSTM的拥挤场景下行人轨迹预测方法。我们已经在三个基准数据集上证明了我们提出的SS-LSTM优于其他方法。此外，我们还证明了使用圆形邻域比传统的矩形邻域占有率图给出了更好的轨迹预测结果。从我们在城市中心数据集上预测不同长度轨迹的实验中，我们已经证明了当Tp较大时，我们的SS-LSTM和LOG地图在社会规模中更好。

虽然我们的SS-LSTM在预测视界较大时优于其他方法，但预测结果仍然不如短轨迹的预测结果准确。在未来，我们将致力于进一步提高预测性能，根据邻居之间的行人距离为邻居分配影响权重。我们还打算在SS-LSTM预测模型中加入时空注意机制和额外的网络来学习其他运动因素，例如与其他行人之间的舒适距离。