SS LSTM全文翻译

SS-LSTM:一种用于行人轨迹预测的分层LSTM模型

 

由于场景的拥挤和杂乱,行人轨迹预测是一个极具挑战性的问题。以往的基于深度学习的LSTM方法关注的是行人对周围环境的影响,而忽略了行人轨迹预测中的场景布局。在本文中,提出了一种新颖的基于LSTM的层次化网络,以同时考虑社会邻域和场景布局的影响。我们的SS-LSTM是Social-Scene-LSTM的缩写,它使用三种不同的LSTM来捕获人、社会和场景尺度信息。在社会尺度上,我们也使用圆形邻里设置,而不是传统的矩形邻里。我们在三个公共数据集上针对两种基线方法和一种最新技术对我们提出的方法进行了评估。结果表明,我们的方法优于其他方法,并且使用圆形邻域提高了预测精度。

 

  1. Introduction

基于深度学习方法的行人未来轨迹预测问题近年来在计算机视觉和人工智能领域重新引起了人们的兴趣[1,22,14,23,26]。这个预测是关于根据行人先前观察到的轨迹生成轨迹方面的未来位置。拥挤场景中行人运动轨迹的预测对于社会机器人的人类感知导航和智能跟踪具有重要意义。然而,由于拥挤场景中复杂的运动行为和杂乱,自动预测行人的轨迹对于人工智能系统来说并不是一件容易的任务。

 

现有的行人轨迹预测算法可以分为两类:基于模型的方法和基于长短期记忆(LSTM)架构的深度学习方法。基于模型的方法[8,19,28]依赖于人工设计的行为模型函数和行人属性的手工制作的设置,而不是从训练数据中学习行人的运动行为。这些方法不能在更拥挤和复杂的场景中可靠地预测轨迹,因为很难将所有运动模式组合到一个模型中。对于基于LSTM的方法[1,6,14,23],在训练过程中结合来自行人邻居的信息并使用场景上下文来细化轨迹都已被尝试。然而,场景的布局对行人在导航过程中的路径规划具有更多的全局影响,还没有得到广泛的研究

 

图1.我们的SS-LSTM网络融合了3种不同尺度的信息,用于行人轨迹预测:Person Scale,捕获个体行人过去的轨迹信息;Social Scale,捕获每个行人的邻居信息;以及Scene Scale,捕获场景布局特征。

 

在本文中,我们提出了一种由三个尺度组成的层次化LSTM网络来克服上述限制。我们将这个网络命名为Social-Scene-LSTM(SS-LSTM)。当行人在拥挤的地方行走时,其他邻近的行人和场景布局会影响他们的移动轨迹。例如,行人通常与陌生人保持一段舒适的距离,但与朋友或家人走得更近;行人会稍微绕道避开障碍物或朝某个特定出口步行。如图1所示,我们使用三种不同的尺度处理行人轨迹预测问题:Person Scale,捕获每个人过去的轨迹信息;Social Scale,捕获每个行人周围邻居的信息;Scene Scale,捕获有关场景布局的信息。我们关于使用社会规模的工作是受到最先进的社会LSTM技术的启发[1]。我们使用占用图来提取邻域特征。我们还使用了更健壮的圆形邻域,而不是广泛使用的矩形占用网格[1,26]。这种新颖的SS-LSTM网络可以从数据中自动学习社会邻居和场景影响。

 

本文的贡献在于:(1)提出了一种新颖的分层LSTM人体轨迹预测模型,该模型具有三个层次尺度,综合了影响行人导航的所有可能因素;(2)实现了三种不同类别的占用地图(网格地图、圆形地图和对数地图)来全面模拟社会尺度的人-人交互,并比较了这些占用地图的预测性能。

 

  1. Related Work

2.1. Model-Based Trajectory Prediction

最初的社会力模型[8]是为了模拟行人的运动行为而提出的。这个社会作用力模型包括三种力:朝向所需运动速度的加速度、排斥力和吸引力。在原始社会力量模型的基础上,Yamaguchi et al.。[28]通过利用更多的行为因素,如阻尼、碰撞和社会互动,改进了轨迹预测模型。在轨迹研究文献中使用的另一个行为因素是碰撞时间因子[11],它描述了如果两个行人继续以目前的行走速度相撞之前的持续时间。


基于代理的建模[3,13]也被用于建模行人的行为模式。Yi等人。[29]将静止人群组因子、移动行人因子和场景布局因子结合在一种新颖的基于Agent的模型中,以提高密集人群中的预测性能。Pellegrini等人。[19]提出了一种用于短期行人轨迹预测的线性轨迹回避(LTA)模型。最近,Vmula et al.。[26]在交互高斯过程(IGP)模型的基础上,提出了一种描述拥挤场景中合作人类行为的交互模型[25]。

 

基于模型的方法的一个缺点是它们在很大程度上依赖于手工制作的因素,如行人的首选步行速度。此外,将所有的弹道影响因素组合成一个单一的模型也不是一件简单的事情。这限制了基于模型的方法在拥挤场景中进行轨迹预测的应用。

 

    1. LSTM-based Trajectory Prediction

递归神经网络(RNNs)被设计用于基于网络中的递归结构来处理时间序列数据。然而,当持有相关信息的单元与需要信息的单元之间的距离变得更大时,由于梯度消失或爆炸问题,RNN在学习连接信息方面存在困难[18]。因此,通过引入三门结构(输入门、忘记门和输出门),设计了长期短期记忆(LSTM)网络[9]来改进原有的RNN。最近,RNN和LSTM都证明了它们在时序数据处理领域的成功,例如语音识别[7,20],语言翻译[24],动作识别[30,16]和图像字幕[12,4]。

 

直观地说,行人的轨迹可以被认为是时间序列数据,所以LSTM可以用于预测行人的轨迹。与基于模型的方法相比,使用LSTM进行轨迹预测是一种更通用的数据驱动方法。Alahi等人。[1]提出了一种社会-LSTM模型,它结合了大社区内其他人的行为。然而,该Social-LSTM在预测中不包括重要的场景上下文信息。最近,Lee等人提出了深度随机逆最优控制RNN编解码器(Deep Stochastic Inverse Optimal Control RNN Encoder-Decder)框架。[14]使用场景上下文融合来对生成的轨迹进行排序和细化,而不是将场景信息合并到轨迹预测过程中。与SocialLSTM和Desire相比,我们提出的分层SS-LSTM在预测过程中既考虑了人与人的交互影响,又考虑了场景尺度特征。

最近,基于LSTM的方法已经被用于城市层面的应用,如公共交通预测[21]和位置预测问题[17]。分层LSTM架构也被用于上下文事件预测[10]和活动识别[27]。然而,据我们所知&#x

  • 1
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值