Social LSTM全文翻译

社会LSTM:拥挤空间中的人体轨迹预测

 

行人遵循不同的轨迹以避开障碍物并容纳同行的行人。任何在这种场景中导航的自动车辆都应该能够预见行人的未来位置,并相应地调整其路径以避免碰撞。这个轨迹预测问题可以看作是一个序列生成任务,我们感兴趣的是根据人们过去的位置预测他们未来的轨迹。根据最近用于序列预测任务的递归神经网络(RNN)模型的成功,我们提出了一种LSTM模型,该模型可以学习一般的人体运动并预测其未来的轨迹。这与使用社会力量等手工制作功能的传统方法形成对比。我们在几个公共数据集上演示了我们的方法的性能。我们的模型在其中一些数据集上优于最先进的方法。我们还分析了由我们的模型预测的轨迹,以演示通过我们的模型学习的运动行为。

 

图1。本文的目标是预测拥挤场景中的运动动力学--然而,这是一项具有挑战性的任务,因为每个人的运动通常都会受到邻居的影响。我们提出了一种新的模型,我们称之为“社会”LSTM(SocialLSTM),它可以通过考虑人类在共享环境中导航时通常使用的常识规则和社会惯例来联合预测场景中所有人的路径。它们未来轨迹的预测分布显示在热图中。

 

  1. Introduction

人类有与生俱来的相互“阅读”的能力。当人们走在人行道、机场航站楼或购物中心等拥挤的公共空间时,他们遵守大量(不成文的)常识规则,遵守社会习俗。例如,当他们考虑下一步搬到哪里时,他们尊重个人空间并让出通行权。对这些规则进行建模并使用它们来理解和预测复杂现实世界环境中的人体运动的能力对于广泛的应用是非常有价值的-从社会感知机器人的部署[41]到智能环境中智能跟踪系统的设计[43]。

 

然而,在考虑到这种常识行为的同时预测人类目标的运动是一个极具挑战性的问题。这需要理解在拥挤的空间中人们之间发生的复杂且往往微妙的互动。最近在计算机视觉方面的研究已经成功地解决了其中的一些挑战。Kitani et.。艾尔。[32]已经证明,与忽略场景信息的模型相比,关于静态环境的语义(例如,人行道的位置,草地区域的延伸等)的推断知识有助于在未来时刻更准确地预测行人的轨迹。[24,50,35]的开创性工作也提出了建模人-人交互(通常称为“社会力量”)的方法,以提高多目标跟踪问题的鲁棒性和准确性。

 

然而,这些工作中的大部分都受到以下两个假设的限制。

 

i)他们使用手工制作的函数为特定设置建模“交互”,而不是以数据驱动的方式推断它们。这导致倾向于捕捉简单相互作用(例如排斥/吸引)的模型,并且可能无法对更复杂的拥挤环境进行概括。

ii)他们专注于对彼此接近的人之间的交互进行建模(以避免立即发生冲突)。然而,他们并不预期在更遥远的将来可能发生的相互作用。

 

在这项工作中,我们提出了一种方法,可以通过一种新颖的数据驱动架构来解决这两种挑战,用于预测未来瞬间的人体轨迹。受最近长短期记忆网络(LSTM)用于不同序列预测任务(如手写[20]和语音[21]生成)的成功的启发,我们也将其扩展到人类轨迹预测。虽然LSTM具有学习和复制长序列的能力,但它们不捕获多个相关序列之间的相关性。

 

我们通过一种新颖的架构来解决这个问题,该架构连接对应于附近序列的LSTM。特别地,我们引入了一个“社会”池层,它允许空间上最接近的序列的LSTM彼此共享它们的隐藏状态。这种架构,我们称之为“Social-LSTM”,可以自动学习在时间上一致的轨迹之间发生的典型交互。该模型利用现有的人类轨迹数据集,而不需要任何额外的注释来学习人类在社会空间中遵守的常识规则和惯例。

 

最后,我们证明了我们的Social-LSTM能够在两个公开可用的数据集上比最先进的方法更准确地预测行人的轨迹:ETH[49]和UCY[39]。我们还分析了由我们的模型生成的轨迹模式,以了解从轨迹数据集中学习到的社会约束。

 

  1. Related work

Human-human interactions

Helbing和Molnar[24]的开创性工作提出了一个具有吸引力和排斥力的行人运动模型,称为社会力模型。这已经被证明即使在现代行人数据集上也能获得有竞争力的结果[39,49]。这种方法后来扩展到机器人学[41]和活动理解[43,73,50,38,37,9,10]。

 

类似的方法也被用于建模具有强烈先验的人与人之间的交互。Treuille et.。艾尔。[62]使用连续介质动力学,Antonini等。艾尔。[2]提出了离散选择框架和Wang等人。艾尔。[69]、Tay et.。艾尔。[59]使用高斯过程。这样的函数也被用于研究固定基团[74,48]。这些工作的目标是平滑运动路径,并且不处理与离散化相关的问题。

 

另一项工作是使用精心设计的特性和属性来改进跟踪和预测。阿拉希等人。艾尔。[1]通过从人群中的人体轨迹学习其相对位置,呈现出社会亲和力特征,而Yu等人。艾尔。[74]建议使用人的属性来改进在密集人群中的预测。他们还使用类似于[6]的基于代理的模型。Rodriguez等人。[54]分析具有高密度人群的视频,以跟踪和统计人员。

 

这些模型中的大多数都基于特定场景的相对距离和规则提供手工制作的能量潜力。相比之下,我们提出了一种以更通用的数据驱动方式学习人与人之间交互的方法。

 

Activity forecasting活动预测

活动预测模型试图预测视频中人们将要执行的动作和/或动作。大量的工作通过聚类轨迹学习运动模式[26,30,46,77]。更多的方法可以在[45,52,34,3,16,33]中找到。Kitani et.。艾尔。在[32]中,使用反向强化学习来预测静态场景中的人的路径。他们通过建模人-空间交互来推断场景中的可行走路径。Walker等人。在[68]中,在给定大量视频集合的情况下,预测通用代理(例如,车辆)在视

  • 7
    点赞
  • 34
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值