Social LSTM全文翻译-CSDN博客

本文介绍了一种名为“社会”LSTM(Social-LSTM)的模型，用于预测拥挤空间中行人的未来轨迹。该模型通过考虑附近序列的LSTM，学习和预测人与人之间的交互，优于传统手工制作功能的方法。Social-LSTM在ETH和UCY数据集上的表现优于现有先进方法，展示了在理解复杂人行交互方面的潜力。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

社会LSTM：拥挤空间中的人体轨迹预测

行人遵循不同的轨迹以避开障碍物并容纳同行的行人。任何在这种场景中导航的自动车辆都应该能够预见行人的未来位置，并相应地调整其路径以避免碰撞。这个轨迹预测问题可以看作是一个序列生成任务，我们感兴趣的是根据人们过去的位置预测他们未来的轨迹。根据最近用于序列预测任务的递归神经网络(RNN)模型的成功，我们提出了一种LSTM模型，该模型可以学习一般的人体运动并预测其未来的轨迹。这与使用社会力量等手工制作功能的传统方法形成对比。我们在几个公共数据集上演示了我们的方法的性能。我们的模型在其中一些数据集上优于最先进的方法。我们还分析了由我们的模型预测的轨迹，以演示通过我们的模型学习的运动行为。

图1。本文的目标是预测拥挤场景中的运动动力学--然而，这是一项具有挑战性的任务，因为每个人的运动通常都会受到邻居的影响。我们提出了一种新的模型，我们称之为“社会”LSTM(SocialLSTM)，它可以通过考虑人类在共享环境中导航时通常使用的常识规则和社会惯例来联合预测场景中所有人的路径。它们未来轨迹的预测分布显示在热图中。

Introduction

人类有与生俱来的相互“阅读”的能力。当人们走在人行道、机场航站楼或购物中心等拥挤的公共空间时，他们遵守大量(不成文的)常识规则，遵守社会习俗。例如，当他们考虑下一步搬到哪里时，他们尊重个人空间并让出通行权。对这些规则进行建模并使用它们来理解和预测复杂现实世界环境中的人体运动的能力对于广泛的应用是非常有价值的-从社会感知机器人的部署[41]到智能环境中智能跟踪系统的设计[43]。

然而，在考虑到这种常识行为的同时预测人类目标的运动是一个极具挑战性的问题。这需要理解在拥挤的空间中人们之间发生的复杂且往往微妙的互动。最近在计算机视觉方面的研究已经成功地解决了其中的一些挑战。Kitani et.。艾尔。[32]已经证明，与忽略场景信息的模型相比，关于静态环境的语义(例如，人行道的位置，草地区域的延伸等)的推断知识有助于在未来时刻更准确地预测行人的轨迹。[24，50，35]的开创性工作也提出了建模人-人交互(通常称为“社会力量”)的方法，以提高多目标跟踪问题的鲁棒性和准确性。

然而，这些工作中的大部分都受到以下两个假设的限制。

i)他们使用手工制作的函数为特定设置建模“交互”，而不是以数据驱动的方式推断它们。这导致倾向于捕捉简单相互作用(例如排斥/吸引)的模型，并且可能无法对更复杂的拥挤环境进行概括。

ii)他们专注于对彼此接近的人之间的交互进行建模(以避免立即发生冲突)。然而，他们并不预期在更遥远的将来可能发生的相互作用。

在这项工作中，我们提出了一种方法，可以通过一种新颖的数据驱动架构来解决这两种挑战，用于预测未来瞬间的人体轨迹。受最近长短期记忆网络(LSTM)用于不同序列预测任务(如手写[20]和语音[21]生成)的成功的启发，我们也将其扩展到人类轨迹预测。虽然LSTM具有学习和复制长序列的能力，但它们不捕获多个相关序列之间的相关性。

我们通过一种新颖的架构来解决这个问题，该架构连接对应于附近序列的LSTM。特别地，我们引入了一个“社会”池层，它允许空间上最接近的序列的LSTM彼此共享它们的隐藏状态。这种架构，我们称之为“Social-LSTM”，可以自动学习在时间上一致的轨迹之间发生的典型交互。该模型利用现有的人类轨迹数据集，而不需要任何额外的注释来学习人类在社会空间中遵守的常识规则和惯例。

最后，我们证明了我们的Social-LSTM能够在两个公开可用的数据集上比最先进的方法更准确地预测行人的轨迹：ETH[49]和UCY[39]。我们还分析了由我们的模型生成的轨迹模式，以了解从轨迹数据集中学习到的社会约束。

Related work

Human-human interactions

Helbing和Molnar[24]的开创性工作提出了一个具有吸引力和排斥力的行人运动模型，称为社会力模型。这已经被证明即使在现代行人数据集上也能获得有竞争力的结果[39，49]。这种方法后来扩展到机器人学[41]和活动理解[43，73，50，38，37，9，10]。

类似的方法也被用于建模具有强烈先验的人与人之间的交互。Treuille et.。艾尔。[62]使用连续介质动力学，Antonini等。艾尔。[2]提出了离散选择框架和Wang等人。艾尔。[69]、Tay et.。艾尔。[59]使用高斯过程。这样的函数也被用于研究固定基团[74，48]。这些工作的目标是平滑运动路径，并且不处理与离散化相关的问题。

另一项工作是使用精心设计的特性和属性来改进跟踪和预测。阿拉希等人。艾尔。[1]通过从人群中的人体轨迹学习其相对位置，呈现出社会亲和力特征，而Yu等人。艾尔。[74]建议使用人的属性来改进在密集人群中的预测。他们还使用类似于[6]的基于代理的模型。Rodriguez等人。[54]分析具有高密度人群的视频，以跟踪和统计人员。

这些模型中的大多数都基于特定场景的相对距离和规则提供手工制作的能量潜力。相比之下，我们提出了一种以更通用的数据驱动方式学习人与人之间交互的方法。

Activity forecasting活动预测

活动预测模型试图预测视频中人们将要执行的动作和/或动作。大量的工作通过聚类轨迹学习运动模式[26，30，46，77]。更多的方法可以在[45，52，34，3，16，33]中找到。Kitani et.。艾尔。在[32]中，使用反向强化学习来预测静态场景中的人的路径。他们通过建模人-空间交互来推断场景中的可行走路径。Walker等人。在[68]中，在给定大量视频集合的情况下，预测通用代理(例如，车辆)在视觉场景中的行为。Ziebart等人。[78，23]提出了一种基于规划的方法。

Turek等人。[63，40]使用类似的思想来识别场景的功能图。其他方法如[27，19，42，36]展示了使用场景语义来预测人类导航的目标和路径。场景语义也被用于预测多对象动力学[17，36，34，28]。这些工作大多局限于使用静态场景信息来预测人体运动或活动。在我们的工作中，我们专注于建模用于路径预测的动态人群交互。

最近的工作也试图预测未来的人类行为。特别是Ryoo et.。艾尔。[55，8，71，67，44，58]预测流媒体视频中的动作。与我们的工作更相关的是使用RNN模型来预测视频中未来事件的想法[53，57，66，56，31]。沿着类似的思路，我们预测场景中的未来轨迹。

RNN models for sequence prediction序列预测的RNN模型

最近的递归神经网络(RNN)及其变体，包括长短期记忆(LSTM)[25]和门控递归单元[12]已被证明非常成功地用于序列预测任务：语音识别[21，11，13]，字幕生成[64，29，75，15，72]，机器翻译[4]，图像/视频分类[7，22，70，47]，人类动力学[18]等等。RNN模型也被证明对于具有密集连接数据的任务是有效的，例如语义分割[76]，场景解析[51]，甚至作为卷积神经网络的替代[65]。这些工作表明，RNN模型能够学习图像像素等空间相关数据之间的相关性。这促使我们扩展Graves等人的序列生成模型。[20]到我们的设置。特别是Graves等人。[20]预测分离的手写序列；而在我们的工作中，我们联合预测对应于人体轨迹的多个相关序列。

Our model

在拥挤场景中移动的人类根据其附近其他人的行为来调整其运动。例如，一个人可以完全改变他/她的路径或短暂地停下来，以容纳一群朝他走来的人。这种轨迹上的偏差不能通过孤立地观察人来预测。也不能用简单的“排斥”或“吸引”函数(传统的社会力量模型[24，43，73，50])来预测它。

这促使我们建立一个模型，在预测一个人的路径的同时，可以说明在一个很大的邻里内其他人的行为。在本节中，我们描述了基于池的LSTM模型(图2)，该模型联合预测场景中所有人的轨迹。我们将此称为“社会”LSTM模型。

Problem formulation

我们假设首先对每个场景进行预处理，以获得所有人在不同时刻的空间坐标。以前的工作也遵循这一惯例[41，1]。在任何时刻t，场景中的第i个人由他/她的xy坐标表示。我们观察从时间1到TOBS的所有人的位置，并预测他们对于时间瞬间TOBS+1到Tpred的位置。这个任务也可以被看作序列生成问题[20]，其中输入序列对应于观察到的人的位置，并且我们感兴趣的是生成表示他/她在不同时刻的未来位置的输出序列。

1. Social LSTM

每个人都有不同的运动模式：他们以不同的速度，加速度和步态移动。我们需要一个模型，它可以从对应于该人的有限的初始观察集合中理解和学习这些特定于人的运动属性。

长短期记忆(LSTM)网络已被证明能够成功地学习和概括分离序列的属性，如手写[20]和语音[21]。受此启发，我们还为轨迹预测问题开发了基于LSTM的模型。特别是，我们为场景中的每个人都有一个LSTM。这个LSTM学习人的状态并预测他们的未来位置，如图2所示。LSTM权重在所有序列中共享。

图2.我们的Social-LSTM方法概述。我们为场景中的每个轨迹使用单独的LSTM网络。然后，LSTM通过社交池(S-Pooling)层彼此连接。与传统的LSTM不同，这个池层允许空间上邻近的LSTM彼此共享信息。图中的变量在等式中解释。2.底部一行显示场景中一个人的S-pooling。将特定半径内的所有LSTM的隐藏状态汇集在一起，并用作下一时间步的输入。

然而，每个人使用一个LSTM模型的幼稚做法并不能捕获邻里之间的交互。香草LSTM对其他序列的行为是不可知的。我们通过图3，2中可视化的新的池化策略连接相邻的LSTM来解决这个限制。

Social pooling of hidden states个体通过隐含地推理邻人的运动来调整他们的路径。这些邻居反过来会受到周围环境中其他人的影响，并可能随着时间的推移而改变他们的行为。我们期望LSTM的隐藏状态能够捕获这些随时间变化的运动特性。为了跨多个人联合推理，我们在相邻的LSTM之间共享状态。这带来了一个新的挑战：每个人都有不同数量的邻居，而且在非常密集的人群中[1]，这个数字可能高得令人望而却步。

因此，我们需要一个紧凑的表示，它组合来自所有相邻状态的信息。我们通过引入如图2所示的“社会”池层来处理这个问题。在每个时间步骤，LSTM单元从邻居的LSTM单元接收池化的隐藏状态信息。在汇集信息的同时，我们试图通过基于网格的汇集来保存空间信息，如下所述。

LSTM在时间t的隐藏状态捕获在该时刻场景中第i个人的潜在表示。我们通过构建“社会”隐藏状态张量与邻居共享此表示。给定隐藏状态维度D和邻域大小No，我们为第i个轨迹构建No×No×D张量：

其中是对应于t−1处的第j个人的Lstm的隐藏状态，1mn[x，y]是检查(x，y)是否在网格的(m，n)单元中的指示函数，并且Ni是对应于人i的邻居的集合。这种汇集操作在图3中可视化。

图3.我们显示了由黑点表示的人的社交池。我们将邻居的隐藏状态(显示为黄色、蓝色和橙色)集中在一定的空间距离内。池部分保留了邻居的空间信息，如最后两个步骤所示。

我们将池化的社会隐藏状态张量嵌入到向量中，并将坐标嵌入到中。这些嵌入被级联并用作时间t处相应轨迹的LSTM单元的输入。这引入了以下递归：

其中φ(.)。是一个具有relu非线性的嵌入函数，We和Wa是嵌入权。LSTM权重由Wl表示

Position estimation位置估计

时间t处的隐藏状态用于预测在下一时间步t+1处的轨迹位置的分布。类似于Graves等人。[20]我们假设由均值，标准差和相关系数参数化的二元高斯分布。这些参数由具有5×D权重矩阵Wp的线性层预测。在时间t的预测坐标由下式给出

通过最小化负对数似然损失(第i轨迹的Li)来学习LSTM模型的参数：

我们通过最小化训练数据集中所有轨迹的这种损失来训练模型。请注意，我们的“社会”池层没有引入任何额外的参数。

与传统LSTM的一个重要区别是，多个LSTM的隐藏状态通过我们的“社会”池层耦合，并且我们在每个时间步长通过场景中的多个LSTM联合反向传播。

Occupancy map pooling占用地图池

“社会”LSTM模型可用于汇集来自相邻轨迹的任何一组特征。作为一种简化，我们还实验了一个只汇集邻居的坐标的模型(在实验部分中称为O-LSTM)。4)。这是对原始模型的简化，并且在训练期间不需要跨所有轨迹的联合反向传播。该模型仍然可以学习重新定位轨迹，以避免立即与邻居发生冲突。然而，在缺乏来自邻居的更多信息的情况下，该模型将无法顺利地改变路径以避免未来的冲突。

对于一个人i，我们将张量的定义修改为在时间t以该人的位置为中心的No×No矩阵，并将其称为占用图Oti。所有邻居的位置都集中在这张地图上。映射的m，n元素简单地由以下内容给出：

其中1mn[.]。是如前所述的指示函数。这也可以看作是等式中社会张量的简化。1，其中隐藏状态向量由指示在相应单元中存在或不存在邻居的恒定值替换。

使用矢量化的占有率地图来代替等式中的学习这个更简单的模型。

Inference for path prediction路径预测推理

在测试期间，我们使用经过训练的社会-LSTM模型来预测第i个人的未来位置。从时间TOBS+1到Tpred，我们使用来自先前社会-Lstm单元的预测位置来代替等式中的真实坐标在构建Eq1中的社会隐藏张量时，预测的位置也用于替换实际坐标。或等式5中的占用地图。

1. Implementation details 3.2.。实施细节

在将空间坐标用作LSTM的输入之前，我们对空间坐标使用嵌入维数64。我们将空间池大小No设置为32，并使用没有重叠的8x8和池窗口大小。我们为所有LSTM模型使用了128的固定隐藏状态维度。此外，我们还在池隐藏特征之上使用具有RELU(校正线性单元)非线性的嵌入层，然后使用它们来计算隐藏状态张量Hi t。超参数是基于对合成数据集的交叉验证来选择的。这个合成是使用实现社会力量模型的模拟生成的。该合成数据包含数百个场景的轨迹，平均人群密度为每帧30。我们使用0.003的学习率和rms-prop[14]来训练模型。Social-LSTM模型在具有Theano[5]实现的单个GPU上进行培训。

Experiments

在本节中，我们介绍了在两个公开可用的人体轨迹数据集上的实验：ETH[49]和UCY[39]。ETH数据集包含两个场景，每个场景有750个不同的行人，并被分成两个集合(ETH和酒店)。UCY数据集包含两个具有786人的场景。这个数据集有3个分量：ZARA-01，ZARA-02和UCY。总而言之，我们在5组数据上评估了我们的模型。这些数据集代表现实世界中拥挤的设置，具有数千个非线性轨迹。如[49]中所示，这些数据集还涵盖了具有挑战性的群体行为，例如夫妇一起行走，相互交叉的群体，以及在某些场景中形成和分散的群体。

我们用三个不同的度量来报告预测误差。类似于Pellegrini等人。[49]我们使用：

平均位移误差-轨迹的所有估计点和真实点的均方误差(MSE)。这是在Pellegirini等人中介绍的。[49]
最终位移误差-预测周期Tpred结束时预测的最终目的地和真正的最终目的地之间的距离。
平均非线性位移误差-是轨迹非线性区域的MSE。由于轨迹预测中的大多数误差发生在人-人相互作用引起的非线性转弯期间，我们明确地评估了这些区域周围的误差。我们在二阶导数的范数上设置了一个启发式阈值来识别非线性区域。

为了在训练模型时充分利用数据集，我们使用了留一的方法。我们在4个集合上训练和验证我们的模型，并在剩余的集合上进行测试。我们对所有的5套重复这个步骤。对于用于比较的其他基线方法，我们也使用相同的培训和测试过程

在测试时间内，我们观察3.2秒的轨迹，并预测它们在接下来的4.8秒的路径。在帧速率为0.4的情况下，这相当于观察8帧并预测接下来的12帧。这类似于[49，39]使用的设置。在选项卡中。4，我们比较了我们的模型与最先进的方法以及多种控制设置的性能：

·线性模型(LIN.)。我们使用现成的卡尔曼滤波器在假设线性加速度的情况下外推轨迹

·碰撞避免(LTA)。我们报告了简化版本的社会力[73]模型的结果，该模型仅使用碰撞避免能量，通常称为线性轨迹避免。

·社会力量(SF)。我们使用[73]中的社交力模型的实现，其中已经对诸如群体亲和力和预测目的地等几个因素进行了建模。

·迭代高斯过程(IGP)。我们使用[61]中IGP的实现。与其他基线不同，IGP还使用有关人员最终目的地的附加信息。

·我们的香草LSTM(LSTM)。这是我们模型的简化设置，其中我们删除了“Social”池层，并将所有轨迹视为彼此独立。

·我们的LSTM与占用率地图(O-LSTM)。我们展示了我们的模型的简化版本(在SEC中提出)的性能。3.1)。作为提醒，该模型在每个时间实例仅汇聚邻居的坐标。

朴素线性模型产生较高的预测误差，从平均非线性位移误差看，在非线性区域周围的预测误差更明显。香草LSTM优于这个线性基线，因为它可以外推非线性曲线，如Graves等人所示。[20]。然而，这个简单的LSTM明显比Social Force和IGP模型糟糕，后者显式地建模人与人的交互。这表明需要考虑这种相互作用。

我们基于社交池的LSTM和O-LSTM在几乎所有数据集上都优于精心设计的Social Force和IGP模型。特别地，与ETH相比，在UCY数据集的情况下错误减少更显着。这可以通过两个数据集中不同的人群密度来解释：UCY包含具有总共32K非线性的更拥挤的区域，而不是具有仅有15K非线性区域的更稀疏的ETH场景。

在更拥挤的UCY场景中，对线性路径的偏离更多地由人-人交互控制。因此，我们捕获邻域交互的模型在UCY数据集中获得了更高的收益。行人到达某一目的地的意图在ETH数据集中起着更重要的作用。因此，在测试期间知道真实最终目的地的IGP模型在该数据集的部分中实现了较低的误差。

在ETH的情况下，我们还观察到占有率和社会LSTM误差彼此相等，并且总体上优于社会力模型。同样，我们的Social-LSTM在更拥挤的UCY数据集中优于O-LSTM。这显示了汇集整个隐藏状态以捕获密集人群中的复杂交互的优势。

表1.所有方法在所有数据集上的定量结果。我们呈现如下性能度量：前6行是平均位移误差，第7至12行是非线性区域的平均位移误差，最后6行是最终位移误差。所有方法都在4.8秒的固定时间内预测轨迹。(*)请注意，与其他方法不同，IGP在测试期间使用人的预定地面真相目的地

1. Analyzing the predicted paths 4.1.。分析预测路径

我们在SEC的定量评估。4表明，学习的Social-LSTM模型在标准数据集上优于最先进的方法。在这一节中，我们试图获得更多关于我们的模型在不同人群设置中的实际行为的见解。我们定性地研究了我们的Social-LSTM方法在个人以特定模式相互作用的社交场景中的性能。

我们在图4中呈现了一个由四个人占据的示例场景。我们可视化了我们的模型在不同时刻预测的路径的分布。图4中的第一行和第三行显示了每个人的当前位置以及他们的真实轨迹(实线表示未来路径，虚线表示过去)。第二行和第四行显示了我们对未来12.4秒的Social-LSTM预测。在这些场景中，我们观察到三个人(2，3，4)彼此走近，第四个人(1)走得更远。

我们的模型始终预测人(1)的线性路径。人(1)的分布在时间上是相似的，表明人的速度是恒定的。

我们可以在3人组的预测轨迹中观察到更有趣的模式。特别是，我们的模型做出了智能的路由选择，为其他人让步，并抢先未来的冲突。例如，在时间步骤2，4和5，我们的模型预测人(3)和人(4)的线性路径的偏差，甚至在实际转弯开始之前。在时间步骤3和4，我们注意到Social-LSTM预测Person(3)的“暂停”，以便为Person(1)让步。有趣的是，在时间步骤4，更新半光点的位置以匹配路径中的真正转折点。在下一个时间步，通过更多的观察，模型能够正确地预测在该点锚定的整个转弯。

图4.我们可视化了4个人在场景中跨6个时间步长移动的预测路径的概率分布。副标题描述了我们的模型所预测的内容。在每个时间步长：行1，3中的实线表示地面真实的未来轨迹，虚线表示直到该时间步长的观察到的位置，点表示该时间步长的位置。我们注意到，我们的模型经常正确地预测具有非线性运动的挑战性设置中的未来路径。我们在SEC中对这些数字进行了更详细的分析。4.1.。注意，T代表时间，id(1到4)表示个人ID。补充材料中提供了更多示例。

在图5中，我们说明了我们的Social-LSTM、SF模型[49]和其中一个ETH数据集上的线性基线的预测结果。当人们成群结队或结伴行走时，我们的模型能够联合预测他们的轨迹。有趣的是，与社会力量[73]不同，我们没有明确建模群体行为。然而，我们的模型更好地以整体方式预测分组轨迹。在图5的最后一行中，我们显示了一些失败的情况，即，当我们的预测比以前的工作更差时。我们要么预测线性路径(第2列)，要么比需要的更早减速(第1列和第3列)。虽然在这些情况下，轨迹与地面真相不匹配，但我们的Social-LSTM仍然输出“似是而非”的轨迹，即。

人类本可以采取的轨迹。例如，在第一列和第三列中，我们的模型减慢速度以避免与前面的人发生潜在的冲突。

图5.我们的Social-LSTM方法预测轨迹的图解。在前3行，我们展示了我们的模型成功预测具有较小误差(在位置和速度方面)的轨迹的示例。我们还展示了其他方法，如社会力[73]和线性方法。最后一行表示故障情况，例如，人减速或采用线性路径。然而，我们的Social-LSTM方法预测了一条似乎可行的路径。结果显示在ETH数据集[49]上。

Conclusions

我们提出了一个基于LSTM的模型，它可以联合推理多个人来预测场景中的人体轨迹。我们为每个轨迹使用一个LSTM，并通过引入新的社交池层在LSTM之间共享信息。我们将结果模型称为“社会”LSTM。我们提出的方法在两个公开可用的数据集上优于最先进的方法。此外，我们定性地表明，我们的Social-LSTM成功地预测了由社会互动引起的各种非线性行为，例如一群人一起移动。未来的工作将把我们的模型扩展到多类设置，其中几个对象，如自行车，滑板，手推车和行人共享相同的空间。每个对象在占有率地图中都有自己的标签。此外，通过将本地静态场景图像作为LSTM的附加输入，可以在我们的框架中对人-空间交互进行建模。这可以允许在同一框架中对人-人和人-空间交互进行联合建模。