Group LSTM全文翻译

最新推荐文章于 2024-07-03 19:28:58 发布

籽鼠

最新推荐文章于 2024-07-03 19:28:58 发布

阅读量1.2k

点赞数 1

群体LSTM：拥挤场景中的群体轨迹预测

抽象的。拥挤场景的分析是视觉监控中最具挑战性的场景之一，需要考虑多种因素，例如环境的结构，以及相互遮挡和障碍的存在。传统预测方法(如RNN，LSTM，VAE等)。基于行人的精确运动历史，专注于预测个人的未来路径。然而，由于跟踪算法在高密度场景中通常是不可靠的，因此这些方法在实际环境中不容易应用。然而，人们(朋友、夫妇、家庭成员等)。倾向于表现出连贯的运动模式。在这种现象的激励下，我们提出了一种在群体水平上预测拥挤场景中未来轨迹的新方法。首先，通过利用运动相关性，我们对具有相似运动趋势的轨迹进行聚类。这样，可以很好地分割同一组内的行人。然后，采用改进的社会LSTM进行未来路径预测。我们在标准人群基准(UCY数据集和ETH数据集)上评估了我们的方法，证明了它的有效性和适用性。

1 Introduction

人群分析是计算机视觉领域的一个热点问题，在视觉监控中有着广泛的应用。人群分析中的主要挑战包括：人群动力学建模[43，5]；人群分割[4]；人群活动分类[33]；异常行为检测[16，25]；密度估计[30]；以及人群行为预期[2]。

其中，群体行为预测是一个新兴的任务，由于机器学习的快速发展，特别是应用于时间序列分析的深度学习技术(如RNN[34]，GRU[9]，LSTM[18]和VAE[22])，已经引起了相当多的关注。

与人群行为识别不同，预测任务有其显著的特点，一般是通过观察场景中运动主体的运动历史来实现的。在一些具体的应用中(如预警、异常事件检测、碰撞避免)，预测比活动识别更具有相关性，因为危险行为应该事先得到警告。传统的方法只能进行一步预测(如卡尔曼滤波、粒子滤波、马尔可夫链等)；由于深度学习，长期预测逐渐变得适用。

一开始，研究人员只关注于预测个人的未来道路。相应的模型高度依赖于行人的精确运动历史，因此在非常密集的环境中通常是难以处理的，这是由于在频繁的相互遮挡存在的情况下目标跟踪算法的不稳定性。

然而，连续和精确的基于帧的跟踪可能不是必需的。事实上，在大多数情况下，人们更关注场景的整体动态。人们聚集在一起，一起行动，会产生并展示宏观的显著特征，而这些特征是值得观察的。这种粗略级别的信息通常映射人口密集和人口稀少的区域，包括方向和流动特征，以及最终目的地。因此，在这种情况下，将重点放在小组活动而不是个人活动上更有意义。众所周知，在人群中移动的人通常倾向于遵循一系列隐含的社会规则[28]。例如，当一辆车或另一群人接近时，个人倾向于加快或放慢步伐以避免碰撞；人们更喜欢保留个人空间，从而与邻居保持一定距离；行人倾向于跟随在他们前面的人，特别是在拥挤的情况下，以防止碰撞。

集中在分组上，朋友/夫妇/家庭倾向于按照连贯的运动模式移动是非常常见的。基于这一假设，我们提出了一种在群体水平预测未来轨迹的新方法，以便从整体的角度进一步分析拥挤的场景。首先，利用运动相关性，对具有相似运动趋势的轨迹进行聚类。这样，同一组内的行人可以被高亮显示和分割。最后，提出了一种改进的社会LSTM来估计未来的路径预测。

本文的主要工作总结如下：

-我们提出了一个新的群体行为预测框架；

-我们采用了一种改进的相干滤波来提高轨迹聚类的性能；

-我们提出了一种基于群体动力学的行人长期预测策略。

本文的其余部分安排如下：第2节简要回顾了人群分析领域的相关工作。所提出的框架，称为组LSTM的简洁性，将在第3节中描述，包括轨迹聚类和组路径预测的步骤。第四节给出了实验结果，第五节总结了结论和今后的工作。

2 Related work

关于人群分析最近工作的详细文献，特别是关于人群动态建模、社会活动预测和群体分割的主题，可以在最近的一些调查中找到[24][13][20]。在接下来的段落中，我们将集中讨论两个具体的子主题，即群体分析和预测。

2.1 Group analysis in crowds

在早期的方法中，采用轨迹来表示人群中的低水平运动特征。通过对具有相似运动趋势的轨迹进行聚类，可以将行人聚集到不同的组中。在[42]中，利用传统的k-means算法来学习场景中的不同运动模态。在[21]中，支持向量聚类被用来对行人进行分组。在[44]中，提出了相干滤波来检测拥挤环境中的相干运动模式[40]。

就集体活动的代表性而言，GE等人。[12]致力于对一起旅行的小个体群体的自动检测。Ryoo等人。[31]介绍了群体活动的概率表示，目的是为了识别不同类型的高水平群体行为。[41]研究静止人群群与行人之间的相互作用，以分析行人的行为，包括步行路径预测、目的地预测、个性分类和异常事件检测。Shao等人。[32]提出了一系列与场景无关的描述符来定量描述群体属性，如集合性、稳定性、均匀性和冲突性。Bagautdinov等人。[7]提出了一个统一的端到端框架，用于使用深层循环网络的多人行动定位和集体活动识别。

2.2社会活动预测

预测社交活动最近得到了相关的关注，特别是在人群分析方面。这一研究领域相当多样化，涉及轨迹预测、交互建模和上下文建模。在社会活动分析的开创性研究中，Helbing等人。[17]介绍了众所周知的社会力模型(SFM)，它能够描述人与人之间的社会互动[23，27]。其他模型，如连续人群模型[36]和相互碰撞避免[37]，能够使用先验再现人类相互作用。在[3]中，提出了社会亲和力地图(SAM)特征和起源和目的地(OD)先验，以使用多视图监视摄像机预测行人的目的地。Robicquet等人。[29]介绍了一个大型数据集，其中包含使用空中摄像机的各种类型的目标(行人、自行车、滑板、汽车、公交车和高尔夫球车)，以便评估真实室外环境中的轨迹预测性能。在[1][26]中，还考虑了上下文信息，以对场景的静态配置和动态演变进行建模。

最近，神经网络被用于预测拥挤视频中的事件。特别是，随着深度生成模型(如RNN，LSTM，VAE)的出现，序列到序列的生成问题可以得到适当的解决，使得直接处理长期预测任务成为可能。Alahi等人。[2]提出了所谓的社会-LSTM(Social-LSTM)，通过添加一个新的社交池层来建模邻域中的人与人之间的交互；在[22]中，Lee等人。提出了一种深度随机IOC RNN编解码器框架，用于预测动态场景中多个交互Agent的未来路径。Ballan等人。[8]考虑移动代理的动力学和场景语义，以预测场景特定的运动模式。

社会活动往往不仅受到运动动力学的支配，而且还受到人的因素的驱动。Jain et al.。[19]采用了结合时空图和递归神经网络的结构化RNN来对场景中的运动和相互作用进行建模。Fernando等人。[38]将软注意和硬线注意同时应用于社会LSTM，显著提高了轨迹预测性能。Varshneya等人。[6]提出了一种软注意机制来预测个体的路径，该机制利用了空间感知的深度注意模型。Vmula et al.。[39]提出了一种新颖的社会注意力模型，该模型可以捕获每个人在场景中导航时的相对重要性。

3 Group LSTM

行人在拥挤场景中的运动很大程度上受到周围其他人的行为及其相互关系的影响。静止的群体，一群行人走在一起，来自相反方向的人，会对一个行人采取的行动产生不同的影响。因此，在预测人群中个人的行为时，有必要将邻里的人考虑在内

为了实现这一目标，我们提出了一个框架，该框架能够考虑感兴趣的主题是否与其周围的行人一致地行走。通过利用相干滤波方法[44]，我们首先检测人群中相干运动的人，然后采用社会LSTM来预测未来的轨迹。通过这种方式，我们能够提高预测性能，考虑场景中与社会相关和无关的行人之间的交互。

3.1行人轨迹聚类

相干运动描述粒子在人群中的集体运动。相干滤波研究的是描述相干邻域不变性的先验，即相干运动的粒子之间的局部时空关系。该算法基于两个步骤。首先，它检测场景中行人的相干运动。然后，将相干移动的点关联到相同的群集。点群集将继续发展，新的群集将随着时间的推移而出现。最后，将每个行人i分配给群集si。相干滤波的输出由以相干方式运动的人的集合si(i=1，2，···，n)组成。如果行人没有移动或不属于任何相干组，则将其视为属于自己的集合

相干滤波最初依赖于KLT跟踪器[35]，旨在检测用于跟踪的候选点并生成轨迹，然后将其用作算法的输入。KLT跟踪器可能会检测到每个行人的许多关键点，因此关键点的数量和行人的数量之间没有明确的对应关系。我们的目标是将行人分成组，其中组中的每个个体都使用单个点表示，如图1所示。为此，在不损失一般性的情况下，我们直接将相干滤波算法应用于行人轨迹的地面真相。

图1.每个行人由一个关键点表示。在同一方向行走的行人被聚集到一个组si中。在这个例子中，识别了两组朝相反方向走的行人。

3.2 Group trajectory prediction

我们推广了Alahi等人的工作。[2]，其通过引入所谓的社交集合层来对邻近区域中的行人之间的关系进行建模。在社交LSTM模型中，使用如图2所示的LSTM网络对行人进行建模。此外，每个行人通过社交集合层与其邻居中的其他人相关联。社交汇聚层允许行人共享他们的隐藏状态，从而使每个网络能够基于个人自己的隐藏状态和邻居中的隐藏状态来预测个人的未来位置。

图2.图2表示两个连续时间点t和t+1之间的lstm网络的链结构。在每个时间点，lstm单元的输入是先前位置(xi t−1，yti−1)和社会集合张量hti。LSTM单元的输出是当前位置(xi t，yti)。

场景中时间实例t处的第i个行人由LSTM网络中的隐藏状态hi t表示。我们分别将隐藏状态维度设置为D，将邻域大小设置为N0。第i个代理pedi的邻域使用张量Hi t来描述，如在Eq中。1，尺寸为N0×N0×D：

（和Social LSTM一样，加了高亮那部分）

其中1mn[x，y]是用于选择邻域中的行人的指示函数。在等式中定义为。2：

如果两个行人i和j属于相同的相干集合si，则在为他们中的每一个计算社交集合层时将不会考虑它们。函数是如公式中定义的指示器函数。3：

这样做，每个行人的社交池层只包含关于行人的信息，行人与他的移动不一致。

一旦计算，社会隐藏状态张量被嵌入到向量ai t中。输出坐标被嵌入到向量ei t中。遵循[2]中定义的递归，我们可以逐渐预测我们的轨迹

4 Results

4.1 Implementation details

首先，我们需要配置相干滤波来对行人进行聚类。为此，根据原始实现，我们使用K=10，d=1和λ=0.2。

对于我们的LSTM网络，我们采用以下配置。空间坐标的嵌入维度被设置为64。对应于4×4 m2的空间池大小被设置为32。使用大小为8×8且没有重叠的和池窗口来执行池操作。隐藏状态维度为128。学习率设置为0.003，rms-prop[11]用作优化器。该模型使用PyTorch3实现在单个GPU上进行训练。

图3.社会隐藏状态张量Hti的表示。黑点代表感兴趣的行人。其他行人PEDj(∀j 6=i)以不同的颜色代码显示，即属于同一集合的行人为绿色，而属于不同集合的行人为红色。PEDI的邻域由N0×N0单元描述，通过汇集空间相邻的邻域来保存空间信息。属于同一集合的行人不用于池层Hti的最终计算。

4.2定量结果

我们的实验是在两个公开可用的数据集上进行的，这两个数据集通常用作拥挤场景的标准基准，即UCY数据集[23]和ETH数据集[27]。

这两个数据集呈现了一个相当大的真实世界轨迹集，涵盖了我们研究中特别感兴趣的各种复杂人群行为。

与其他工作[27，2]相同，我们使用以下两个度量来评估我们的结果：

-平均位移误差(ADE)，即预测路径的每个点相对于地面真实路径的平均位移误差(以米为单位)。

-最终位移误差(FDE)，即预测轨迹的最终点与地面真实轨迹的最终点之间的距离(以米为单位)。

在我们的实验中，我们遵循与[2]中采用的相同的评估程序。使用Leave-One-Out策略对模型进行训练和验证。我们对4个视频进行训练，并对剩下的一个进行测试，以获得预测结果。对于训练和验证，我们使用0.4秒的时间间隔观察和预测轨迹。我们观察8个时间步的轨迹并预测接下来的12个时间步，这意味着我们观察TOB的轨迹=3.2秒，并预测下一个tpred=4.8秒。在训练阶段，仅考虑在场景中保留至少8秒的轨迹。

我们将我们的方法与Social LSTM模型[2]及其最新变体[14]进行了比较。我们还将我们的模型与线性模型进行比较，线性模型使用卡尔曼滤波器在线性加速度的假设下预测未来的轨迹，如[2]中所述。数值结果如表1所示

我们的方法平均性能优于或等于其他方法，特别是在UCY数据集上。这是由于场景中的人群流动的特征，通常由易于识别的朝相反方向行走的组组成。然而，对于ETH数据集，运动模式更加多样和混乱。

我们的结果表明，当考虑没有相干运动的行人时，预测性能可以得到改善。我们认为，运动的变化和轨迹的演变主要受行人的影响，行人相对于感兴趣的行人朝不同的方向移动。人们走在一起，相反，松散地相互影响，因为他们的行为就像是在一个群体中。

表1.分别在UCY和ETH数据集上使用我们的Group-LSTM和提到的基线方法的定量结果。对于观测间隔TOBS=3.2秒和后续tpred的预测=4.8秒，报告两个误差度量，即平均位移误差(ADE)和最终位移误差(FDE)(以米为单位)。我们的模型优于其他方法，特别是在平均误差方面。

4.3定性结果

在第4.2节中，我们已经表明，仅考虑行人不一致移动可以提高预测精度。在本节中，我们将进一步评估预测轨迹的一致性。

作为一般规则，基于LSTM的轨迹预测方法遵循数据驱动方法。此外，人群中行人的未来规划很大程度上受他们的目标、环境和他们过去的运动历史的影响。在社会层汇集正确的数据可以显著提高预测性能。

为了保证可靠的预测，我们不仅需要考虑时空关系，还需要保持行为的社会性。根据人际距离[15，10]的研究，与不知名的行人相比，社交相关的人倾向于在他们的个人空间中保持更近的距离，并在拥挤的环境中走在一起。仅汇集无关的行人将更多地关注宏观的组间交互而不是组内的动态，从而允许LSTM网络提高轨迹预测性能。如果两个行人在一组中走在一起，则碰撞避免以类似的方式影响行人未来的运动。

在表2、3和图4中，我们显示了一些预测轨迹的演示，这些演示突出了我们的Group-LSTM如何能够以更高的精度预测行人轨迹，显示了当我们将每个行人的社会张量集中在每个不属于他的组的行人的社会张量中时，预测是如何改进的。

在表2中，我们显示了两个行人在人群中走在一起时，当他们没有被集中在对方的池层中时，预测是如何提高的。当两个行人汇聚在一起时，网络对他们施加典型的排斥力，以避免相互碰撞。由于他们是在同一组，他们允许其他行人留在他们的个人空间更近。

在图4中，我们显示了两组走向彼此的序列。在表3中，我们展示了两组预测相对于Social LSTM是如何改进的。虽然这两种预测都不是很准确，但我们的Group LSTM表现更好，因为它能够预测属于同一组的行人在导航环境时将如何保持在一起。

表2.ETH数据集：在每个行人的社会张量中汇集不属于他的组的行人时，预测得到了改进。绿点代表地面真实轨迹；蓝色十字代表预测的路径。

5 Conclusion

在这项工作中，我们解决了拥挤场景中的行人轨迹预测问题。我们提出了一种新的方法，将相干滤波算法与LSTM网络相结合。相干滤波用于识别人群中一起行走的行人，而LSTM网络用于通过利用组间和组内动力学来预测未来的轨迹。实验结果表明，在两个公共基准(UCY和ETH数据集)上，提出的Group LSTM在预测任务上优于Social LSTM。对于未来的工作，我们计划进一步研究社会关系以及固定障碍物如何影响其他行人的行为。