cLSTM全文翻译

最新推荐文章于 2023-11-11 14:40:17 发布

籽鼠

最新推荐文章于 2023-11-11 14:40:17 发布

阅读量1.3k

点赞数

cLSTM

基于相干回归神经网络的人群场景理解

探索人群动力学对于理解人群场景是必不可少的，但由于人群行为中的非线性特征和连贯的时空运动模式，这仍然是一项具有挑战性的任务。为了解决这些问题，我们提出了一种相干的长短期记忆(CLSTM)网络，通过学习人群运动的信息表示来捕捉非线性人群动力学，这有助于人群场景分析中的关键任务。通过使用KeyPoint tracklet云描述人群运动模式，我们使用堆叠的LSTM模型探索嵌入到tracklet中的非线性人群动力学，通过引入相干正则化项进一步改进以捕获集体属性；最后，我们采用无监督编码器-解码器框架来学习嵌入其内在动力学的每个输入tracklet的隐藏特征。通过适当地利用学习到的特征，可以有效地进行人群场景理解，从而预测Agent的未来路径，估计群体状态，并对人群事件进行分类。在数百个公共人群视频上的广泛实验表明，我们的方法通过探索人群行为中的相干时空结构，具有最先进的性能。

1 Introduction

理解人群场景中的集体行为在视频监控和人群管理中有着广泛的应用[Sulman et al.，2008]，特别是在当今人口众多、人类活动多样化、事故频发和悲惨的时代。然而，群组不仅仅是个体的总和，因此随着群组规模的增大，与视觉相关的任务变得异常困难。过去十年见证了人群场景分析在学习全局运动模式方面的重大进展[Mehran et al.，2010；Wu等人，2010]，建模局部时空变化[Kratz and Nishino，2012；Su等人，2013]，分析个体之间的相互作用[Mehran et al.，2009]，分析群体行为[周等人，2011；2012b]，以及检测异常人群行为[Solmaz et al.，2012；Mahadevan et al.，2010；Li et al.，2010]，以及检测异常人群行为[Solmaz et al.，2012；Mahadevan et al.，2010；Li et al.。最近，Li等人。[2015]对人群场景理解的最新技术进行了全面的综述。

虽然已经开发了各种方法，但是在理解人群场景方面仍然没有被公众接受的框架，特别是在发生极端杂波或严重遮挡的情况下。最基本的挑战之一是人群时空行为模式表现出丰富的非线性动力学行为，如极限环、准周期甚至混沌。个体之间的这种非线性相互作用总是导致各种复杂的时空运动模式，例如，瓶颈处行人流量的振荡[Helbing和Johansson，2009]。人群建模中流行的线性动力系统[Lin et al.，2009；Shao et al.，2014]可能无法捕获非线性特征。虽然在人群模拟中研究了人群运动的非线性特征[Massink et al.，2011]，但在基于视觉的人群运动分析中很少进行尝试。

人群行为分析中的另一个挑战是集体效应(或连贯运动)[周等人，2012a；2014]，例如，人群中的行人倾向于通过与其他邻居对齐而形成连贯的群体。与个体运动现象不同，即使在没有外部计划或组织的情况下，也广泛存在着各种各样的自组织时空模式，这已经用社会力假设得到了很好的解释[Helbing and Johansson，2009]。在这种情况下，不利用相干特征的方法可能会阻碍捕获固有人群动态的能力。例如，从多任务深度架构学习的人群特征[Shao et al.，2015]，虽然比手工制作的特征更有效，但在人群行为分析中缺乏考虑基本的非线性时间相关性和相干运动。最近，利用热能场检测人群场景中的相干运动，从而有效地识别预定义的活动[Lin等人，2016；Wang等人，2014]。然而，它仍然未能探索非线性人群动力学，这阻碍了复杂人群行为的表现。

1.1我们的建议

为了解决上述挑战，我们建议使用相干的长期短期记忆(LSTM)架构来探索人群动力学，该架构使用堆叠的LSTM来研究人群行为的非线性，并使用相干正则化来增强时空结构的一致性。

最近，深度学习[Schmidhuber，2015]在与视觉理解[Simonyan and Zisserman，2014]和场景分析[Ramanathan et al.，2015]相关的几个视觉任务中取得了最先进的表现，部分原因是其良好的非线性建模能力。它启发我们用深层次的建筑模型来探索人群行为的非线性动力学。具体地说，我们基于长期短期记忆(LSTM)[Hochreiter和Schmidhuber，1997]网络构建我们的模型，这是一种用于时态数据建模的改进的递归神经网络(RNN)。LSTM已被证明在生成图像字幕[Vinyals等人，2015]和视频描述[Donahue等人，2015]的任务上是成功的，因为它通过克服传统RNN的梯度消失和爆炸问题提供了探索长期动态的良好可能性[Lipton，2015]。为了应对长期人群行为中的非线性动力学，我们使用多层LSTM网络来学习人群轨迹1的信息表示，这些轨迹比长轨迹更保守且不太可能漂移。

为了捕获相干的时空结构，我们进一步改进了多层LSTM网络，通过引入相干正则化项来模拟相干组内相邻行人之间的局部空间和时间依赖性。因此，LSTM中的存储单元不仅存储其自身Tracklet中嵌入的动态信息，而且还存储其相邻代理的动态信息。所得到的模型被表示为相干LSTM(CLSTM)。

最后，我们采用无监督的LSTM自动编码器框架[Sriastava等人，2015]来学习一种表示法来探索人群动力学，从而显著减少收集标记数据的繁琐努力。具体地说，堆叠的cLSTM首先将输入tracklet编码为隐藏特征，随后解码该隐藏特征以再现输入tracklet。通过利用隐藏特征和相干正则化，我们可以将过去的动态外推到未来，并通过递归展开特征到未来来预测超出所观察到的运动。人群场景分析中更关键的任务也使用学习的表示法进行，包括群体状态估计和人群事件分类。

总之，我们的工作与现有的研究[Shao等人，2014；2015]的显著不同在于，人群动态是通过LSTM模型捕获的，该模型是“深度的时间”，可以识别时域中的信息结构。据我们所知，这项研究是首次尝试用LSTM研究人群运动模式的非线性特征。我们的主要贡献是：

·我们建议使用堆叠的LSTM模型来研究人群动力学，以便更好地捕捉复杂和非线性的人群运动模式；

·为了考虑人群运动模式中的集体属性，我们提出通过引入相干正则化来改进LSTM，该正则化鼓励一致的时空隐藏特征；

·最后，我们将从相干LSTM中学习到的隐藏特征用于人群场景分析中的关键任务，包括未来路径预测、群体状态估计和人群行为分类。实验证明了我们方法的最先进的性能。

2使用cLSTM模拟人群运动

我们考虑用一组tracklet{xt}描述人群运动模式，因为它在人群行为中具有可解释的语义[Li et al.，2015]，如图1所示。在本节中，我们旨在从这些tracklet中提取信息特征以探索人群动力学，这有助于人群场景分析中的后续任务。为此，我们首先介绍基本的相干LSTM单元，该单元与相邻代理一起使用其自身的tracklet更新其内存；然后，我们进入相干正则化项的细节，并通过堆叠相干LSTM单元来描述LSTM模型。

图1：人群运动模式的Tracklet样本。

2.1相干长短期记忆单元

LSTM在对序列数据的非线性动力学建模方面具有强大的能力[Lipton，2015；Greff等人，2015]。如图2所示，每个LSTM单元具有作为存储器的单元，其通过用非线性门调节流入/流出LSTM单元的信息流来维持其在时间t的状态CT[Greff等，2015]。

具体地说，通过包括输入门It的S型门来控制单元的状态，该输入门It将在先前时间步长ht！1处从当前数据点xt和隐藏层的激活视为

以及遗忘栅极ft，其使得单元能够将其状态重置为

其中ws是具有适当大小的权重矩阵；bs是偏差向量。注意，对应于单元状态的所有WC·矩阵都是对角的，而其余的是全矩阵。输入端子处的总输入通过tanh非线性，并乘以输入门it的激活，然后将其添加到单元状态ct！1乘以忘记门的激活ft as

其中是元素乘法。LSTM单元ht的最终输出是通过将通过tanh非线性的更新单元状态与输出门的激活相乘来计算的

where ot is the output gate as

输出栅极OT控制应该将多少存储单元转移到隐藏特征。与传统的RNN相比，LSTM中的额外细胞将随着时间的推移对活动进行求和。这种策略避免了快速梯度消失，并使LSTM能够在人群行为分析中学习极其复杂和长期的时间动态。

与个体行为不同的是，群体中普遍存在相干运动现象[周等，2012a]，因为个体总是愿意参与“种子”群体，形成空间相干结构。因此，我们提出通过考虑相邻tracklet来改进传统的LSTM。模型背后的直觉是，如果两个tracklet的动态在空间和时间域是一致的，即当个体的相邻关系随时间保持不变或其速度的相关性保持高时，它们往往具有相似的隐藏状态。为此，我们建议通过将其自身的状态与其相邻的代理结合在一起，通过相干正则化来更新存储单元，例如

其中N表示相干组内的相邻tracklet的集合；和对应于相干组中LSTM的忘记门和小区状态；以及加权tracklet之间的依赖性，如下所述。

2.2相干运动建模

在本节中，我们首先研究相干组中的代理之间的依赖性，这是使用相干过滤发现的[周等人，2012a]，如图3所示。具有相似运动模式和趋势的相干关键点用相同的颜色标记

图3：使用相干滤波的组检测[Zhou等人，2012a]，其中不同的组用不同的颜色表示(最好在彩色版本中查看)。

同一组内的两个tracklet之间的依赖关系是用它们的成对速度相关性来度量的，如下所示

其中vi(T)和vj(T)分别是第i和第j条轨迹的速度。方程中第i和第j个tracklet之间的依赖系数。(6)定义为

其中Zi是对应于第i个tracklet的归一化常数。“当tracklet i和j相似时，趋于1，当tracklet变得不同时，相反。在这种情况下，我们的具有相干正则化的模型鼓励tracklet通过在相干组内的tracklet之间共享信息来学习相似的特征分布

为了模拟长期人群动态，还通过将LSTM彼此堆叠来向LSTM添加额外的深度，即，使用第(l$1)层中的LSTM的输出作为第l层中的LSTM的输入，如图4所示。

图4：我们堆叠了一系列相干LSTM单元，通过将相干组中的tracklet映射到相似的隐藏特征来捕获时变的非线性人群动力学，这是通过结合相干正则化进行的。

3基于cLSTM的人群场景分析

在本节中，我们描述了一个使用相干LSTM来生成隐藏特征的非监督编码器-解码器框架，该隐藏特征嵌入了每个tracklet的固有特征。它与自动编码器的思想相似[Vincent et al.，2010]，使得通过最小化复制序列和目标序列之间的差异来优化参数。人群场景分析中的关键任务是基于隐藏特征进行的，例如未来路径预测、群体状态估计和人群行为分类。

为了学习信息表示，我们采用受[Donahue et al.，2015]启发的“编码器-解码器”方法，该方法由编码器相干LSTM和解码器相干LSTM组成，如图5所示。编码器相干LSTM通过tracklet运行以提出隐藏特征，该隐藏特征被解码以产生具有解码器相干LSTM的目标序列。请注意，我们的模型允许再现输入tracklet，并且还提供了一种通过利用隐藏的特征来预测不可见的未来路径的方法。

图5：具有相干LSTM的编码器-解码器框架。编码器生成每个tracklet的隐藏特征，解码器再现输入tracklet并预测未来路径。

在编码阶段，我们获得Tracklet的表示向量，其中编码器相干LSTM跟随在Eq之后。(4)AS

其中cLSTMe是将输入轨迹小程序映射到隐藏特征的编码操作；XT和HT！1分别是时间步T处的输入轨迹小程序和前一时间步T$1处的隐藏特征向量。

至于重建解码器，相干LSTM为每个tracklet生成一组估计的tracklet xˆ，其再现输入tracklet，但以相反的顺序来避免长程相关性，如

其中cLSTMdr递归地解码表示以再现输入tracklet；ht是从Eq中的隐藏特征HT导出的特征。9.当训练模型时，通过最小化输入轨迹小程序和再现轨迹小程序之间的重构误差来优化参数{ws，bs}。

除了解码器LSTM外推未来路径之外，预测解码器类似于重构解码器的预测解码器。具体地说，预测是通过以下方式展开隐藏特征来实现的

其中cLSTMdp是通过考虑相干运动来预测从隐藏特征导出的代理的未来路径的解码操作。在训练阶段，将训练数据集中的tracklet分为两个片段和。将前一个片段输入到编码器以学习隐藏特征，该隐藏特征用于通过最小化原始和估计tracklet之间的差异来预测后一个片段。修改参数T0以调整片段之间的长度比，这增强了固有的进化动力学被很好地捕获

路径预测的成功在于这样的事实，即从编码器生成的隐藏状态捕获轨迹小程序的动态以预测相干组内的未来，这通过与相干正则化结合而进一步增强，如图6所示的示意图

总之，我们通过使用cLSTM模型将tracklet映射到隐藏特征来捕获固有的人群动态。通过适当地利用这些特性，我们重构了输入tracklet，并预测了未来的路径。面向重构的编码器将遭受记忆输入的倾向，并且未来预测器将遭受忽略初始帧的趋势，因为来自最后几个帧的更显著的影响。因此，所提出的方法通过相互增强来鼓励更固有的特征，使得特征通过不只是记忆信息来保持嵌入在整个序列中的动态性。

3.1 Crowd Scene Profiling

通过我们的相干LSTM模型正确地捕获人群动态，可以根据学习的特征来执行人群场景分析中的关键任务，例如，理解群体状态和识别人群行为。

具有连贯时空结构的群体的状态通常被认为是气体、固体、纯流体和不纯流体[Shao et al.，2014]，这与多种社会心理和物理因素有关，例如人群密度、目标、群体成员之间的相互作用等。在本节中，我们使用学习的表示实现群体状态估计，因为它嵌入了相干群体的动力学。

具体地说，我们将从无监督cLSTM学习到的特征馈送到Softmax分类器，该分类器基于一致组内tracklet的动态推断组状态为

其中，如果谓词为真，则1(·)是具有值1的指示器函数，否则为0；⌘c是用于对对应于类c的隐藏特征进行加权的参数；hi(T)是对应于在时间步长t的组中的第i个tracklet的隐藏特征；N表示相干组中的tracklet的总数；以及T是tracklet的长度。项log Nc Pc=1 e⌘T c hi(T)使分布正规化，以保证概率条件。通过最大化Softmax回归进行可靠的推断。

除了估计每个个体组的状态外，我们还通过在人群视频中所有轨迹小程序的顺序隐藏特征上训练另一个Softmax分类器来实现整体人群视频分类，产生整体人群行为类别上的分布。复杂人群行为识别的成功取决于这样一个事实，即组成cLSTM的深层可以导致在探索人群运动中的非线性和相干时空结构方面具有强大的能力

4 Experimental Results

在本节中，我们将演示从我们的算法中学习的特征在人群场景分析中的三个关键应用中的有效性：行人未来路径预测、群体状态估计和人群行为分类。评估是在中大人群数据集[Shao et al.，2014]上进行的，该数据集包括许多环境(例如街道、机场等)中具有不同密度和透视比例的人群视频。该数据集还提供KeyPoint tracklet的地面真相、群体状态和人群视频分类。它由400多个序列组成，总共有20多万条tracklet。

在每个实验中，我们构建了一个具有128个隐藏单元的相干LSTM，这样输入tracklet就被映射到128维的隐藏特征。与[Shao等人，2014]中的工作类似，我们随机选择序列中一半的tracklet进行训练，其余用于测试。在优化预测未来路径的参数时，我们将每个tracklet分成两个片段，并使用从第一个片段(例如，每个tracklet的2/3)学习的隐藏特征来预测后一个片段(例如，剩余的1/3 tracklet)。

4.1行人未来路径预测

我们首先通过将我们的方法与卡尔曼滤波的基线方法进行比较来测试我们的路径预测框架的性能，卡尔曼滤波的基线方法通过将线性动态模型与当前状态的不确定性相结合来实现路径预测，其不能捕获复杂人群运动的非线性特征和利用相干群体的信息。我们还通过忽略相邻代理之间的相干正则化，使用所提出的cLSTM模型的一种变体进行路径预测，称为非相干LSTM。在每个实验中，我们将Tracklet的片段作为输入(例如，本文中每个Tracklet的2/3)，重构它们，然后生成其余的预测Tracklet(例如，每个Tracklet的1/3)以评估性能。

图7：具有相干正则化的未来路径预测，其中红色路径是从KLT跟踪器获得的可靠tracklet，绿色路径是来自cLSTM的预测路径。

样本结果如图7所示，其中红色tracklet是用KLT跟踪器[Baker and Matthews，2004]获得的路径，后面是用我们的cLSTM预测模型生成的tracklet的绿色曲线。结果表明，通过考虑相干正则化，我们的算法能够捕捉到每个Tracklet的内在动态，反映了相邻Agent的趋势。由于可以很好地预测近期的路径，因此在严重事件发生之前就提供了很好的可能性来防止它们的发生。

在表1中，我们根据预测误差报告了路径预测的定量性能，预测误差测量了以像素为单位的地面真实轨迹小程序和估计路径之间的平均距离。结果表明，我们的方法明显优于其他方法。

与卡尔曼滤波的基线方法相比，我们的cLSTM捕捉到了人群行为的固有非线性，使得复杂的人群运动预测精度很高；此外，我们的方法还得益于运动人群的集体属性所带来的相干正则化

表1：路径预测误差

4.2组状态估计

组状态很好地反映了人群的特征，这在各种应用中都很有用。在中大的群组数据集[Shao et al.，2014]中，群组被分为四种状态：Gas2，Solid3，Pure Fluid4和Inpute Fluid5。具有不同状态的组的样本如图8所示。

图8：经历不同状态的组的样本。

在本节中，我们使用我们的cLSTM学习的隐藏特征来训练Softmax分类器，然后实现组状态估计。作为比较，我们还通过馈送从所提出的cLSTM模型的变体中学习的描述符来进行组状态估计，包括仅以预测未来路径为目标的预测LSTM，通过忽略预测分量来重构LSTM，以及通过忽略相干正则化来非相干LSTM。此外，我们还报告了基于集体转换的结果[Shao等人，2014]，这是组状态估计中最先进的算法。

图9中报告了根据混淆矩阵进行的定量评估。显然，我们提出的具有相干LSTM的算法(图9(E))优于其他方法。作为一种基线方法，基于集体转变的群体状态估计[Shao et al.，2014](图9(A))通过线性转变矩阵探索人群动态，这对于具有复杂运动模式的群体无效，例如，当群体经历不纯流体状态时。当我们忽略预测LSTM(图9(B))或重建LSTM(图9(C))的重构或预测分量时，性能也会降低，因为预测LSTM倾向于维护最后几个帧的信息而不是整个tracklet，并且重构LSTM有记忆tracklet而不是探索内在动力学的倾向。当我们使用非相干LSTM(图9(D))在不考虑集体属性的情况下实现组状态估计时，性能明显低于我们的cLSTM方法，特别是对于具有组织结构的组，例如经历固态或流体状态的组。

4.3 Crowd Video Classification

最后，我们展示了我们的方法在根据场景中的整体人群行为对人群视频进行分类的有效性。在中大的人群数据集[Shao et al.，2014]中，所有的视频片段都被注释为8类，在人群视频中常见的是：1)高度混合的行人步行；2)跟随主流的人群行走，组织良好；3)主流但组织不良的人群行走；4)人群融合；5)人群分裂；6)相反方向的人群横穿；7)干预的自动扶梯交通；8)顺畅的自动扶梯交通。(3)人群融合；5)人群分裂；6)相反方向的人群横穿；7)干预的自动扶梯交通；8)顺畅的自动扶梯交通。

类似于组状态估计的实现，我们通过将我们的相干LSTM学习到的表示馈送到Softmax分类器来进行人群视频分类。作为比较，还使用所提出的cLSTM方法的变体来实现人群视频分类，包括预测LSTM、重建LSTM和非相干LSTM(详细信息参见第4.2节)。此外，我们还与集体转型进行了比较[Shao et al.，2014]。在图10中，我们报告了基于我们的cLSTM的人群视频分类中的混淆矩阵，这表明视频被分类为高质量的特定类别。

在图11中，我们展示了如上所述的各种方法对每个类别的人群视频分类的准确性。我们可以看到，相干LSTM在总体上优于其他方法，因为它通过同时考虑相干运动来捕捉嵌入在复杂人群运动中的非线性动力学，特别是对于具有高度非线性的人群，例如高度混合的行人行走。我们的方法明显优于集体过渡方法[Shao et al.，2014]，后者未能探索人群运动的非线性特征，同时忽略了人群视频中的相干时空结构。请注意，跟随主流且组织良好的人群行走的视频被集体过渡很好地识别，因为这些视频的人群运动在大多数情况下满足集体过渡的线性动力学假设。

我们的cLSTM还受益于通过将重建与预测任务结合在一起而精确的隐藏特征。显然，无论是预测LSTM还是重构LSTM都不能捕捉整体人群运动的内在动力学，这降低了视频分类的性能。此外，当人群中的集体性很大时，例如人群合并或分裂，相干正则化的效果也是必不可少的。

图10：基于相干LSTM的人群视频分类的混淆矩阵。有关每个类的名称，请参见文本。

图11：使用不同方法的人群视频分类的每类准确率比较。有关每个类的名称，请参见文本。

5 Conclusions

我们提出了一种新的具有相干长短期记忆(CLSTM)单元的递归神经网络来理解人群场景。为了解决复杂人群场景中的非线性动力学问题，我们提出用LSTM将一组描述人群运动模式的tracklet映射到隐藏特征，从而可以跟踪输入tracklet。为了考虑移动人群的集体属性，我们引入了相干正则化，使得通过考虑具有相干运动的轨迹小块的动力学来更新存储单元，这鼓励学习的隐藏特征具有一致的空间和时间结构。通过适当地利用内在动力学，我们的算法还提供了一种预测未来可能的路径的方法，这对于人群管理在发生严重事故之前防止它们是非常重要的。在真实数据集上的大量实验表明，我们的方法在群体状态估计和人群视频分类方面优于其变体和替代方法。