摘要:
由于人类的复杂性,行人轨迹预测是一项具有挑战性的任务。在本文中,我们通过考虑每个行人的运动信息及其与人群的互动,在深度学习框架内解决问题。具体地,在深度学习中的剩余学习的推动下,我们建议顺序地预测每个行人的相邻帧之间的位移。为了预测这种位移,我们设计了一个人群交互深度神经网络(CIDNN),它考虑了不同行人对目标行人位移预测的不同重要性。特别,我们使用LSTM为所有行人建模运动信息,并使用多层感知器将每个行人的位置映射到高维特征空间,其中特征之间的内积用作两个行人之间空间亲和力的度量。然后,我们根据对目标行人的空间亲和力来对所有行人的运动特征进行加权,以进行位置位移预测。对公开数据集进行的大量实验验证了我们的轨迹预测方法的有效性。
图1。
CIDNN动机图。目标行人的动作(P.Ť) 从时间 Ť 至 t + 1 取决于它的运动,以及它对其他行人的空间亲和力 (P.五和 P6) 在时间 Ť和其他行人的动作。虽然它与行人的距离P1 很远,但是 P1 移动速度快,所以它也会影响移动 PŤ。所以轨迹预测PŤ 应考虑除固定距离的邻居以外的更多行人,不同的行人对目标行人也有不同程度的影响。
相关工作:
behavior-CNN表示在图像空间中具有位置位移图的所有行人的历史轨迹,然后CNN适于将每个行人与其邻居相关联以用于将来的轨迹预测。但是这种方法无法模拟更远的未来行人之间的潜在相互作用。
它设计了一个社交池层来捕获多个行人之间的依赖关系以及可能在更遥远的未来发生的交互,从而实现更好的性能。然而,这种社会统筹不能基于其空间位置和他们的运动信息来区分邻近行人的影响。
在本文中,我们提出了一种人群交互深度神经网络框架(CIDNN)来顺序预测每个行人的两个帧之间的坐标位移。我们假设目标行人的运动取决于其运动信息(速度,加速度),其他行人运动信息,以及目标与所有其余行人之间的空间亲和力
图2。
人群交互深层神经网络(cidnn)的体系结构。
3.1。问题描述
N pedestrians p1,...,pN , t is current time stamp (frame)
此外,许多以前的工作表明残差学习或位移预测更容易进行图像分类[8],面部对齐[28],以及姿态估计[5]。由于我们的工作顺序估计每个时间戳的坐标,因此我们建议预测相对于每个行人的当前帧的位置位移。
3.2。运动编码器模块
长期短期记忆(LSTM)网络已被证明在运动建模方面是成功的[1] [7]。将两个LSTM堆叠在一起以进行运动编码
3.3。位置编码器模块
考虑核函数:
给定两个行人,即使他们与目标人的距离相同,他们对目标行人的空间亲和力也可能不同。
i)如图1所示,两者之间有一些行人p1 和 pŤ,虽然是欧氏距离 p3 目标与目标类似 p1 到了目标,但是 p1 可能会影响目标的轨迹而不是 p3。ii)由于摄像机的视角,即使基于图像中坐标计算的两个行人对的距离相同,实际地面距离也可能不同,因此这两个行人对的空间亲和力应该是也有所不同。
具体来说,我们使用多层感知器作为位置编码器,它包含3层,并使用ReLU激活功能。这些层中隐藏节点的数量分别为32,64,128。
3.4。人群交互模块
我们可以测量两个行人之间的空间亲和力。对于一个行人pĴ,我们表示它对目标行人的空间亲和力
3.5。位移预测模块
我们使用一个具有线性的完全连接的层来映射所有行人对目标的总效果