论文翻译:Ensemble Deep Learning for Skeleton-based Action Recognition using Temporal Sliding LSTM networ

研究了骨骼关节的特征表示和动作识别的时间动力学建模问题。传统方法一般使用依赖于某些节点的相对坐标系,只对长期依赖进行建模,而不考虑短期和中期依赖。我们不以原始骨架作为输入,而是将骨架转换为另一个坐标系,以获得对尺度、旋转和平移的鲁棒性,然后从中提取显著运动特征考虑到不同时间步长的长短期记忆(LSTM)网络能够很好地建模各种属性,我们提出了一种新的基于骨架的动作识别集成时域滑动LSTM (TS-LSTM)网络。该网络由短期、中期和长期TS-LSTM网络组成。在我们的网络中,我们利用多个部分之间的平均集合作为最终特征,以捕获各种时间依赖性。我们评估了所提出的网络和附加的其他架构,以验证该方法的有效性。并在五个具有挑战性的数据集上与其他几种方法进行比较。实验结果表明,我们的网络模型通过不同的时间特征实现了最先进的性能。此外,通过对多部分softmax特征的可视化,分析了识别动作与多项TS-LSTM特征之间的关系。

介绍
人类动作识别是计算机视觉研究人员所研究的具有挑战性的任务之一。它有许多重要的应用,包括视频监控、人机交互、游戏控制、体育视频分析等。传统的行为识别研究主要集中在对行为的识别上。在单目RGB视频序列中,单目视频传感器很难完全捕捉三维空间中的人体动作。在过去的几十年里,随着三维数据采集技术的快速发展,大量关于三维数据中人类活动识别的研究得以积极开展。

          人体可以用一种称为人体骨架的棍状图形来表示,它由关节连接的线段组成,关节的运动是整个图形[1]运动估计和识别的关键。因此,如果能够在三维空间中可靠地提取和跟踪人体骨骼,则可以通过对骨骼的时间运动进行分类来进行动作识别。目前,利用实时骨架估计算法,深度传感器可以获得可靠的关节坐标[15,22]。这些有效的姿态估计技术促进了基于骨架的动作识别的研究。

          基于人体骨架的动作识别有两个相关问题。第一个是输入数据的问题。变化,如比例,旋转和平移,另一个是人类行为的建模,是可变的,动态的,彼此相似的。现有的基于骨架的动作识别方法大多使用相对关节坐标[17,16,6],忽略了骨骼关节的绝对运动。在人类行为建模方面,近期研究表明,长短期记忆(LSTM)网络[6,24,10]优于时间金字塔[17,12,16]和隐马尔科夫模型[21,20]。然而,这些LSTM网络只是对骨骼关节的整体时间动态进行建模,而没有考虑骨骼关节的详细时间动态。在本文中,我们提出了一种新的动作识别集成时域滑动LSTM网络。图1给出了我们模型的概述。首先,我们对输入骨架序列的坐标进行变换,使数据具有缩放、旋转和平移的鲁棒性。其次,我们没有使用简单的关节位置,而是使用了时间差异方面的运动特征。

图1:提出的深度学习网络的系统概述。该系统主要由坐标变换、运动特征提取、多项LSTMs和集成深度学习四个阶段组成。

      这有助于我们的网络聚焦于实际的骨骼运动。第三,采用包含短期、中期和长期三种lstm的多周期lstm对运动特征进行处理,对变化的时间动态具有鲁棒性。最后,多术语LSTMs通过集成捕获各种动作动力学。

相关的工作
          在本节中,我们简要回顾现有文献与提出的处理基于人体骨架的行动识别的两个主要问题的模型密切相关。一是骨架输入序列的特征表示,二是动作识别的时间动态建模。Wang et al.[17]通过关节的两两相对位置来表示人体运动,具有更多的区别特征。Cho等人[4]标准化了骨架的方向,这样每个骨架都可以在原点有根。利用身体各部分对之间的相对几何关系,Vemulapalli等人[16]表示李群中人体部位的三维几何关系。Du等,[6]利用Cho等人[4]标准化了骨架的方向,这样每个骨架都可以在以髋关节中心、髋关节左、髋关节右关节坐标为坐标系原点。这种相对坐标系在对骨骼关节的绝对运动进行分类时,会造成对动作的误解。
Wang等人[17]提取出三维关节位置和局部占用格局,然后进行处理傅里叶时间金字塔(FTP)表示动作的时间动力学。Vemulapalli等人[16]就业动态时间扭曲(DTW)和FTP来处理速率变化、时间错位、噪声等问题。Luo等人[12]提出了一种新的字典学习方法,该方法没有建模特征的时间演化。时态金字塔匹配,保存时态信息。Xia等[21]采用基于直方图的三维人体姿态表示,然后使用离散隐马尔可夫模型(HMM)识别动作。Wu和Shao[20]提取了高水平的骨骼关节特征,然后利用它们估计HMM的发射概率来推断动作序列,尽管DTW、FTP和HMM等方法在处理时间动态方面很有用,但最近使用的LSTM网络在建模时间动态方面表现出了优于传统方法的性能。Du等人[6]提出了一种递归神经网络,将低级身体部位的时间表示建模并组合为高级身体部位的表示。利用新的正则化方法开发了端到端全连接的深度LSTM网络,用于学习骨骼关节的共现特征。Liu等人[10]在LSTM中引入了一种新的门控机制来学习序列数据的可靠性,并相应地调整其对存储在记忆单元中的长期上下文信息的更新效果。由于这些研究一般只观察到人类行为的长期记忆,因此很难对包括短期、中期行为等在内的各种时间动态进行完整的建模。

贡献
我们的主要贡献安排如下:

       我们研究了人体骨骼的特征表示,以获得对各种变化的鲁棒性和提取显著运动。实验表明,该特征表示方法能显著提高动作识别的性能。我们利用一个多期滑动LSTM网络集合,它可以分别捕获短期、中期、长期的时间依赖性,甚

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值