论文翻译:Skeleton Based Human Action Recognition with Global Context-Aware Attention LSTM Networks

摘要三维骨骼序列中的人体动作识别已经引起了人们的广泛关注。最近,由于长短期记忆(LSTM)网络在序列数据的依赖性和动态性建模方面的优势,在这方面表现出了良好的性能。并不是所有的骨骼关节都具有动作识别的信息性,而不相关的关节往往会带来噪声,从而降低动作识别的性能,因此需要对具有信息性的关节给予更多的关注。然而,原有的LSTM网络并没有明确的注意能力。在本文中,针对基于骨架的动作识别,我们提出了一种新的基于骨架的动作识别网络——全局上下文感知注意网络(GCA-LSTM),该网络能够利用全局上下文记忆单元有选择地聚焦于每一帧中的信息节点。为了进一步提高网络的注意能力,我们还引入了一种反复注意机制,通过这种机制,网络的注意性能可以逐步提高。此外,还介绍了利用粗粒度关注和细粒度关注的两流框架。所提出的方法达到了最佳水平。

索引词-动作识别,长短期记忆,全局上下文记忆,注意,骨架序列。

      由于动作识别具有广泛的应用,如视频监控、患者监护、机器人技术、人机交互等,因此它是一个非常重要的研究问题。随着RealSense和Kinect[4]、[5]等深度传感器的发展,[6],基于3D骨架的人体动作识别得到了人们的广泛关注,在过去的几年里提出了很多先进的方法[7],[8],[9],[10]人体动作可以通过骨骼关节在三维空间[11]、[12]中的运动组合来表示。然而,这并不意味着骨骼序列中的所有关节都能提供动作识别的信息。例如,手关节的运动对拍手的动作很有帮助,而脚关节的运动则不然。不同的动作序列往往具有不同的信息关节,在相同的序列中,身体关节的信息程度也会随着帧的变化而变化。因此,有选择地关注信息节点i是有益的并尽量忽略不相关的特征,因为后者对动作识别的贡献很小,甚至会带来噪声,影响[13]的性能。这种选择性聚焦方案也被称为注意力,它已经被证明在各种任务中非常有用,如语音识别[14],图像标题的生成[15],机器翻译[16],等等。

         长短期存储(LSTM)网络在处理连续数据[17]方面具有强大的能力。已成功应用于语言建模[18],基于RGB的视频分析[19],[20],[21],[22],[23],[24],[25],[26],[27],以及基于骨架的动作识别[18]2,[18]0,[18]1。但是,原有的LSTM对动作识别的注意能力不强。这主要是由于LSTM在感知视频序列的全局上下文信息方面的限制,而这对于全局分类问题sk来说往往是非常重要的为了对骨骼关节进行可靠的关注,我们需要根据整体动作序列对每一帧中每个关节的信息量进行评估。这表明我们首先需要拥有全局上下文知识。但是,在LSTM的每个演化步骤中,可用的上下文信息都是相对局部的。在LSTM中,顺序数据作为输入逐步输入到网络中。相应地,每个步骤的上下文信息(隐藏的表示)被提供给下一个步骤。这意味着每一步中可用的上下文是隐藏的代表在此基础上,提出了一种具有较强注意能力的全局上下文感知注意网络,用于基于骨架的动作识别。在我们的方法中,全局上下文信息被提供给GCALSTM的所有进化步骤。因此,网络可以使用它来测量新输入在所有步骤的信息分值,并相应地调整它们的注意权重,即。,如果一个新的输入是关于全球行动的信息,则网络在这一步利用更多的信息。

基于骨架的人类动作识别与全球上下文感知注意力LSTM网络。第一个LSTM层对骨架序列进行编码,并为动作序列生成一个初始全局上下文表示。第二层通过使用全局上下文记忆单元对输入执行注意,以实现序列的注意表示。然后利用注意力表示来优化全局上下文。通过多次注意迭代,逐步优化全局上下文记忆。最后,精炼的全局上下文信息。

我们提出的基于骨架的动作识别的GCA-LSTM网络包括一个全局上下文记忆单元和两个LSTM层,如图1所示。第一个LSTM层用于编码骨架序列和初始化全局上下文内存单元。然后将全局上下文记忆的表示反馈给第二层LSTM,以帮助网络选择性地聚焦于每一帧的信息节点,进而生成动作序列的注意表示。然后将注意力表征反馈到全局上下文记忆单元中由于在注意过程后产生了一个精炼的全局上下文存储器,因此可以将全局上下文存储器再次输入到第二层LSTM中,以更可靠地执行注意。通过多次注意迭代,逐步优化全局上下文记忆。最后,将精炼后的全局上下文输入到softmax分类器中,对动作类进行预测。此外,我们还扩展了上述设计我们的本文在GCA-LSTM网络中,进一步提出了一种双流GCA-LSTM,该双流GCA-LSTM结合了细粒度(关节级)注意和粗粒度(身体部分级)注意,以获得更准确的动作识别结果。
本文的贡献总结如下:

•提出了一种GCA-LSTM模型,该模型保留了原LSTM的顺序建模能力,同时通过引入全局上下文记忆单元来提高其选择性注意能力。
•提出了一种反复注意机制,通过这种机制,我们的网络的注意性能可以逐步提高。
•为了更有效地训练网络,提出了一种逐步训练方案。
•我们进一步扩展了GCA-LSTM模型的设计,提出了更强大的双流GCA-LSTM网络。

•提议的端到端网络在评估基准数据集上产生最先进的性能。这项工作是我们的初步会议文件[31]的扩展。在此基础上,我们进一步提出了一种逐步训练方案,以提高网络的训练效率。此外,我们

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值