摘要:
人的动作识别能够由骨架关节的轨迹来表示,传统的方法通常利用手工制作的特征模拟人类骨骼的空间结构和时间动态,通过精心设计的分类器识别人类动作。我们提出一个端到端的层次RNN基于骨架的动作识别。HRNN-L模型不是将整个骨骼作为输入,而是根据人类的身体结构将人类的骨骼划分成五个部分,然后分别的划分进五个子网。最后随着层数的增加,前一层特征融合的结果作为更高层的输入。最后骨架序列的表示被送入到一个单层感知器,将感知机积累的结果作为最后的决定。论文后面将该模型与的其他五种衍生的深度RNN构架进行比较,验证了这个模型的有效性;并且在三个公开的数据集上与其他几种方法相比。实验结果表明该模型具有最好的表现性能和很高的计算效率。
1. Introduction:
传统关于动作识别的研究主要集中在基于由2D摄像机记录的视频的动作识别。但实际上,人类活动一般3维空间上进行表示和识别。而人类的身体可以被看成由骨头和链接关节和身体躯干的关节铰链构成的结构系统,人的运动行为可以看成有这些关节的运动坐标的空间位移来表示。目前,可靠的关节坐标可以深度传感器使用实时骨架估计算法获得。大部分存在的基于骨骼的动作识别都是用TP(时间金字塔)和HMMS(隐马尔科夫)模拟骨骼关节的时间动态;TP方法通常受限于时间窗口的宽度,只能利用有用的上下文信息;而HMMS很难或