论文翻译：Semantics-Guided Neural Networks for Efficient Skeleton-Based Human Action Recognition-CSDN博客

本文链接：https://blog.csdn.net/com_fang_bean/article/details/107554322

基于骨骼的人体动作识别由于其易于获取人体骨骼数据而引起了人们的极大兴趣。近年来，在不考虑计算效率的情况下，利用深度前馈神经网络对关节三维坐标进行建模成为一种趋势。在本文中，我们提出一种简单而有效的基于骨架的动作识别神经网络(SGN)，我们在网络中明确地引入了关节的高级语义(关节类型和框架索引)，以增强特征表示能力。此外，我们还通过两个模块对节点之间的关系进行了层次化的开发。，为同一框架内各节点的相互关系建模的关节级模块，为将同一框架内各节点作为一个整体建模的框架立面模块。为促进这一领域的研究，提出了一个强有力的基线。与一个数量级较小的模型尺寸比大多数以前的工作，SGN实现了最先进的性能在NTU60, NTU120，和SYSU数据集。

人类动作识别具有广泛的应用场景，如人机交互、视频检索等[35,50,1]。近年来，基于skeleton的行为识别[56,7,36,58]受到越来越多的关注。骨架是一种结构良好的数据类型，人体的每个关节通过关节类型、框架索引和三维位置来识别。使用骨架进行动作识别有几个优点。首先，骨骼是人体的高级表现形式，抽象了人体的姿态和动作。从生物学上讲，即使没有外观信息[17]，人类也可以通过观察关节的运动来识别动作类别。

其次，性价比高的深度摄像机[61]和位姿估计技术[38,4,43]的发展使得骨骼的获取更加容易。第三，与RGB视频相比，骨架表示对视点和外观的变化具有较好的鲁棒性。第四，由于低维数表示，它在计算上也是高效的。此外，基于骨架的动作识别也是对基于rgb[42]的动作识别的补充。在这项工作中，我们专注于基于骨架的动作识别。

在基于骨架的动作识别中，深度学习被广泛用于建模骨骼序列的时空演化[11,47]。各种网络结构已被开发，如递归神经网络(RNN)。[7, 63, 36, 41, 57, 40]，卷积神经网络(CNN)[18,58,30,51]，以及图卷积网络(GCN)[54,40,44]。在早期，RNN/LSTM是开发短期和长期时间动态的首选网络。最近，有一种趋势使用前馈(即。用于语音、语言序列建模的卷积神经网络[34, 10, 53, 48]和骨架[18,58,30,51]。大多数基于骨架的方法将关节的坐标组织成2D地图，并将地图调整为适合CNN输入的大小(例如224×224)(例如ResNet50 [12])。它的行/列对应于不同类型的关节/框架索引。在这些方法[18, 58, 30, 51]，长期依赖和语义信息有望被深度网络的大接受域捕获。这看起来很残酷，通常会导致模型的高度复杂性。

图2:提出的端到端语义引导神经网络(SGN)的框架。它由联合级模块和框架级模块组成。在DR中，我们通过融合关节的位置和速度信息来学习关节的动力学表示。两种类型的语义，即。分别将关节类型和框架索引纳入关节级模块和框架级模块。在联合级模块中，我们使用了三个GCN层来建模关节的依赖关系。为了建模帧之间的依赖关系，我们使用了两个CNN层。

直观上，语义信息，即。关节类型和帧索引对于动作识别是非常重要的。语义和动力学(例如。(三维坐标)揭示了人体关节的时空结构。我们知道，两个坐标相同但语义不同的关节会传递非常不同的信息。例如，对于头部上方的关节，如果这个关节是手关节，动作很可能是举起手;如果是脚关节，动作可能是踢腿。此外，时间信息对动作识别也很重要。以坐下和站起这两个动作为例，它们只是在画面的出现顺序上有所不同。然而，大多数方法[11,47]忽视了语义信息的重要性，对其探索不足。

为了解决当前方法的上述局限性，我们提出了一种语义引导的神经网络(SGN)，它明确地利用语义和动力学来高效地基于骨架的动作识别。图2给出了总体框架。通过对框架序列的联合级和框架级依赖关系的逐次探索，我们构建了一个层次网络。为了更好的建立联合水平的相关模型，除了我们将关节类型的语义(例如，' head '和' hip ')合并到GCN层，从而实现内容自适应图的构造和在每一帧内的关节之间有效的消息传递。为了更好的帧级关联建模，我们将时域帧索引的语义融入到网络中。特别是，我们对同一个框架内的所有节点的特征执行空间MaxPooling (SMP)操作，以获得框架级特征表示结合嵌入的帧索引信息，利用两个卷积神经网络层学习特征表示进行分类。此外，我们制定了一个强大的基准，这是高性能和效率。由于语义信息的有效探索，层次建模和强基线，我们的建议SGN以较少的参数实现了最先进的性能。

我们将我们的三大贡献总结如下:
•我们建议显式地探索联合语义(框架索引和关节类型)用于基于骨架的动作识别。以往的研究忽视了语义的重要性，依赖于高度复杂的深度网络进行动作识别。
•我们提出了一个语义引导的神经网络(SGN)，以在联合层次和框架层次上开发空间和时间的相关性。
•我们开发了一个轻量级的强基线，它比以前的大多数方法更强大。我们希望这个强基线能对基于骨架的动作识别研究有所帮助

通过以上技术的贡献，我们获得了一种高性能、计算效率高的基于骨架的动作识别模型。广泛的烧蚀研究证明了模型设计的有效性。在三大基准上对于基于骨架的动作识别，我们提出的模型在模型尺寸比许多算法小一个数量级的情况下，始终能够取得优于许多竞争算法的性能(见图1)。