A Cuboid CNN Model with an Attention Mechanism for Skeleton-based Action Recognition---论文理解

alicecv

已于 2022-03-02 20:01:52 修改

阅读量418

点赞数

分类专栏：行为识别文章标签：深度学习机器学习神经网络

于 2020-08-31 19:47:30 首次发布

本文链接：https://blog.csdn.net/binger520886/article/details/108318845

版权

本文提出了一种结合长方体排列策略和注意力机制的骨架动作识别模型。通过保留关节方向信息并用长方体表示结构良好的输入数据，以及利用注意力机制强调相关关节特征，该模型在CAS-YNU MHAD、NTU RGB+D、UTD-MHAD和UTKinect数据集上表现出优越性能，解决了现有方法中空间分布结构不明确和关注点不突出的问题。

摘要由CSDN通过智能技术生成

翻译

一个有注意力的长方体CNN模型基于骨架的动作识别机制

摘要

深度传感器(如微软Kinect)的引入推动了人类动作识别的研究。深度传感器收集的人体骨骼数据为动作识别传递了大量的信息。虽然在动作识别方面已经取得了相当大的进展，但是大多数现有的基于骨架的方法忽略了这样一个事实，即并非所有的人体部位都在许多动作中活动，而且它们没有考虑到身体关节的顺序位置。在此，由于动作的类别是由局部关节动作决定的，我们提出了基于骨架的动作识别的长方体模型。具体地说，提出了一种长方体排列策略来组织身体各关节之间的两两位移，从而得到长方体动作表示。这样的表示结构良好，允许深度CNN模型将分析重点放在动作上。此外，在深度模型中利用了注意机制，从而提取出最相关的特征。在我们新的云南大学-中国科学院-多模态人体动作数据集(CAS)上进行了广泛的实验NTU RGB+D数据集，utdmhad和UTKinect-Action3D数据集的比较表明了我们的方法的有效性。索引词- cnn，动作识别，注意机制，特征长方体。

介绍

人类行为识别[1][2][3][4][5]是这是一个活跃而富有挑战性的研究领域在许多应用程序中探索，包括医疗保健、智能监测和安全性。RGB传感器和深度传感器(例如，微软Kinect传感器)已经被用来提高人类动作识别性能。捕获的信息，如深度和3D位置。与RGB数据相比，深度数据可以通过使用红外辐射来适应光照条件的变化。Xiao et al.[6]和Ji et al.[7]提出了一种从深度映射序列中识别人类动作的有效方法。然而，由于深度映射中的冗余，大量的数据增加了计算复杂度，使得它们在现实世界中无法使用。
幸运的是，深度传感器的进步使得从深度图中可以很容易地估计出人类骨骼