论文翻译：Learning Action Recognition Model From Depth and Skeleton Videos

最新推荐文章于 2024-08-16 07:51:40 发布

王壹浪

最新推荐文章于 2024-08-16 07:51:40 发布

阅读量544

点赞数

分类专栏：心得人工智能文章标签：机器学习人工智能深度学习计算机视觉大数据

本文链接：https://blog.csdn.net/com_fang_bean/article/details/107525110

版权

本文提出了一种深度模型，用于从深度和骨架视频中学习人体动作识别。模型通过视图不变的人体部位表示和端到端学习框架，结合骨骼和深度图像信息，有效模拟人-物交互和类内变化，提升了识别精度。在NTU RGB+D和UWA3D II数据集上，与现有技术相比，该方法表现出显著的识别性能提升。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

深度传感器通过提供三维人体骨骼数据和场景的深度图像，为处理人体动作识别问题提供了可能性。基于三维骨架数据的人体动作分析由于其鲁棒性和视图不变性的表现形式而成为近年来研究的热点。然而，仅凭骨架不足以区分涉及人与物交互的行为。在本文中，我们提出了一个深度模型，有效地模拟了视点变化下的人-对象交互和类内变化，首先，引入人体部位模型，将人体部位的深度表象转换为一个视图不变的共享空间。其次，提出了一种能有效结合骨骼图像和深度图像中视不变的身体部位表示，学习人体部位与环境对象之间的关系、人体不同部位之间的相互作用以及人体动作的时间结构的端到端学习框架，我们在NTU RGB+DUWA3DII两大基准人类动作识别数据集上对15种现有技术进行了评估。的实验结果表明，我们的技术提供了一个显着改进的最新方法。

视频中人类动作的自动识别是一个重要的研究课题，在智能监控、健康医药、体育娱乐等领域有着广泛的应用。深度相机，比如微软Kinect已经成为这项任务的热门，因为深度图像对光照、衣服颜色和纹理的变化具有鲁棒性，而且由于实时人体骨骼跟踪框架的发展，可以从单一深度图像中提取出三维人体关节位置。

基于深度传感器的人体动作识别研究大致可以分为三类:骨架数据[6,12,25,33,34,38,40]，深度图像和基于深度骨骼的方法。虽然基于深度的方法在大多数RGB-Depth动作识别数据集上取得了令人印象深刻的结果，但在人类显著改变其空间位置和活动的时间范围时，它们的表现急剧下降。另一方面，在动作识别中局限于基于骨架特征的学习并不能提供较高的识别精度，因为会出现深度视觉人体部件的外观提供了有区别的信息，并且大多数通常的人类行为都是基于身体与其他物体的相互作用来定义的。例如，喝酒和吃零食的动作有一个非常相似的骨骼运动。因此，需要额外的信息，比如深度图像，来区分这些动作。结合深度和骨架数据(特征融合)的直接方法是将这些不同类型的特征连接起来[19,35,36]。通过这种方式，实现特征的最优组合，这样就不能保证实现特征的最优组合来进行准确的分类。

此外，一个实用的系统应该能够从新颖的和看不见的观点识别人类的行为(概括)。然而，与3D骨骼数据不同，深度图像的viewinvariant表示是一项具有挑战性的任务[20 - 22,24]。这是因为，当从不同的视角观察时，一个人执行一个动作的深度图像看起来是完全不同的。因此，如何将这些深度图像有效地表示在视不变空间中，并与估计的三维骨架数据相结合，是一个有待探索的重要研究问题。

此外，在人类的动作中，身体的关节会成群地一起移动。每一组可以看作是一组身体部位，动作可以解释为不同身体部位的相互作用。因此，需要利用与不同行动相对应的最具区别性的互动，以便更好地识别。此外，人类行为可能具有特定的时间结构。动作视频的时间结构建模也是动作识别问题的关键。目前大多数基于深度传感器的方法[23,33 - 36]对视频的时间变化进行建模。傅里叶时间金字塔(FTP)和/或动态时间扭曲(DTW)，导致两步系统的性能通常比端到端系统[9]差。其他一些方法[6,12,25]使用递归神经网络(RNNs)或扩展，如长短期记忆(LSTM)网络，用于建模动作视频的时间变化。但是，CNN+RNN/LSTM模型引入了大量的附加参数，因此需要更多的训练视频，而这些视频的标签成本很高。本文提出了一种基于深度和骨架数据的人类动作深度识别模型，以应对端到端学习框架中的上述挑战。首先，我们提出了一个深度CNN模型，它将人体部位的深度外观转移到一个共享的视不变空间。学习这个深度CNN需要一个大的数据集，包含从多个角度观察不同动作的各种人体部位。Rahmani等人[23]表明，在合成深度人体图像上学习的模型可以推广到真实深度图像，而不需要进行微调。因此，我们从不同的角度合成人体的各个部位，从而生成一个大型的训练数据集。更重要的是,我们提出一个框架,它能够有效地将信息从深度和骨骼数据,2)捕捉人类的身体部位和环境之间的关系对象,3)模型之间的交互不同人类的身体部位,和4)在一个端到端的学习人类行为的时间结构。我们的主要贡献包括以下三个方面。首先，本文提出了一个视图不变的人体部位外观表示模型。其次，我们提出了一种端到端学习的人类动作识别模型，通过实验表明，该模型很好地适用于基于深度传感器的人类动作识别任务。第三，该方法同时学会了将不同模式的特征结合起来。深度和骨架，捕捉人体不同部位对不同动作的交互作用，并对不同动作的时间结构进行建模。

该方法在NTU RGB+D[25]和UWA3D两个大型基准数据集上进行了评价多视图活动II[20]数据集。第一个数据集包含了由三个Kinect摄像头从三个不同视角同时捕获的56K多个序列，第二个数据集包含了从四个不同视角捕获的30个人类动作。这个数据集具有挑战性，因为视频是由Kinect摄像头从四个不同的视角在四个不同的时间捕捉到的。我们大量的实验结果表明，该方法能够取得一个明显更好的识别精度与目前的先进方法。

近年来，人类行为识别从不同的方面进行了探索。在本节中，我们限制我们的回顾到最近的相关方法，这可以分为三个不同的类别&