论文翻译：Recognizing Human Actions as the Evolution of Pose Estimation Maps

最新推荐文章于 2023-07-29 08:55:24 发布

王壹浪

最新推荐文章于 2023-07-29 08:55:24 发布

阅读量561

点赞数

分类专栏：心得人工智能文章标签：大数据 python 算法计算机视觉神经网络

本文链接：https://blog.csdn.net/com_fang_bean/article/details/107757450

版权

本文提出了一种新的方法，通过分析姿态估计地图的演化来识别人体动作，而非依赖不准确的二维姿态。研究发现，姿态估计图中的丰富人体线索比视频中的姿态估计更有利于动作识别。方法包括使用空间秩池和身体引导采样，将姿态演化图像和形体演化图像结合，用于动作识别。在NTU RGB+D、UTD-MHAD和PennAction数据集上，该方法表现出优越的性能。

摘要由CSDN通过智能技术生成

大多数基于视频的动作识别方法选择从整个视频中提取特征来识别动作。杂乱的背景和非动作的运动限制了这些方法的性能，因为它们缺乏对人体运动的明确建模。根据人体姿态估计的最新进展，本文提出了一种新的识别人体动作的姿态估计地图的进化方法。我们观察到，姿态估计图作为姿态估计的副产品，保留了更丰富的人体线索，从而有利于动作识别，而不是依赖视频中不准确的人体姿态估计。具体来说，位姿估计图的演化可以分解为热图的演化，例如概率地图的演化，以及二维人体位姿估计的演化，分别表示身体形态和姿态的变化。考虑到热图的稀疏性，我们采用空间秩池的方法将热图的演化集合为一个体型演化图像。由于体型进化图像不区分身体部位，我们设计了身体引导采样将姿态的进化汇总为形体进化图像。利用深度卷积神经网络预测动作标签，探讨了两种图像之间的互补特性。在NTU RGB+D、UTD-MHAD和PennAction数据集上的实验验证了该方法的有效性。

动机和目的
从视频中识别人的动作已经研究了几十年，因为这项任务在智能监控、人机交互和基于内容的视频检索等方面有多种应用。现有方法[22,43,37,24,1]的本质属性是学习映射，将视频转换为动作标签的功能。由于这些方法不能直接区分人体和视频，因此容易受到杂波和背景非动作运动的影响。

为了解决这一局限性，另一种解决方案是检测人体[39]并估计每一帧的身体姿态。这种方法在深度视频中的人类动作识别领域工作得很好，例如微软的Kinect[55, 27]。利用[36]精确的人体姿态估计方法，从每一深度帧中检测出三维姿态，将深度视频中的人体运动简化为三维姿态序列[52]。最近的深度学习模型，如CNNRNN[9]和LSTM[26,25]在提取的3D姿态上取得了较高的性能，优于依赖raw的方法[32,50]。

3D人体姿态的成功启发了我们去估计2D人体姿势从视频动作识别。然而，尽管2D位姿估计有了重大进展。在图像和视频中[51,5,46,2,4]，性能仍然不如深度视频中的3D位姿估计。图1说明了利用最先进的姿态估计方法[4]从视频帧估计的姿态。由于复杂的背景和人体部位的自遮挡，估计出的姿态不完全可靠，可能会误解人体的形态在图1 (b)的第一行中，白边框中的多模态位姿估计图表示了人的手的位置。该地图包含两个峰值，其中ground truth的位置与最高峰值不对应，因此提供了对手位置的错误估计。

图1:从视频帧中估计的姿态和热图(平均姿态估计图)的互补特性。(a)将来自PennAction数据集[54]的动作“棒球投球”简化为两个帧。红圈和红星分别表示手和脚。(b)姿态估计不准确，估计的姿态不能准确标注人体部位。例如，我们给出了手的姿态估计图，其中多个峰值导致错误的预测。(c)虽然热图不能区分身体部位，但它们提供了更丰富的信息来反映人体形状。

为了更好地利用姿态估计图，我们提出将姿态估计图的演化直接建模用于动作识别，而不是依赖于从姿态估计图中得到的不准确的二维姿态。在无花果。1 (c)，热图(平均姿态估计图)提供更丰富的信息，以反映人体形状。

方法概述及贡献
我们的方法如图2所示。给定视频的每一帧，我们使用卷积姿态机来预测身体各部分的姿态估计图。表示这些姿态估计图的目的是同时保留整体线索和局部线索，前者反映了较少受噪声影响的整体形状，后者详细描述了身体部位的位置。

为此，我们对人体各部位的姿态估计图进行平均，生成平均的姿态估计图(热图)为每帧。热图的时间演化可以反映人体形态的运动。与原始的RGB图像不同，热图是稀疏的。考虑到巨大的空间冗余，我们开发了一种空间秩池方法来压缩热图作为一个紧凑而有信息的特征向量，空间秩池的优点在于，它可以有效抑制空间冗余，且不会显著丢失热图的空间分布信息。对特征向量进行时间级联，构造出二维形体演化图像，反映了形体的时间演化。

由于体型进化图像不能区分身体部位，我们进一步从身体各部位的姿态