论文翻译:View Adaptive Recurrent Neural Networks for High Performance Human Action Recognition from Skel

最新推荐文章于 2021-04-27 20:02:49 发布

王壹浪

最新推荐文章于 2021-04-27 20:02:49 发布

阅读量1.2k

点赞数

分类专栏：心得人工智能文章标签：大数据算法 python 计算机视觉神经网络

本文链接：https://blog.csdn.net/com_fang_bean/article/details/107529886

版权

本文提出了一种视点适应的RNN模型，用于从3D骨骼数据中进行高精度人体动作识别。该模型克服了视点变化带来的挑战，通过端到端学习自动调整观察视点，保持动作连续性和一致性。实验结果表明，模型在三个基准数据集上超越了现有技术。

摘要由CSDN通过智能技术生成

随着三维骨骼数据的普及，基于骨骼的人体动作识别越来越受到人们的关注。一个主要的挑战在于捕捉到的人类行为在很大程度上存在差异。提出了一种新的视点适应方案来自动调节行为发生时的观察视点。我们设计了一种基于LSTM结构的自适应递归神经网络(RNN)，而不是基于人类定义的先验准则重新定位骨架.这使得网络本身能够从一端到另一端适应最合适的观察观点。大量的实验分析表明，所提出的视图自适应RNN模型力求(1)将不同视图的骨架转换为更一致的观点，(2)保持动作的连续性，而不是将每一帧转换为相同的位置和相同的身体方向。我们的模型在三个基准数据集上取得了显著的改进，超过了最先进的方法。

介绍
识别人类行为一直是计算机视觉中最重要和最具挑战性的问题之一。对人类动作识别技术的需求增长非常迅速，并扩展到许多领域，如视觉监视、人机交互、视频索引/检索、视频摘要和视频理解[27,42]。虑到输入的不同，人类动作识别可以分为基于彩色视频的和基于彩色视频的3 d skeleton-based方法。在过去的几十年里，基于彩色视频的人类动作识别得到了广泛的研究，而基于3D骨骼的人类代表,由于其高水平的表征和对视点、外观和周围干扰变化的鲁棒性，近年来引起了大量研究的关注[2,10,28,47]。约翰松早期开创性工作的生物学观察表明，即使没有外貌信息[19]，人类也可以通过人体几个关节的运动来识别动作。此外，微软Kinect[48]、英特尔RealSense[1]等性价比高的深度相机的流行。双摄像头和基于深度[34]的人体姿态估计技术的发展，使得三维骨架数据的获取更加容易。就像之前在调查论文[10]中列出的许多作品一样，我们专注于基于骨架的动作识别。
基于骨架的人类动作识别的主要挑战之一是捕获人类动作数据时复杂的视点变化。首先，在一个实际的场景中，相机的捕捉视点在不同的序列中是不同的，例如，正面角度相机的位置，导致骨架表现之间的巨大差异。第二，行为人可以针对不同的方向执行动作。而且，随着时间的推移，他/她可能会动态地改变自己的取向。作为说明在图1中，当从不同的视点捕获时，相同姿态的骨架表示是相当不同的。在实践中，观察观点的变化使动作识别成为一个非常具有挑战性的问题[2,16]。在以前的工作中已经尝试过克服视图的变化来实现健壮的动作识别。然而，这些作品中的大多数都是为彩色视频中的人类识别而设计的。然而，基于骨架的人脸识别中视图不变性的研究仍处于探索阶段。

图1:从不同的视角(不同的相机位置、角度和主题方向)捕捉到的相同姿势的骨架表示是非常不同的

在之前的作品中，只有很少的尝试从视角的变化来考虑这种效果。一般处理采用预处理步骤，通过将身体中心放置在原点，然后旋转骨架，使身体平面平行于(x, y)平面，将摄像机坐标系中的三维关节坐标转换为个人中心坐标系，使骨架数据对绝对位置和身体方向不变，这样的预处理获得了部分视图不变量。然而，它也有很多缺点。一方面，它失去了部分运动信息，如身体中心的运动轨迹和速度，以及身体姿态的变化动力学。例如，行走的动作变成了原地行走，旋转身体的舞蹈动作变成了面向固定方向的舞蹈。另一方面，处理过程(即。(如平移、旋转)并不是在头脑中明确地以优化动作识别为目标设计的，而是基于人类定义的标准，这减少了开发最佳视角的空间。如何设计一个能够提供良好行为认知观点的系统，是一个有待进一步研究的问题。在这项工作中，我们解决了基于骨架的高性能动作识别的视图变异问题。本文提出了一种视图自适应方案，该方案自动调整每一帧的观察视点，从而获得新视图下的骨架表示。注意相机视角的调节相当于将骨架转换为新的坐标系统。为此，如图2所示，我们设计了一种基于LSTM架构的视图自适应RNN，以根据输入骨架来学习和确定合适的视点。主LSTM网络利用在已确定的观察视点中新表示的骨架来方便动作识别。以识别性能最大化为目标，对整个网络进行端到端的训练，以鼓励视图适应子网络学习并确定合适的视点。

图2:我们的端到端视图自适应RNN的架构，它由视图自适应子网和主网络组成
LSTM网络。视图自适应子网络在每个时隙确定合适的观察点。使用新的观察视点下的骨架表示，主LSTM网络决定动作类。

综上所述，我们做出以下贡献：

我们提出了一种自调节视图适应方案，动态地重新定位观察点，以便更好地从骨架数据中识别动作。
•我们将提出的视图适应方案集成到一个端到端的LSTM网络中，该网络在识别过程中自动确定“最佳”观察点。
•我们对视图适应模型的结果进行了很多观察和分析。我们发现，所提出的模型在保持动作连续性的同时，自动地调整框架以使其具有更一致的观察观点

基于以上贡献，我们提出了一个端到端的高性能行为识别系统。大量的实验分析和评估证明了它强大的能力克服视图变化问题，并在三个基准数据集的最新性能。

相关工作
2.1。视图不变动作识别

在现实场景中，可以从任意的摄像机视点观察到人的行为。这一因素阻碍了有效动作识别技术的发展。研究者对