论文翻译：2D/3D Pose Estimation and Action Recognition using Multitask Deep Learning

最新推荐文章于 2023-04-04 10:16:00 发布

王壹浪

最新推荐文章于 2023-04-04 10:16:00 发布

阅读量956

点赞数 1

分类专栏：心得人工智能文章标签：计算机视觉神经网络机器学习深度学习

本文链接：https://blog.csdn.net/com_fang_bean/article/details/107716483

版权

本文提出了一种多任务深度学习框架，将2D和3D姿态估计与动作识别相结合，证明了单一架构在解决这两个问题上的有效性。通过扩展Softargmax函数，解决了关节坐标预测的可微性问题，允许端到端训练，并在多个数据集上实现了最先进的结果。该方法同时利用姿态和视觉信息，提高了动作识别的准确性，且能从2D注释中学习3D预测。

摘要由CSDN通过智能技术生成

动作识别和人体姿态估计是密切相关的，但在文献中这两个问题通常被当作不同的任务来处理。在这项工作中，我们提出了一个多任务框架联合二维和三维姿态估计从静止图像和人的动作识别视频序列。我们证明一个单一的体系结构可以有效地解决这两个问题，并且仍然可以获得最先进的结果。此外，我们证明了从一端到另一端的优化比分离学习能获得更高的精度。建议的架构可以用来自不同类别的数据同时进行无缝的训练。四个数据集(MPII，(Human3.6M, Penn Action和NTU)演示了我们的方法在目标任务上的有效性。

近年来，人类动作识别和姿态估计受到了广泛的关注，不仅因为它们在视频监控和人机界面等方面的应用非常广泛，还因为它们仍然是具有挑战性的任务。姿态估计和动作识别通常被当作不同的问题来处理，[14]或最后一个被用作前一个问题的先验[57,22]。尽管pose与承认行动有极端的相关性，但据我们所知，文献中没有一种方法可以联合起来解决这两个问题，在文献中没有一种方法可以联合解决这两个问题，从而有利于行动识别。在这个方向上，我们的工作提出了独特的端到端可培训的多任务框架来处理
二维和三维人体姿态估计和动作识别联合，如图1所示：

图1所示。提出的姿态估计和动作识别的多任务方法。我们的方法提供了二维/三维姿态估计从单一图像或帧序列。姿态和视觉信息被用来在一个统一的框架中预测动作。

由于新架构的兴起和大量数据的可用性，3D提出了估算任务[33,35]。类似地，动作识别最近也得到了改进，使用了依赖于人体姿态[3]的深度神经网络。我们认为这两个任务还没有结合在一起进行有益的联合优化，因为大多数姿态估计方法执行热图预测。这些基于检测的方法需要使用不可微的argmax函数作为后处理阶段来恢复关节坐标，这就打破了所需要的反传播链。

我们提出通过扩展可微软-argmax[28,58]来解决这个问题，用于关节2D和3D位姿估计。这允许我们将动作识别叠加在姿态估计之上，从而形成一个可从头到尾训练的多任务框架。我们的贡献如下:首先，提出的姿态估计方法实现了在二维姿态估计中，回归估计的结果是最精确的。其次，所提出的姿态估计方法是基于静止图像的，因此它受益于“野外”图像的二维和三维预测。这已经被证明是一种非常有效的学习视觉特征的方法，这对动作识别也是非常重要的。第三，我们的动作识别方法仅基于RGB图像，从中我们提取姿态和视觉信息。尽管如此，我们还是在2D和3D场景中取得了最先进的结果，即使与使用地面真姿势的方法相比也是如此。第四，位姿估计方法可以同时使用多种类型的数据集进行训练，使其能够从二维标注数据中归纳出三维预测。本文的其余部分组织如下。在第二节中，我们对相关工作进行了回顾。第3节和第4节分别介绍了姿态估计和人体动作的回归方法。

在本节中，我们将介绍一些与我们的工作最相关的方法，它们被分为人体姿态估计和动作识别。由于本文篇幅有限，不能进行广泛的文献综述，我们鼓励读者参考[43,19]的调查，分别进行姿态估计和动作识别2 d姿态估计。人体姿态估计问题是近年来研究的热点图形结构[2,17,37]到最近的CNN方法[34,25,38,20,41,54,5,51,52,36]。从文献中我们可以看到，姿态估计有两种截然不同的方法:基于检测的方法和基于回归的方法。基于检测的方法将姿态估计作为一个热图预测问题处理，其中热图中的每个像素代表对应关节的检测得分[7,18]。探索堆叠架构的概念，剩余Newell等人[33]提出了堆叠沙漏网络，显著提高了二维pose估计挑战的得分。从那时起，最先进的方法提出了堆叠沙漏结构的复杂变化。例如，Chu等人[16]提出了基于条件随机场(CRF)的注意力模型，Yang等人[56]将残差单位替换为金字塔剩余模块(人口、难民和移民事务局)。生成对抗的网络(GANs)已被用于提高学习能力结构信息[13]以及通过学习更可信的预测来完善热图，但是，检测方法并不直接提供关节坐标。为了恢复(x, y)坐标中的位姿，通常使用argmax函数作为后处理步骤。另一方面，基于回归的方法使用非线性函数将输入直接映射到de输出，可以是关节坐标。遵循这一范式，Toshev和Szegedy[52]提出了基于级联回归的人体部位检测的整体解决方案，Carreira等人[9]提出了迭代误差反馈。回归方法的局限性是回归函数经常是次优的。为了解决这一缺点，提出了软argmax函数[28]，可将热图直接转换为关节坐标，从而将检测方法转换为回归方法。与检测方法相比，回归方法的主要优点是它们通常是完全可微的。这意味着姿态估计的输出可以用于进一步的处理，整个系统可以进行微调。

三维姿态估计。最近，deep architecture已经被用于从RGB图像中学习精确的3D表示[60,50,30,49,31,39]，感谢高质量数据[21]的可用性，现在已经能够超过深度传感器[32]。Chen和Ramanan[11]将三维姿态估计问题分为两部分。首先，他们处理考虑摄像机坐标的二维姿态估计，其次，估计的姿态通过非参数形状模型匹配到三维表示。提出了一种人体姿态的骨骼表示，以减少数据[47]，然而，这种结构转换可能会对依赖于人体四肢的任务产生负面影响，因为当我们离开根关节时，误差会累积。Pavlakos等人[35]提出了体积堆叠沙漏建筑。但是，该方法会受到参数数量和存储所有梯度所需内存的显著增加的影响。在我们的方法中，我们还提出了一个三维姿态的中间体积表示，但我们使用了比[35]低得多的分辨率，并且仍然能够显著提高最先进的结果，因为我们的方法是基于一个连续回归函数。

2 d动作识别。从视频中识别动作被认为是一个困难的问题，因为它涉及高层次的抽象，而且时间维度不容易处理。以往的方法都探索了经典的特征提取方法[55,23]，其中的关键思想是利用人体关节位置来选择空间和时间上的视觉特征。3D卷积最近被认为是给出最高分类的选项得分[8,10,53]，但它们涉及高数量的参数，需要提高训练的记忆量，不能有效地从大量静止图像训练中获益。以身体部位为焦点的注意力模型[4]可以改善动作识别，双流网络可以用来合并RGB图像和昂贵的光流图[14]。

大多数二维动作识别方法只是利用人体关节信息提取局部的视觉