人体姿态识别~Alphapose论文笔记~《RMPE: Regional Multi-Person Pose Estimation》

最新推荐文章于 2024-08-06 11:12:22 发布

雁飞鸣

最新推荐文章于 2024-08-06 11:12:22 发布

阅读量4.8k

点赞数 8

文章标签：深度学习

本文链接：https://blog.csdn.net/weixin_41447373/article/details/107105377

版权

有兴趣的朋友可以相互讨论技术

标记：公式（2）、（3）、（4）、（5）、（6）不太理解

论文：https://arxiv.org/abs/1612.00137

官方代码：https://github.com/MVIG-SJTU/AlphaPose

上海交大的AlphaPose介绍：http://mvig.sjtu.edu.cn/research/alphapose.html

总结

该论文指出，定位和识别中不可避免的会出现错误，这些错误会引起单人姿态估计（single-person pose estimator，SPPE）的错误，特别是完全依赖人体检测的姿态估计算法。因而该论文提出了区域姿态估计（Regional Multi-Person Pose Estimation，RMPE）框架。主要包括：

1、symmetric spatial transformer network (SSTN) 对称空间变换网络：在不准确的bounding box中提取单人区域

2、Parametric Pose Non- Maximum-Suppression (NMS) 参数化姿态非最大抑制：解决冗余

3、Pose-Guided Proposals Generator (PGPG)。 姿态引导区域框生成器：增强训练数据

并且使用symmetric spatial transformer network (SSTN)、deep proposals generator (DPG) 、parametric pose nonmaximum suppression (p-NMS) 三个技术来解决野外场景下多人姿态估计问题。

1.Introduction

多人姿态估计有两个主流方案：Two-step framework & Part-based framework。第一种方案是检测环境中的每一个人体检测框，然后独立地去检测每一个人体区域的姿态（自顶向下的方法）。第二种方案是首先检测出环境中的所有肢体节点，然后进行拼接得到多人的骨架（自底向上的方法）。第一种方案，姿态检测准确度高度依赖目标区域框检测的质量。第二种方案，如果两人离得十分近，容易出现模棱两可的情况，而且由于是依赖两个部件之间的关系，所以失去了对全局的信息获取。

论文采用自顶向下方法。我们的目标是检测出正确的人体姿态即使在第一步中检测到的是不精准的区域框。为了说明之前的算法存在这些问题，我们使用Faster-RCNN和SPPE Stacked Hourglass进行实验，主要的问题是位置识别错误和识别冗余，如图1和图2所示。事实上，SPPE对于区域框错误是非常脆弱的，如下图所示。红框为真实框，黄框为检测到的框（IoU>0.5）。由于定位错误，黄框得到的热图无法检测到关节点。

冗余的区域框会产生冗余的姿态。冗余：两个bounding box框住同一个人，会检测两遍，形成两个骨架

因此，提出了RMPE（区域多人姿态检测）框架，提升SPPE-based性能。在SPPE结构上添加SSTN，能够在不精准的区域框中提取到高质量的人体区域。并行的SPPE分支（SSTN）来优化自身网络。使用parametric pose NMS来解决冗余检测问题，在该结构中，使用了自创的姿态距离度量方案比较姿态之间的相似度。用数据驱动的方法优化姿态距离参数。最后我们使用PGPG来强化训练数据，通过学习输出结果中不同姿态的描述信息，来模仿人体区域框的生成过程，进一步产生一个更大的训练集。

我们的RMPE框架是通用的，适用于不同的人体探测器和单人姿势估计器。将RMPE框架应用于MPII（多人）数据集，达到state-of-the-art效果76.7 mAP。我们还进行了切除研究，以验证我们框架中每个组件的有效性。

2.Related Work

2.1 Single Person Pose Estimation

在单人姿态估计中，姿势估计问题被简化为仅尝试去估计单人的姿势（人被认为主导了图像内容）。传统的方法考虑图像结构模型。例如：树模型和随机森林模型是非常有效的人体姿态估计模型。基于图的模型，如随机场模型和依赖图模型，也得到了广泛的研究。

近年来，深度学习已成为一种很有前途的目标/人脸识别技术，人体姿态估计也不例外。代表作包括DeepPose、基于DNN的模型和各种基于CNN的模型。除了简单的估计人体姿态，一些研究同时进行人的分析和姿势估计。对于单人姿态估计，只有在正确定位人体位置的情况下，这些方法才能取得良好的效果。然而，这一假设并不总是令人满意。

2.2. Multi Person Pose Estimation

1、part-based framework的代表性工作：Chen等人提出了一种利用图形模型来解析大面积遮挡人体的方法，该模型将人体建模为人体各部位的柔性组合。Gkiox等人使用k-poselets来联合检测人并预测人体姿势的位置。最后的位姿定位由所有激活的poselets加权平均得到。Pishchulin等人提出了DeepCut算法，首先检测所有身体部位，然后通过积分线性规划对这些部位进行标记和装配，Insafutdinov等人提出了一种基于ResNet的更强的部位检测器和更好的增量优化策略。虽然基于部位（part-based）的方法已经证明了良好的性能，但是由于只考虑了较小的局部区域，因此它们的身体部位检测器可能很弱。

2、Two-step Framework：我们的工作遵循two-step framework。我们使用基于SPPE方法的CNN来估计姿势，而Pishchulin等人使用传统的图像结构模型进行姿态估计。特别是，Insafutdinov等人提出了一个类似的两步流水线，它使用Faster R-CNN作为人体检测器，一元的DeeperCut作为姿态估计器。他们的方法在MPII数据集上的mAP只能达到51.0，而我们的方法可以达到76.7。随着目标检测和单人姿态估计的发展，two-step framework可以进一步提高其性能。本文的目的是最大限度地发挥SPPE的作用从而解决two-step framework下人体检测不完善的问题。

3. Regional Multi-person Pose Estimation

RMPE的处理过程如图：

最低0.47元/天解锁文章

雁飞鸣

关注

8
点赞
踩
41

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫