【论文笔记-03】RMPE：Regional Multi-Person Pose Estimation

最新推荐文章于 2023-02-16 16:06:04 发布

caicaiatnbu

最新推荐文章于 2023-02-16 16:06:04 发布

阅读量585

点赞数

本文链接：https://blog.csdn.net/caicaiatnbu/article/details/89184492

版权

计算机视觉同时被 2 个专栏收录

16 篇文章 2 订阅

订阅专栏

深度学习

12 篇文章 0 订阅

订阅专栏

【论文地址】https://arxiv.org/pdf/1612.00137.pdf

这篇Paper是交大和腾讯优图共同提出的AlphaPose多人姿态估计，从实验结果看来各项指标要比CMU OpenPose好很多。

【Abstract】

复杂环境下多人姿态识别是具有十分挑战性的。尽管当前最好的人体检测算法已经取得了很好的效果，但是仍然存在一些定位和识别错误。这些错误势必会导致单人姿态估计（Single-Person Pose Estimator，SPPE）失败，特别是那些基于人体检测的方法。因此，本文提出了一种新颖的区域的多人姿态估计框架，以方便在存在不准确的人体检测边界框的情况下进行姿态估计。本文的框架主要包含三个部分：

Symmetric Spatial Transformer Network(SSTN)
Parammetric Pose Non-Maximum-Suppression(NMS)
Pose-Guided Proposals Generator (PGPG)

该算法可以处理不准确的边界框（bounding boxes）和冗余检测（redundant detections），在MPII数据集上取得了76.7 mAP。

【Introduction】

当前流行的多人姿态估计算法有两大类：一类是two-step framework，另外一类是part-based framwork。

two-step framework：通俗的讲就是两步走，第一步首先检测输入图像中所有的人体边界框，第二步对每一个人体检测框进行姿态估计。本文就是采用这种。

part-based framework：首先检测输入图像中所有的肢体节点（body parts），然后进行拼接操作，跟拼乐高一样的道理。将这些肢体节点拼接成人。CMU的OpenPose采用这种。

两种方法各有利弊，第一类算法依赖于人体检测框的质量，一般情况都是通过目标检测算法去检测得到人体区域；第二类算法在两人离的很近的情况下，会出现懵逼的情况，到底这个肢体节点属于哪个的。而且由于仅仅依赖肢体节点之间的连接关系，会导致此方法失去对全局的信息获取。

这篇Paper是属于第一类方法，本文目标是无论在第一步获取到人体检测框正确与否，都希望可以检测出正确的人体的姿态。很好奇，这篇paper到底是怎么弥补人体检测不足的？接着讲。为了说明之前方法的不足，本文使用了当前做流行的目标检测算法Faster-RCNN和SPPE Stacked Hourglass进行实验，主要问题是对输入图像的检测定位错误以及冗余检测问题，如下图1和图2所示：SPPE对于人体检测框是定位是十分苛刻的，图1中使用IoU>0.5的黄色人体检测框作为SPPE的输入，对比groundtruth可以发现并没有检测到正确的人体姿态。图2展示了冗余的检测问题，对于同一目标产生了多个人体检测框，从而导致姿态检测出问题。

为了解决上述问题，这篇paper提出了一种区域多人姿态检测（RMPE）框架来提升SPEE-based行人姿态检测的性能。设计了SSTN网络并将其添加到SPPE结构中，从而在不精准的人体检测框内提取到高质量的人体区域。为了优化该网络，引入了一种新型的并行SPPE分支。这篇paper使用了parametric pose NMS来解决冗余检测的问题。parametric pose NMS通过使用新的姿态距离度量来比较姿态的相似性，从而消除冗余的姿态。姿态距离参数通过数据驱动的方式进行优化。最后，这篇paper又提出一种PGPG的方法来做数据增强。通过学习人体检测器在不同姿态下的输出分布，我们可以去拟合生成人体边界框，从而产生大量的训练样本。

RMPE框架是通用的，适用于不同的人体检测器和单人姿态估计。在MPII数据集，取得76.7mAP。

【Regional Multi-person Pose Estimation】

RMPE框架如图3所示，首先通过目标检测算法获得人体检测框，然后将这些检测框输入到SSTN+SPPE模块，可以自动的检测出人体姿态。在利用parametric Pose NMS进行refine。在训练过程中，使用Parallel SPPE来避免局部最优并进一步提升SSTN的性能。利用PGPG方法来对训练数据集做数据增强。下面进行一一详细分析：

Symmetric STN 和 Parallel SPPE

目标检测算法提取的人体检测框非常不适合SPPE，这是因为SPPE算法是训练在单人图像上并且对定位错误十分敏感。通过细小的转换和裁剪的方法可以有效提升SPPE的准确度。SSTN + Parallel SPPE可以在不精准的人体检测框情况下有效的提升SPPE的性能。SSTN + Parallel SPPE的结构如下图4所示：