[Rethinking on Multi-Stage Networks for Human Pose Estimation] 论文解读

最新推荐文章于 2023-06-25 16:05:23 发布

__萌新

最新推荐文章于 2023-06-25 16:05:23 发布

阅读量1.1k

点赞数 1

分类专栏： Mynote 文章标签： computer vision

本文链接：https://blog.csdn.net/qq_33949900/article/details/88586024

版权

Mynote 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

1，摘要：

单阶段网络

多阶段网络（尽管多阶段网络更适合当前的工作，但是目前多阶段表现还是没有单阶段好）

2，介绍：

近年来，使用深卷积神经网络的人体姿态估计问题得到了快速发展。目前，表现最佳的方法非常简单，通常基于从图像分类任务传输的单级背部骨骼网络。例如，2017年COCO关键点挑战赛获胜者[8]基于重新开始[35]。最近的简单基线方法[39]使用ResNet[15]。由于姿势估计需要高空间分辨率，所以向上采样或反褶积通常附加在主干之后，提高网络空间分辨率的深层特征。

图一：红线（MSPN），绿线（沙漏），蓝线（使用ResNet的单阶段网络）

横坐标代表每秒浮点运算次数

本文的总结：通过对体系结构、特征流和损失函数的改进，可以充分挖掘多级体系结构的潜在优势，实现了最先进的性能，与以前的所有方法相比有很大的差距。

3，整体的网络结构：

网络结构说明：这个网络由两个单阶端模块组成。跨阶段融合用在相邻阶层之间。由粗到精监督策略进一步提高局部准确性。

4，多级位姿网络

首先，作者分析了以前的单级模块的效率，并证明了目前最先进的图像分类网络设计是可以开发的。其次，为了减少信息丢失，提出了一种特征聚合策略，将信息从早期传播到后期。最后，我们介绍了我们网络中的一种粗到细的监管。随着阶段的增加，其定位精度也逐渐提高.同时，它充分利用了语境信息，实现了跨尺度的区分性表征。在下面的章节中，我们将提供每个设计的详细内容。

4.1 单级模块的有效设计

表一沙漏和MSPN单阶段模块各尺度上的特征通道数

图表说明：沙漏只是堆叠卷积层，而特征的数量仍然保持恒定不变。而这些将导致性能变差。

本文特色：每一次下采样操作都会使特征数增加一倍，从而有效地减少信息损失。此外，计算能力主要分配给下采样单元，而不是上采样单元。由于我们的目标是在下采样过程中提取更有代表性的特征，并且在上采样过程中很难恢复丢失的信息，所以这是合理的。

特定尺度上的跨阶段特征聚合：

说明：对聚合前一阶段的特征应用两个1×1的卷积运算

4.2 跨阶段特征聚合

从前一阶段的下采样和上采样单元到现阶段的下行采样过程，引入了两种SEPA速率信息流。需要注意的是，在每个流程上都添加了1×1的卷积，如上图所示。结合当前阶段的低采样特征，添加三个组件来产生融合结果。通过这种设计，现阶段可以充分利用先验信息，提取出更多的判别表征。此外，特征聚合还可以看作是一种扩展的残差设计，有助于处理梯度消失问题。

4.3 由粗到精的监督

在姿态估计任务中，上下文信息对于定位具有挑战性的姿势至关重要，因为它为可见关节提供了信息。此外，我们还注意到小的定位误差会严重影响姿态估计的性能。因此，我们设计了一个由粗到精的监督，如总图所示。

具体而言，在大多数情况下，每个关节的ground-truth热图都是高斯的。在本工作中，我们进一步建议在不同的阶段使用不同的高斯核大小。也就是说，早期阶段使用大型内核，后期阶段使用小型内核。这一策略是基于这样一种考虑，即多个阶段的估算热量图也是以类似的由粗到精的方式进行的。

说明：第一行显示不同阶段的地面真值热度图，第二行表示相应的预测和地面真实值。橙色线是预测结果，绿色线代表ground-truth。

作者有话说：中间监督在提高深层神经网络性能中起着至关重要的作用，为此我们引入了多尺度监督模型，在每个阶段执行四个不同尺度的中间超维，这可以在不同的层次上获得大量的上下文信息，以帮助定位具有挑战性的姿势。另外在总的网路中，我们在最大规模监督方面还引入了OHKM，具体详见总网络结构图。

5，实验结果

评价标准：MSCOCO数据集

数据集构成：训练、验证和测试。

在文献[8]中，我们将训练数据和验证部分的数据聚合在一起，并将其进一步划分为测试-验证数据集(近57k图像和150 k人实例)和Minval数据集(5k图像)。它们分别用于训练和评估。基于OKS的mmAP(简称AP)被用作我们的评估指标。

5.1，实验细节：

人体检测器：使用当前最先进的MegDet去检测出人体候选框，在所有类别中，只有100个最佳的人体盒子被选作单人姿势估计器的输入。

训练：

硬件条件：8个NVIDIA GTX 1080ti GPU 每个GPU的小批处理尺寸为32，有90k次迭代。

采用ADAM优化器，线性学习率由5e-4逐渐下降到0，权重衰减为1e-5。每幅图像将随机进行一系列的数据增强操作，包括裁剪、翻转、旋转和缩放。在分割方面，有8个以上关节的实例将以同样的可能性被裁剪到上下身体。

旋转范围为−45◦∼45◦，标度范围为0.7∼1.35。图像大小在4.3节为256×192，4.4节为384×288。

测试：

将后高斯滤波器应用于热图估计。按照与[26]相同的策略，我们将原始图像的预测热图与相应翻转图像的结果进行平均。然后，在从最高响应到第二最高响应的方向上实现四分之一偏移，以获得关键点的最终位置。姿势得分是框得分和关键点平均得分的乘积，与[8]中相同。

我们观察到其性能随着骨干容量的增长而迅速饱和。很明显，Res-101的性能优于Res-50的1.6 AP，并且成本高出3.1G FLOP，但Res-101到Res-152的增益仅为0.5，但需要额外的3.7G FLOP。为了进一步探索，我们通过在Res-152上添加更多残留块来训练Res-254网络。虽然网络的FLOP从11.2G增加到18.0G，但AP的改善仅为0.4。因此，对于单级网络采用Res-152或更大的主干是无效的。

表二 COCO极小数据集上不同骨干的单级网络结果

不同阶段的沙漏和MSPN在COCO Minimval数据集上的结果。

表三 COCO最小值数据集上不同阶段数沙漏和MSPN的结果

随着网络容量的增加，它获得了显著的性能增益。

在此基础上，验证了基于该单级模块的多级体系结构的有效性。从表3可以看出，单级沙漏[26]的性能较差。再增加一个阶段会带来很大的准确率提升。研究表明，多级网络具有发展潜力。然而，当采用四个或八个阶段时，改进变得很小。这表明需要一个更有效的单级模块。第3.1节讨论了我们的单级模型，并且在minival数据集上使用71.5AP的性能证明了我们单级模块的优越性。我们的两站式网络进一步改进了3.0，获得74.5个接入点。第三和第四阶段的引入保持了巨大的上升趋势，最终带来了很大的性能提升。这些实验表明，MSPN成功地突破了现有单级和多级网络的上限。随着网络容量的增加，性能也获得了显著的提高。

表四 COCO最小值数据集上具有较小单级模块的MSPN结果

作者证明他们的单级模块能有效地采用其他主干

表六 COCO微型数据集上MSPN的消融研究

总结：

在这项工作中，我们提出了一个多阶段姿势网络（MSPN）来执行多人姿势估计。它打破了当前方法的性能上限，并在MS COCO数据集上实现了最先进的结果。我们首先使用MSPN中精心设计的单级模块验证多级流水线的有效性。此外，还提出了粗到细监督和跨阶段特征聚合策略，以进一步提高框架的性能。已经进行了广泛的实验以证明其优于其他现有方法以及其普遍性。

__萌新

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
[Rethinking on Multi-Stage Networks for Human Pose Estimation] 论文解读

1，摘要：单阶段网络多阶段网络（尽管多阶段网络更适合当前的工作，但是目前多阶段表现还是没有单阶段好）2，介绍：近年来，使用深卷积神经网络的人体姿态估计问题得到了快速发展。目前，表现最佳的方法非常简单，通常基于从图像分类任务传输的单级背部骨骼网络。例如，2017年COCO关键点挑战赛获胜者[8]基于重新开始[35]。最近的简单基线方法[39]使用ResNet[15]。由...
复制链接

扫一扫

专栏目录