论文翻译：Stacked Hourglass Networks for Human Pose Estimation

最新推荐文章于 2023-06-05 10:47:13 发布

王壹浪

最新推荐文章于 2023-06-05 10:47:13 发布

阅读量996

点赞数 1

分类专栏：心得人工智能文章标签：卷积计算机视觉神经网络机器学习

本文链接：https://blog.csdn.net/com_fang_bean/article/details/107740546

版权

本文介绍了一种新的卷积网络结构——堆叠沙漏网络，用于人体姿态估计。该网络通过自底向上、自顶向下的处理，结合中间监督，提高了对复杂姿态的识别能力。在FLIC和MPII基准测试中，网络表现出了卓越的性能，特别是在膝盖和脚踝等关节的定位上。网络设计基于多个沙漏模块的堆叠，以捕获不同尺度的信息，同时减少了传统图形模型的依赖。实验结果显示，该网络在多人姿态估计和遮挡情况下的表现尤为突出。

摘要由CSDN通过智能技术生成

摘要本文提出了一种新的卷积网络结构用于人体姿态估计。所有尺度上的特征都被处理和整合，以最佳地捕捉与身体相关的各种空间关系。我们展示了重复的自底向上、自顶向下处理与中间监督结合使用是如何提高网络性能的关键。我们将该体系结构称为“堆叠沙漏”网络，它基于连续的池化和向上采样步骤，这些步骤用于生成最终的一组预测。在FLIC和MPII基准上取得了最先进的结果，超过了所有最近的方法。

图1所示。我们的姿态估计网络由多个堆叠的沙漏模块组成，允许自底向上、自顶向下的重复推理。

在图像和视频中理解人的关键一步是准确的姿态估计。对于单一的RGB图像，我们希望确定人体重要关键点的精确像素位置。理解一个人的姿势和肢体的关节对于动作识别这样的高级任务是有用的，在人机交互和动画等领域也是一个基本工具。作为一个公认的视觉问题，姿态估计多年来一直困扰着研究人员各种艰巨的挑战。一个好的姿态估计系统必须对遮挡和严重变形有很强的鲁棒性，对罕见的和新奇的姿态有良好的鲁棒性，并且不受服装和灯光等因素引起的外观变化的影响。早期的工作利用鲁棒图像特征和复杂的结构预测解决了这些困难[1-9]:前者用于产生局部解释，而后者用于推断全局一致的姿态。

然而，卷积神经网络(ConvNets)[10-14]极大地改变了这一传统管道。卷积神经网络是许多计算机视觉任务性能爆发式提升的主要驱动因素。最近的位姿估计系统[15-20]普遍采用ConvNets作为其主要组成部分，在很大程度上取代了手工特征和图形模型;这种策略在标准基准上产生了巨大的改进[1,21,22]。

我们继续沿着这条轨道前进，并引入了一种新颖的“堆叠沙漏”网络设计，用于预测人体姿势。该网络在图像的各个尺度上捕获并整合信息。我们将这种设计称为沙漏，它基于池步骤的可视化以及用于获得网络最终输出的后续上行采样。与许多产生像素级输出的卷积方法一样，沙漏网络池的分辨率非常低，然后在多个分辨率上采样并组合特征[15,23]。另一方面，沙漏与以前的设计主要不同的是其更对称的拓扑。

我们通过端到端连续地将多个沙漏模块放置在一起来扩展单个沙漏。这允许跨尺度的重复自底向上、自顶向下的推断。与中间监控的使用相结合，重复的双向推断对网络的最终性能至关重要。最终的网络架构实现了对两个标准姿态估计基准(FLIC[1]和MPII)的最新技术的显著改进人类造成[21])。在MPII测试中，所有关节的平均精确度提高了2%以上，而对于更困难的关节，如膝盖和脚踝，则提高了4-5%。

随着Toshev等[24]引入“DeepPose”，人体姿态估计的研究开始从经典方法[1-9]转向深度网络。Toshev等人使用他们的网络直接回归关节的x、y坐标。Tompson等人的工作是[15]生成热图，方法是将一幅图像并行地运行在多个分辨率库中，同时捕捉不同尺度的特征。我们的网络设计很大程度上基于他们的工作，探索如何捕获跨尺度的信息，并调整他们的方法来结合不同分辨率的特性。

图2所示。由我们的网络产生的示例输出。在左边，我们看到最后的姿态估计提供的最大激活在每个热图。右边是热图样本。(从左至右:脖子、左肘、左腕、右膝、右脚踝)

Tompson等人[15]提出的方法的一个关键特征是卷积网络和图形模型的联合使用。他们的图形模型学习了典型的关节之间的空间关系。最近，其他一些人用类似的方法解决了这个问题[17,20,25]，他们在如何实现一元分数生成和成对比较相邻关节方面做了一些变化。Chen等人将[25]聚类检测到典型的方位，当他们的分类器进行预测时，可以获得额外的信息来指示相邻关节的可能位置。我们实现优越的性能，没有使用图形模型或任何显式建模的人体。

有几个连续预测方法的例子用于位姿估计。卡雷拉等人[19]使用他们所说的迭代错误反馈。输入中包含了一组预测，每一个通过网络的预测都会进一步改进这些预测。他们的方法需要多阶段的训练，每次迭代的权重都是共享的。Wei等人的[18]建立在多级位姿机[26]的工作上，但现在使用ConvNets进行特征提取。由于我们使用了中间监督，我们的工作在精神上与这些方法相似，但是我们的构建模块(沙漏模块)是不同的。胡[27]的架构与我们的更类似，也可用于多个阶段的预测，但他们的模型将权重限制在自底向上和自顶向下的计算部分，以及跨迭代。

Tompson等人在[15]工作的基础上使用级联来完善预测。这有助于提高效率和减少他们的方法的内存使用，同时提高定位性能在高精度范围[16]。一个考虑是，对于许多失败的情况下，在一个局部窗口的位置细化不会提供很大的改善，因为错误的情况往往包括闭塞或错误归属的四肢。对于这两种情况，任何在当地规模的进一步评估都不会改善预测。

姿态估计问题的变化包括使用额外的特征，如深度或运动线索。[28-30]还有一个更具有挑战性的任务，即多人同时进行注释[17,31]。此外，还有类似Oliveira等人[32]的工作，基于全卷积网络[23]进行人体部分分割。我们的工作主要集中在RGB图像中单个人姿态的关键点定位。