BAPose: Bottom-Up Pose Estimation with Disentangled Waterfall Representations阅读笔记-CSDN博客

本文链接：https://blog.csdn.net/unauna9739/article/details/125502267

BAPose：使用解构式瀑布表示的自下而上姿态估计

摘要： 本文提出了一种新的 bottom-up 姿态估计方法：BAPose，在多人姿态估计领域实现了 sota。端到端可训练框架 BAPose 利用一个分离的（解构的、解耦的）多尺度瀑布体系结构，并结合自适应卷积在有遮挡的拥挤场景下更精确地推断关键点。BAPose中由分离瀑布模块获得的多尺度表示利用了级联体系结构中渐进过滤的有效性，同时也保持了与空间金字塔相当的多尺度感受野。在挑战性的COCO和CrowdPose数据集上的结果表明：BAPose是一种高效、稳健的多人姿态估计框架，显著提高了 sota 精度。

文章目录

BAPose：使用解构式瀑布表示的自下而上姿态估计
1. Introduction
2. Related Work
- 2.1. Bottom-Up Approaches
- 2.2. Multi-Scale Feature Representations 多尺度特征表示
3. BAPose Architecture
- 3.1. Disentangled Waterfall Module 解构式瀑布模块
- - 3.1.1 Waterfall Features and Adaptive Convolutions 瀑布特征与自适应卷积
  - 3.1.2 Disentangled Adaptive Regression 解构的自适应回归
4. Datasets
5. Experiments
- 5.1. Metrics
- 5.2. Parameter Selection 参数选择
6. Results
- 6. 1. CrowdPose数据集上的实验结果
- 6. 2. COCO数据集上的实验结果
7. Conclusion

1. Introduction

对于计算机视觉研究人员来说，在拥挤的场景中定位人体并估计其姿态是一项极具挑战性的任务。人体姿态估计的成果可应用于动作识别、运动分析、人机交互、康复和手语识别等。不同方法专注于解决特定的人体姿态估计，包括2D姿态估计；3D姿态估计；单帧检测；视频中的姿态检测；单人或多人姿态估计。
多人姿态估计因高频的关节遮挡以及人体运动的大量自由度而被人诟病。克服这些挑战的常用方法包括部署统计和几何模型来估计遮挡关节以及使用 anchor pose ，后者受库中姿态数量限制，难以生成和处理无法预见的姿态。
多人姿态估计的 SOTA 方法可分为 top-down 和 bottom-up法。 top-down 法先检测图像中的人体实例，然后对每个人执行单人姿态估计。 bottom-up 法要么检测所有关键点再根据亲和关系进行分组，要么直接回归图像中每个人的关键点位置。总之，top-down 法实现了高精度，但其中的人体检测步骤会导致其速度较慢且代价较高。另一方面， bottom-up 法基于单阶段多人姿态估计，通常更有效。
本文提出的 BAPose 是一个 bottom-up 框架，以“Basso verso l’Alto”（意大利语中的自底向上）命名。BAPose 是一个单阶段、端到端可训练网络，通过将最近成功的方法： UniPose , UniPose+ 和 OmniPose 扩展到 bottom-up 多人2D姿态估计。BAPose 无需后处理、中间监督、多次迭代或 anchor pose，在两个大型数据集上实现了 SOTA 结果。BAPose的主要贡献如下：

BAPose 是一种单阶段、端到端可训练、多尺度的自底向上多人姿态估计方法，在两个大型数据集 COCO 和 CrowdPose上实现了SOTA结果。
BAPose 将多尺度瀑布特征与分离的自适应卷积和集成的多尺度解码器相结合，以消除拥挤场景中个体的歧义关节。
BAPose 增强的多尺度功能专门对具有大量人体实例的图像进行姿态估计，这大大提高了CrowdPose数据集的SOTA性能。

2. Related Work

卷积神经网络（CNN）的出现使人体姿态估计任务取得了飞跃性进展。卷积姿态机（Convolutional Pose Machines：CPM）方法使用网络中的一系列 CNN stages 来改善关节检测。部位亲和域（Part Affinity Fields：PAF）能更好地捕捉关节间的上下文和关系，从而改进2D人体姿态估计。由此产生的OpenPose方法被广泛应用于各种应用中。
堆叠沙漏（Stacked Hourglass）HG 网络利用多阶段方法，通过网络级联沙漏结构来优化生成的姿态估计。“Multi-context attention for hu-
man pose estimation” 通过使用残差单元增强 backbone 扩大感受野（Field-of-View：FOV）扩展 HG 纳入multi-context。使用条件随机场（Conditional Random Fields：CRF）进行后处理，以细化检测到的关节位置，这种方法的一个缺点是增加了后处理阶段，增加了计算量，从而增加了复杂性。
高分辨率网络（HRNet）包括高分辨率和低分辨率以获得更大的感受野，提供了一种多尺度的特征表示方法。多级姿态网络（Multi-Stage Pose Network：MSPN）采用了与HRNet类似的方法，结合 cross-stage 特征聚合和 coarse-to-fine 监督。Higherhrnet 将HRNet结构与多分辨率金字塔相结合来获得多尺度特征。在 HRNet的基础上，关键点分布感知坐标表示（Distribution-Aware coordinate Representation of Keypoints：DARK）方法将一种改进的方法纳入其解码器，以减少解码器阶段的推理错误。
CNN图形组件的发展启发了级联预测融合（Cascade Prediction Fusion：CPF）方法，该方法应用图形来进一步提取用于姿态估计的上下文信息。类似的，级联特征聚合（Cascade Feature Aggregation：CFA）将级联方法应用到姿态估计的语义信息中。“Improving human pose estimation with self-
attention generative adversarial networks” 中使用生成式对抗网络（GAN）来学习姿势的依赖性和上下文信息。
自顶向下方法的一个局限是需要一个独立的模块检测人体实例。例如，LightTrack 需要一个单独的 YOLOv3 在姿态估计之前检测人体。LCR-Net是一个稍有不同的方法，他通过使用Detectron和分类过程中的关节排列，应用多分支进行检测。
为了开发一个统一框架来克服 top-down 法的局限性，UniPose 将生成 bounding box 和姿态估计结合在一个 single, one-pass 网络中。这种方法之所以可行，是因为瀑布式空洞空间池化（Waterfall Atrus Spatial Pooling：WASP）模块获得了更大的感受野并显著增加了多尺度表示，导致更好的上下文信息表示。

2.1. Bottom-Up Approaches

自底向上估计最常用的方法是将检测到的关键点与图像中的每个人相关联。一种方法是将问题转化为整数线性规划，该方法的一个明显缺点是处理时间很长，限制了实时性能。
OpenPose 是引入 PAF（部位亲和域）后对关键点进行分组的突破性方法。其他方法进一步发展了PAF，如 Pif-PAF 和 Associative embedding。同样，PersonLab 采用了 Hough voting ，而 “Differentiable hierarchical
graph grouping for multi-person pose estimation” 则采用了分层图聚类。
最近一些工作采用姿态候选的密集回归（dense regression of pose candidates），这种方法的一个局限是定位过程中的回归精度较低，需要额外的后处理步骤来改善回归结果。为解决此问题，“Mixture dense regression for object detection and human pose estimation” 应用混合密度网络，以便在回归之前更好地处理网络中的不确定性。另一方面，最近的解构式关键点回归（Disentangled Keypoint Regression：DEKR）方法学习每个关键点的解构式表示，并利用自适应激活的像素，确保每个表示聚焦于相应的关键点区域。

2.2. Multi-Scale Feature Representations 多尺度特征表示

基于CNN的方法中，分辨率的降低是姿态估计或语义分割方法的一个持续性挑战。完全卷积网络（FCN）最初通过反卷积层上采样来增大特征图，将其恢复到原始输入图像的尺寸，来解决分辨率降低的问题。此外，DeepLab 部署了扩张卷积实现多尺度框架并增加感受野的大小，通过引入空洞空间金字塔池（ASPP）避免了网络中的下采样。ASPP体系结构在四个平行分支中应用不同 rate 的空洞卷积，并通过双线性插值将其组合，以便在原始图像分辨率下恢复特征图。
WASP（Waterfall Atrus Spatial Pooling）模块在ASPP的基础上进行改进，集成了多尺度特性，而无需立即并行化输入流。WASP模块通过先采用一个 filter 进行初步处理，之后创建一个新分支，来创建一个瀑布流。瀑布模式通过将所有分支中的流组合起来实现多尺度表示，从而扩展了级联方法。 OmniPose框架最近引入了增强的WASPv2模块，该模块改进了从 backbone 中提取的多尺度特征，包括网络的解码器特征。

3. BAPose Architecture

如图2所示，BAPose由一个 single-pass、single output 分支网络组成，该网络能尤其有效地估计拥挤场景中的多人姿态。BAPose集成了改进的多尺度特征表示、解构式关键点回归（DEKR）、结合了瀑布式空间金字塔池化以及用于人体定位和部位关联的解构式自适应回归的 encoder-decoder 结构。
BAPose 结构的 pipeline 如图 2 所示：① 输入图像先由HRNet特征提取器处理；② 随后带有集成解码器的 WASPv2 模块处理提取到的多尺度特征图，该模块提取关键点位置以及提取用来定位回归的上下文信息；③ 该网络生成K 张热图，每个关节一个热图，以及相应的置信度图和 2 个 offset 图，用于识别人体实例并将关键点关联到每个实例。网络中集成的WASPv2解码器从可见和遮挡关节的所有尺度特征提取中生成检测，同时通过网络保持图像分辨率。
在这里插入图片描述

图2：BAPose体系结构。输入的彩色图像通过 HRNet backbone 进行初始特征提取，然后由 D-WASP 模块和基于自适应卷积的解码器生成每个关节（图中为17个关节）的热图，和定位每个人体实例的 offset 回归。

我们的体系结构包括一些有助于提高准确性的创新。在 WASPv2 模块中，BAPose 结合了空洞卷积和瀑布式体系结构，通过多个扩张 rate 探测特征图，提高了网络表示多尺度上下文信息的能力，这种配置在编码器中实现了更大的感受野。我们的架构还将解构式自适应卷积集成到解码过程中，实现了多人的 singe-pass 检测及其关键点估计。此外，我们的网络通过在多尺度上增强特征提取，展示了其处理大量人体的卓越能力（如第6节所示的 CrowdPose 数据集的结果）。最后，BAPose的模块化特性便于网络的轻松实现和训练。

3.1. Disentangled Waterfall Module 解构式瀑布模块

增强型 “Disentangled Waterfall Atrous Spatial Pyramid” 模块或D-WASP的结构如图3所示。D-WASP模块以不同的扩张 rates 处理从 backbone 到瀑布分支的所有四个 level 的特征图。low-level 和 high-level 特征以相同的分辨率表示，实现了关节估计的精确定位。此外，D-WASP模块使用自适应卷积块来推断用于关节定位的最终热图和用于人体实例回归的 offset 图。该模块通过图3 所示的各自的 head，为每个人生成关键点热图和 offset 热图。D-WASP体系结构由于其多层次和多尺度表示，有助于在拥挤的环境下更有效地识别多个人，从而提高SOTA性能。

在这里插入图片描述

图3：D-WASP 解构式瀑布模块。输入分别是来自 HRNet backbone所有四个 level 的 32、64、128 和 256 特征图，以及来自框架初始层的 low-level 特征。模块输出关键点热图和 offset 热图。

3.1.1 Waterfall Features and Adaptive Convolutions 瀑布特征与自适应卷积

D-WASP 模块操作从 concatenate HRNet 特征提取器得到的所有特征图： $f_i$ 获得的 $g_0$ 开始，其中 i=0,1,2,3 表示特征提取器不同尺度的 level，并且为 concatenation 重载求和：
在这里插入图片描述
在 concatenate 所有特征图之后，瀑布式处理描述如下：

其中， $\circledast$ 表示卷积， $g_0$ 是输入特征图， $g_i$ 是由第 i 个空洞卷积得到的特征图，AP 是平均池化操作， $f_{LLF}$ 是 low-level 特征图， $W_1$ 表示 kernel size=1×1 的卷积， $W_{d_i}$ 表示空洞 $d_i= [1,6,12,18]$ 的 kernel size=3 × 3 的空洞卷积。concatenation 后，特征图与low-level 特征相结合。最后的1×1卷积将特征图的数量减少到组合输入特征图数量的四分之一。
最后，从多尺度自适应卷积回归中获得 D-WASP模块的输出： $f_{D−WASP}$ ，自适应卷积定义为：（看不懂）
在这里插入图片描述
c 是卷积的中心像素， $y (c)$ 表示输入 x 的卷积输出， $w_i$ 是中心像素及其相邻像素的 kernel 权重， $g_i^c$ 是第 i 个激活像素的 offset，在自适应卷积中，以参数化方式采用偏移量 $g_i^c$ 作为 spatial transformer 网络的扩展。

3.1.2 Disentangled Adaptive Regression 解构的自适应回归

多人姿态估计的回归是 bottom-up 法的瓶颈。为解决回归的限制，额外的处理可以利用姿态候选、后处理匹配方案、邻近匹配和统计方法，但这些方法可能引入高代价的计算量或有限的有效性。
D-WASP扩展了通过 focus 回归的思想，不仅学习 K 个关节中每个关节的解耦表示，还使用多尺度从多个自适应激活的像素中推断所有关键点的每个表示。此配置为每个回归提供了稳健的关键点区域上下文信息，和更精确的空间表示。
D-WASP模块提出的多尺度方法允许BAPose以更大的感受野回归人体检测和关键点，通过使用自适应卷积提高了网络推断关节关联的能力。与仅提取关节热图的 WASPv2 decoder 阶段不同，D-WASP多尺度解结构自适应回归确定关键点热图和最终的 offset 热图，用于回归图像中每个人体及其各自关节的位置。
此外，在解结构自适应回归中，多尺度特征图的集成在回归阶段利用多个分辨率，允许网络更好地推断人及其关节的位置。因此，BAPose表现出了优异的性能（见第6节），尤其是在包含大量近距离人体的挑战性的场景中。

4. Datasets

在 COCO 和 CrowdPose 两个数据集上评估 BAPose。（两者的介绍略）
为了更有效地训练网络，采用理想的高斯图生成关节 ground truth 位置。相比与单个点的关节位置，高斯图是训练期间评估损失的更有效策略。因此，训练 BAPose 生成热图作为每个关节的输出位置。采用 $σ = 3$ 为 ground truth 关键点和预测关键点生成定义良好的高斯响应，同时保持关键点的适当分离，避免关键点的大量重叠。

5. Experiments

5.1. Metrics

对于BAPose的评估，评估基于目标关键点相似性（OKS）。
在这里插入图片描述
$d_i$ 是估计关键点和 ground truth 间的欧几里得距离， $v_i$ 表示关键点是否可见，s 是相应目标的尺度， $k_i$ 是衰减控制常数。由于COCO和CrowdPose数据集都采用了OKS，且 OKS 与 IOU 类似，平均检测精度（Average Precision，AP）为取不同OKS阈值时分别计算的AP值的平均数: 0.5 到 0.95之间（AP）、在 0.5（ $AP^{50}$ ）和 0.75（ $AP^{75}$ ）的所有实例以及COCO数据集的中型（ $AP^{M}$ ）和大型（ $AP^{L}$ ）实例的IOU平均精度（AP）。对于CrowdPose数据集，easy（Crowd Index在0-0.1之间）、medium（Crowd Index在0.1-0.8之间）和hard（Crowd Index在0.8-1之间），对应的评价指标为（ $AP^{E}$ ）、（ $AP^{M}$ ）、（ $AP^{H}$ ），代表了某个人体边界框内的关键点拥挤程度。总体平均召回率AR： $AR^M, AR^L$ 同理。

5.2. Parameter Selection 参数选择

D-WASP 模块的扩张率 r={1, 6, 12, 18}。网络训练140个epoch。学习率根据步长法计算，学习率初始化为 $10^{−3}$ 且在 90 和 120 epoch 分两步减少一个数量级。训练过程包括在−30◦ 到30◦之间随机旋转，从 0.75 到 1.5之间随机缩放，以及 −40 到 40 间随机 translation，采用与DEKR相同的镜像过程。所有实验都是在Ubuntu 16.04上使用PyTorch进行的、workstation 配有一个16GB RAM 的 Intel i5-2650 2.20GHz CPU 和一个 NVIDIA Tesla V100 GPU。

6. Results

本节介绍了两个大型数据集上的BAPose结果，并与 sota 方法进行比较。

6. 1. CrowdPose数据集上的实验结果

在这里插入图片描述

表1：BAPose结果，并与用于测试的CrowdPose数据集的SOTA方法进行比较。

在这里插入图片描述

图4：使用 BAPose 在 CrowdPose test set 的姿态估计示例。

6. 2. COCO数据集上的实验结果

在这里插入图片描述

表3：COCO val set 上BAPose的结果以及与SOTA方法的比较。

在这里插入图片描述

表4：COCO test-dev set 上 BAPose 的结果以及与SOTA方法的比较。

在这里插入图片描述

表2：GFLOPs和参数数量比较。

在这里插入图片描述

图5：使用BAPose 在 COCO数据集的姿态估计结果。

7. Conclusion

本文提出了自底向上多人姿态估计方法：BAPose。BAPose网络包括新颖的D-W ASP模块，该模块结合了从瀑布流获得的多尺度特征与解结构自适应回归的人体检测能力。BAPose是一种端到端可训练的 single-pass 体系结构，无需 anchor pose、事先人体检测或后处理。BAPose 在 COCO和CrowdPose数据集上实现了 sota ，并且在人员密集的图像中具有出色的人体检测和姿态估计能力。