HigherHRNet: Scale-Aware Representation Learning for Bottom-Up Human Pose Estimation 阅读笔记

本文链接：https://blog.csdn.net/unauna9739/article/details/125078215

HigherNet：用于自底向上人体姿态估计的尺度感知表示学习

2020 cvpr
论文链接
 代码链接

摘要： 由于尺度的变化，bottom-up 人体姿态估计法很难预测小人体的正确姿态。本文提出了一种新的 bottom-up 人体姿态估计方法：HigherHRNet ，用于使用高分辨率特征金字塔学习尺度感知表示。HigherHRNet 具有多分辨率监督训练和多分辨率聚合推理功能，能够解决 bottom-up 多人姿态估计中的尺度变化问题，并能更精确定位关键点，尤其是针对小人体的关键点。HigherNet 中的特征金字塔由来自 HRNet 的特征图输出和通过转置卷积的上采样高分辨率输出组成。在 COCO test-dev 的 medium person上，HigherHRNet 比先前最好的 bottom-up 法高出 2.5%AP，表明其处理尺度变化的有效性。此外，HigherHRNet 在不使用细化或其他后处理技术的前提下，在 COCO test-dev 上取得了 sota 结果（70.5%AP），超越了所有现有的 bottom-up 法。HigherHRNet 在 CrowdPose test 上甚至超过了所有 top-down 方法（67.6%AP），表明其对拥挤场景的鲁棒性。

1. Introduction

旨在定位人体结构关键点（如肘部、腕部等）或部位的 2D 人体姿态估计是人体行为理解的基本技术，近年来受到广泛关注。
当前的人体姿态估计方法可分为 top-down 法和 bottom-up 法。Top-down 法依赖于人体检测器来检测每个带 bounding box 的人体实例，然后将问题简化为简单的单人姿态估计任务。由于 Top-down 法可以通过裁剪和调整检测到的 person bounding boxes 的大小，将所有人体 normalize 为大致相同的比例，因此Top-down 法对人体比例变化不太敏感。因此，在各种多人人体姿态估计基准上的 sota 性能大多是由 Top-down 法实现的。然而，由于 Top-down 法依赖于人体检测器，且需要单独估计每个人的姿态，因此通常需要大量计算，且 Top-down 法不是真正的端到端系统。相比之下，bottom-up 法先通过预测不同关键点的热图来定位输入图像中所有人的 identity-free 关键点，然后将其分组为单个人体实例。这种策略有效地提高了 bottom-up 法的速度，并且能够实现实时姿态估计。然而，由于 bottom-up 法需要处理尺度变化，使其和 Top-down 法之间存在很大性能差距，尤其对小尺度人体。
预测小人体关键点主要有两个挑战：① 处理尺度变化，即在不牺牲大人体性能的情况下提高小人体的性能；② 生成高质量的高分辨率热图，以便精确定位小人体关键点。先前的 bottom-up 法主要关注对关键点进行分组，并简单地使用一个分辨率为输入图像分辨率1/4的特征图来预测关键点的热图，这些方法忽略了尺度变化问题，在推理过程中依赖图像金字塔（图1(a)）。特征金字塔是处理尺度变化的基本组件，然而，top-down 特征金字塔中分辨率较小的特征图通常面临挑战。PersonLab 通过提高输入分辨率生成高分辨率热图 (Figure1(b))，虽然小人体的性能随着输入分辨率的提高而不断提高，但当输入分辨率太大时，大人体的性能开始下降。为了解决这些挑战，在不牺牲计算成本的情况下，通过简单方式生成空间上更精确且具有尺度感知的热图来进行自底向上的关键点预测至关重要。
在这里插入图片描述

图1：(a) 使用图像金字塔进行热图预测。(b) 通过对图像进行上采样，生成更高分辨率和空间上更精确的热图。PersonLab 通过放大输入图像的大小来生成高质量的特征图。（c） HigherHRNet 使用高分辨率特征金字塔。

本文提出了一种尺度感知高分辨率网络（Scale-Aware High-Resolution Network: HigherHRNet）来应对上述挑战。HigherRnet 通过新的高分辨率特征金字塔模块生成高分辨率热图。传统特征金字塔从1/32分辨率开始，使用带横向连接的双线性上采样将特征图分辨率逐渐增至 1/4，与传统特征金字塔不同，高分辨率特征金字塔直接从1/4分辨率开始，这是 backbone 中分辨率最高的特征，并通过反卷积生成更高分辨率特征图 (Figure1(c），黄色的为反卷积)。为使 HigherHRNet 能够处理尺度变化，我们进一步提出了一种多分辨率监督（Multi-Resolution Supervision ）策略，将不同分辨率的训练 target 分配到相应的特征金字塔层。最后，我们在推理过程中引入了一种简单的多分辨率热图聚合（Multi-Resolution Heatmap Aggregation）策略，以生成具有尺度感知的高分辨率热图。
COCO关键点检测数据集上的验证结果展示出我们方法卓越的关键点检测性能，HigherHRNet 无需任何后处理在 COCO2017 test-dev 数据集上达到70.5% AP，大大优于所有现有的 bottom-up 法。此外，我们观察到：大多数 gain 来自中等人体（关键点检测任务没有小人体标注），在不牺牲大人体性能的前提下（+0.3%AP），HigherHRNet 在中等人体上的性能比之前最好的 bottom-up 法高 2.5%AP，这一观察证实了HigherNet确实解决了尺度变化的挑战。我们也为新的 CrowdPose 数据集上的 bottom-up 法提供了坚实的baseline，HigherHRNet 在 CrowdPose test 上达到了 67.6% AP，超过了所有现有方法，这一结果表明，自底向上法在拥挤场景中具有优势。
贡献总结如下：

本文试图解决尺度变化问题，这是以前在自下而上的多人姿态估计中很少研究的问题。
提出了一种生成高分辨率特征金字塔的 HigherHRNet，该特征金字塔在训练阶段具有多分辨率监督，在推理阶段具有多分辨率热图聚合，以预测益于小人体的尺度感知高分辨率热图。
在具有挑战性的COCO数据集上的结果证明了 HigherHRNet 的有效性，它优于所有其他 bottom-up 法。我们特别注意到，中等人体的收益很大。
在CrowdPose数据集上达到了 sota ，表明 bottom-up 法比 top-down 法对拥挤场景更具鲁棒性。

2. Related works

Top-down 法： 自上而下的方法从一个由目标检测器生成的 person bounding box 内检测单人关键点。Mask R-CNN 直接在 Faster R-CNN 上添加一个关键点检测分支，并在 ROIPooling 后重用特征。G-RMI 及其一些列方法进一步将法分解为 top-down 梁个步骤，并使用单独的模型进行人员检测和姿势估计。

Bottom-up methods 法： 自下而上的方法检测图像中所有人的 identity-free 身体关节，然后将其分组。OpenPose 使用两分支 multi-stage 网络，其中一个分支用于热图预测，另一个分支用于分组，OpenPose 使用部位亲和域（part AffinityField）分组法：学习连接两个关键点的二维向量场，计算两个关键点间的线积分，并将积分最大的分为一对。Newell 等人使用 stacked hourglass network 进行热图预测和分组，通过关联嵌入（associate Embedded）完成分组：为每个关键点分配一个“tag”（向量表示），并根据 tag 向量间的 $l_2$ 距离对关键点分组。Personlab 使用 dilated ResNet 并通过直接学习每对关键点的 2D offset field 来分组关键点。PifPaf 使用部位强度场（Part Intensity Field: PIF）定位身体部位，使用部位关联场（ Part Association Field: PAF）关联身体部位，形成完整的人体姿态。

Feature pyramid： 目标检测和分割框架中广泛运用金字塔表示处理尺度变化。SSD 和 MSCNN 预测网络多层对象，而无需合并特征。特征金字塔网络通过使用双线性上采样和横向连接的 top-down pathway 扩展 backbone 模型，将特征分辨率从1/32逐渐恢复到1/4。它们的动机是让来自不同金字塔层次的特征预测不同尺度的实例。然而，这种金字塔表示在bottom-up 多人姿态估计中很少被应用。本文设计了一个高分辨率特征金字塔，从1/4分辨率的特征开始，将金字塔扩展到一个不同的方向，并生成具有更高分辨率的特征金字塔。

High resolution feature maps： 生成高分辨率特征图的方法主要有4种：(1) Encoder-decoder: 在 encoder path 中捕获上下文信息，在 decoder path 中恢复高分辨率特征。decoder 通常包含一系列双线性上采样操作，并 skip connect 具有相同分辨率的 encoder。(2) 扩张卷积，也称为空洞卷积（Dilated convolution / “atrous” convolution) ）用于移除多个 stride convolutions/max poolings ，以保持特征图分辨率。扩张卷积可以防止丢失空间信息，但会带来更多的计算成本。(3) 反卷积（转置卷积）在网络末端按顺序使用，以有效提高特征图分辨率。SimpleBaseline 证明，反卷积可以生成用于热图预测的高质量特征图。(4) HRNet：在整个过程中保持高分辨率。HRNet 由具有不同分辨率的多分支组成。低分辨率分支捕获上下文信息，高分辨率分支保留空间信息。通过分支之间的多尺度融合，HRNet 可以生成语义丰富的高分辨率特征图。
本文采用 HRNet 作为 backbone 来生成高质量的特征图，并添加一个反卷积模块来生成更高分辨率的特征图来预测热图，由此产生的模型为：尺度感知高分辨率网络（Scale-Aware High-Resolution Network：HigherHRNet）。由于 HRNet 和反卷积都是有效的，HigherHRNet是生成用于热图预测的高分辨率特征图的有效模型

3. Higher-Resolution Network

本节介绍 HigherHRNet的 Scale-Aware High-Resolution Representation Learning。图2为 HigherHRNet 总体架构。
在这里插入图片描述

图2 ：HigherHRNet 整体架构。该网络使用 HRNet 作为 backbone，然后使用一或多个反卷积模块生成多分辨率和高分辨率热图。多分辨率监督用于训练。

3.1. HigherHRNet

HRNet. HigherHRNet 使用 HRNet 作为 backbone （图2所示）。HRNet 在第一阶段从一个高分辨率分支开始，在接下来的每个阶段，向当前分支并行添加一个 1/2 当前分支分辨率的分支。网络的阶段越多，就会有更多具有不同分辨率的并行分支，并且之前阶段的分辨率在之后的阶段都保留。图2 为一个包含3个并行分支的网络结构实例。
使用与 HRNet 类似的方式实例化 backbone。该网络从一个由两个 stride=2 卷积组成的 stem开始，将分辨率降低到1/4。第一阶段包含4个残差单元，其中每个单元由一个 width（通道数）=64的bottleneck形成，然后是一个3×3的卷积，将特征图的 width 减小到 C。第二、第三、第四阶段分别包含 1、4 和 3个多分辨率块，四种分辨率的卷积宽度分别为 C、2C、4C和8C。多分辨率组卷积中的每个分支有4个残差单元，每个单元在每个分辨率中有两个 3×3 卷积。本文分别将 C 设为32和48，对两个不同容量的网络进行了实验。
HRNet 最初设计用于 top-down 姿态估计。本文采用 HRNet 作为 bottom-up 法，加入一个 1×1 卷积来预测热图和 tagmaps（类似于Associative embedding）。我们仅使用最高分辨率（输入图像的1/4）特征图进行预测，对每个关键点使用一个标量标记（ scalar tag ）。

HigherHRNet. 热图的分辨率对于预测小人体关键点非常重要。大多现有姿态估计方法使用应用于每个关键点位置的 unnormalized Gaussian 核来做 ground truth headmaps 来预测 Gaussian-smoothed 热图。添加这种高斯核有助于训练网络，因为CNN倾向于输出空间平滑响应，这是卷积运算的一种性质。然而，应用高斯核也会混淆关键点的精确定位，尤其对于小人体关键点，减少这种混淆的一个简单解决方案是减少高斯核的标准差，但我们从实验中发现，这会使优化更困难，导致更糟糕的结果。
我们没有减少标准差，而是在不改变不同分辨率标准差的情况下预测更高分辨率下的热图来解决此问题。Bottom-up 法通常以输入图像分辨率的 1/4 预测热图，但这个分辨率不足以预测准确的热图。受 SimpleBaseline 的启发：反卷积可以有效地生成高质量和高分辨率的特征图，我们通过添加 3.3节的反卷积模块，在 HRNet 中的最高分辨率特征图的基础上构建HigherHRNet（如图2所示）。
反卷积模块将 HRNet 中的特征图和预测热图作为输入，生成分辨率比输入特征图高2倍的新特征图。反卷积模块与 HRNet 的特征图一起生成具有两种分辨率的特征金字塔。反卷积模块还通过添加额外的1×1卷积来预测热图。我们遵循 3.4 节以不同分辨率训练热图预测器，并使用（第3.5节）中所述的热图聚合策略进行推理。
如果需要更大的分辨率，可以添加更多的反卷积模块。我们发现反卷积模块的数量取决于数据集的 person scales 分布。一般来说，包含较小人体的数据集需要更高分辨率的特征图进行预测，反之亦然。实验发现在COCO数据集上添加一个反卷积模块可以获得最好的性能。

3.2. Grouping 分组

最近的工作表明，使用 associative embedding 可以提高分组精度。文献 [30] 的实验结果表明，在COCO关键点检测数据集的500幅训练图像上，使用带预测 tag 的 ground truth 检测将AP从 59.2 提高到 94.0。我们按照 [30] 使用 associative embedding 进行关键点分组，通过将具有较小 $l_2$ 距离tag 的关键点分组，将 identity-free 关键点分为多个个体。

3.3. Deconvolution Module 反卷积模块

我们提出一个简单的反卷积模块来生成分辨率比输入特征图高两倍的高质量特征图。遵循 SimpleBaseline，我们使用 followed by BatchNorm和ReLU 的4×4反卷积（也称转置卷积）来学习上采样输入特征图。可以在反卷积后进一步添加几个 Basic Residual Blocks 来细化上采样特征图（可选的）。我们在HigherHRNet中添加了4个 Residual Blocks。与 SimpleBaseline 不同的是，我们反卷积模块的输入是来自 HRNet 或之前反卷积模块的特征图和预测热图的 concatenation ，并利用各反卷积模块的输出特征图对热图进行多尺度预测。

3.4. Multi-Resolution Supervision 多分辨率监督

与其他只对最大分辨率热图进行监督的 bottom-up 法不同，我们在训练期间引入了多分辨率监督来处理尺度变化。我们将 ground truth 关键点位置转换为所有分辨率的热图上的位置，以生成具有不同分辨率的 ground truth 热图，然后将具有相同标准差的高斯核（默认标准差=2）应用于所有这些 ground truth 热图上。我们发现，重要的是不缩放高斯核的标准差，因为不同分辨率的特征金字塔适合预测不同尺度的关键点。在高分辨率特征图上，需要相对较小的标准差（与特征图的分辨率相比）来精确定位小人体的关键点。
在 HigherHRNet 的每个预测尺度上，计算该尺度的预测热图与其相关的 ground truth 热图间的均方误差，最终热图损失是所有分辨率均方误差之和。
值得强调的是，由于以下原因，我们不会将不同尺度的人体分配到特征金字塔的不同层次：① 首先，用于分配训练 target 的启发式方法取决于数据集和网络结构。很难将 FPN 的启发式转换为 HigherHRNet ，因为数据集（scale distribution of person v.s all objects）和架构（HigherNet只有两层金字塔，而FPN有4层）都在变化。② 其次，由于采用高斯核，ground truth 关键点 targets 相互作用，所以很难通过简单地设置忽略区域来解耦关键点。我们相信该模型能够自动关注特征金字塔不同层次中的特定规模。
Tagmaps 的训练与 HigherHRNet 中的热图不同。我们只在最低分辨率而非所有分辨率下预测 tagmaps，因为学习 tagmaps 需要全局推理，更适合以较低的分辨率预测 tagmaps，实验也发现高分辨率无法很好地预测 tagmaps，甚至无法收敛。因此，我们按照 [30] 在特征图上以输入图像 1/4 的分辨率对 tagmaps 进行训练。

3.5. Heatmap Aggregation for Inference 用于推理的热图聚合

本文在推理过程中提出了一种热图聚合策略：使用双线性插值将所有具有不同分辨率的预测热图上采样到输入图像的分辨率，并平均所有尺度的热图进行最终预测。这种策略与先前仅使用单尺度或单阶段的热图进行预测的方法大为不同。
热图聚合能让姿态估计感知尺度。例如，COCO关键点数据集包含了从 $32^2$ 像素到超过 $128^2$ 像素的大尺度差异人体。Top-down 法通过将人的区域近似 normalizing 为同一尺度来解决此问题。但 Bottom-up 法需要感知尺度来从所有尺度中检测关键点。HigherHRNet 中不同尺度的热图能够更好地捕捉不同尺度的关键点，例如，低分辨率热图中遗漏的小人体关键点可以在高分辨率热图中恢复。因此，平均不同分辨率的预测热图能使HigherHRNet 成为一种尺度感知姿态估计器。

4. Experiments

4.1. COCO Keypoint Detection

表1：COCO2017 test-dev set上 bottom-up 法的比较。所有GFLOP均以 single-scale 计算。对PersonLab，只计算其 backbone 的 #Params和GFLOPs。上部分: w/o multi-scale test. 下部分: w/ multi-scale test。 Note：我们的结果是在不 refinement 情况下取得的。

在这里插入图片描述

表2：COCO2017 test-dev set上 bottom-up 法与 top-down 法的比较。*指使用 refinement。+ 指使用 multi-scale test

在这里插入图片描述

4.2. Ablation Experiments 消融实验

HRNetvs. HigherHRNet.

表 3. COCO2017 val data set 上 HRNet vs. HigherHRNet 消融实验 . 对HigherNet使用一个反卷积模块在COCO数据集上表现最好。

在这里插入图片描述
HigherHRNet gain breakdown.
为了更好地了解组件的增益，对每个单独组件进行详细的消融实验。图3展示了实验的所有架构。结果如表4所示。

图3 (a) HRNet 作为 baskbone 的 baseline。(b) 多分辨率监督（multi-resolution supervision: MRS）的HigherNet。（c) MRS和特征 concatenation 的 HigherNet。 (d) MRS和特征 concatenation 的 HigherNet。(e) 带 MRS, feature concatennation 和 extra residual blocks 的HigherNet。(d) 和 (e)，使用热图聚合。

表4：COCO2017 val dataset 上 HigherHRNet不同组件的消融实验。MSR: multi-resolution supervision. feature concat.: feature concatenation. res. blocks: residual blocks.

在这里插入图片描述

反卷积 module 的作用： 我们对增加反卷积模块以生成高分辨率热图的效果进行了消融研究。为了公平比较，只使用最高分辨率的特征图来生成预测热图（图3(b)）。HRNet（图3(a)）实现了一个 64.4 AP 的 Baseline。通过增加一个反卷积模块，模型达到66.0个AP，比 baseline 高 1.6 AP，这一改进完全是因为在更大的特征图上进行预测，质量更高。结果验证了我们的观点：预测更高分辨率的特征图对 bottom-up 姿态估计非常重要。

特征 concatenation 的作用： 我们将特征图与来自HRNet的预测热图 concatenation ，作为反卷积模块的输入（图3(c )）且性能进一步提高至 66.3 AP。我们还观察到，中等人体的性能大幅上升，而大人体的性能则有所下降。方法(a) 和方法(c）相比，在较高分辨率下预测热图的收益主要来自medium persons ( $3.7AP^M$ )。此外， large persons 的下降(−1.6AP）证明了不同分辨率的特征图对不同尺度的人敏感。

热图聚合的作用： 我们进一步使用 fallowing 热图聚合策略热图的所有分辨率进行推理 (Figure3(d))。与仅使用最高分辨率的热图进行推理的图3©(66.3 AP)相比，应用热图聚合策略可达到 66.9 AP。对比方法(d) 和方法(e)，热图聚合的收益来自于大人体 (+1.7 AP)，大人体的表现甚至比低分辨率的预测(method (a))略好，这意味着使用热图聚合策略预测热图是真正的尺度感知。
extra residual blocks 的作用： 我们在反卷积模块中添加了4个residual blocks，我们的最佳模型达到 67.1AP 。添加残差块可以进一步细化特征图，并且可以 equally 提高 medium 和 large persons 的AP。

使用较大的图像大小进行训练：
大部分收益来自于medium person，而 large person 的表现略有下降。当进一步将训练图像大小更改为768时，整个AP不再改变，medium person 的情况略有改善，而 large person 的情况则大为恶化。

表5：COCO2017 val dataset 上不同训练图像大小的 HigherHRNet 消融研究。

在这里插入图片描述
Larger backbone.
使用更大 backbone 可以持续提高 medium 和 large person 的性能。

表5：COCO2017 val dataset 上不同 backbone 的 HigherHRNet 的消融实验。

4.3. CrowdPose

表6：CrowdPose test dataset 上 top-down 和 bottom-up 法的比较。AP 的上标 E, M, H 代表 easy, medium 和 hard。+ 表示使用 multi-scale test.

在这里插入图片描述

5. Conclusion

为了解决 bottom-up 多人姿态估计中的尺度变化问题，特别是精确定位小体关键点，本文提出了一种尺度感知高分辨率网络（HigherHRNet）。我们发现，多尺度图像金字塔和较大的输入尺寸能部分解决此问题，但这些方法的计算成本较高。为了解决这一问题，我们提出了一种基于HRNet的高效高分辨率特征金字塔，并对其进行多分辨率监督训练。在推理过程中，具有多分辨率热图聚合的 HigherHRNet 能够高效地生成多分辨率和更高分辨率的热图，以实现更精确的人体姿态估计。在 COCO数据集上，HigherHRNet的性能大大优于所有现有的 bottom-up 法，尤其是对于小人体。