HRNet 和 HigherHRNet 笔记
摘录自 博客
两个网络都是针对人体姿态估计任务的。人体姿态估计是一项图片处理任务,目的是找到一张照片当中的关节点。
HRNet 是人体姿态估计任务中的标杆网络。该网络的创新点在于 “维持了输入数据的高分辨率”, “并行连接了由高到低分辨率的子网络” 同时 “保持高效计算和参数量”。
- 为什么选择 HRNet?
- HRNet 框架
- HigherHRNet
- demo 视频
- FAQ
为什么选择 HRNet?
-
良好的开源文章与 GitHub 代码维护。2.9k stars github
-
是许多现行新研究的 backbone 。
-
在许多姿态估计任务和数据集上表现出色。、
HRNet
针对姿态估计任务,我们需要检测出图中人物的关节点组合。
一般来说,方法大致分为两大类:自顶向下,自底向上。
Top-down and bottom-up HPE
-
bottom-up
-
top-down
Top-Down | Bottom-Up | |
---|---|---|
pipeline | 1. 使用目标检测器检测单人实例。2. 对bounding box 的单人进行关键点检测。 | 1. 对所有的人进行关键点检测。2. 然后将这些点组合为实例。 |
特点 | 精度高、计算量大;因为将整个任务分为两部分,可以分别训练两方,但也因为额外的检测导致更高的运算成本。 | 速度快、对尺度敏感; |
数据集
- COCO, FasterRCNN来检测 bounding boxes, OKS
- MPII, 自带标注 bounding boxes
输入输出
- 输入图片尺寸是 265 x 192 或 384 x 288;
- 输出 heatmap 尺寸是 64 x 48 或 96 x 72 (1/4); 17 channels = 17 keypoints (COCO)
前两个卷积层的作用:根据需要的 heatmap 大小来降低输入网络的特征尺寸。
W32 和 W48
开源了一个小网络和一个大网络: HRNet-W32 和 HRNet-W48。
其中,32 和 48 分别代表最后三个阶段的宽度,即 32,64,128,256;48,96,192,384。
论文当中 exchange block 是一个模块,exchange unit 是 fuse layer。
在论文图里,
HigherHRNet
这是同一个团队的推出新网络。针对 bottom-up 姿态估计,使用了 HRNet 作为 backbone。
这个网络解决了自底向上姿态估计里的尺度变化问题。
他们的方法是使用 HRNet 提供的高分辨率特征来输出多分辨率的 heatmaps。
HigherHRNet 在 COCO 数据集上超过了所有自底向上的方法,其中,中等尺寸获得很大提升。
HigherHRNet 也在 CrowdPose 数据集上成为标杆。
作者表示 bottom-up 方法在 多人场景下 比 top-down 方法更加具有鲁棒性,然而没有在相同数据集上对常规 top-down 方法进行比较。
- backbone:HRNet
- 在 HRNet 的尾端输出更高分辨率的 heatmaps
HRNet 梳理
- HRNetV1
- HigherHRNet
- Bottom-Up HPE
以下内容全部针对 Multi-person, Bottom-up, HPE
HRNet
-
input: 1 4 \frac{1}{4} 41 -res. representations.
-
output: 1 4 \frac{1}{4} 41-res. representations.
-
main body 结构
- HRNetV1
输出的特征仅来自最高层,其他特征忽略。
- 应用到 multi-person bottom-up HPE
HigherHRNet 3.1 提及将 HRNet 应用到 Bottom-up 的方式,联合 Associate Embedding 方法。
仅将 HRNet 看作一个可以生成高分辨率特征的网络,然后添加一个卷积层用来测 heatmap 和 tagmap,之后根据 Associative Embedding 的方法来
e2e 的做人体姿态估计。
HigherHRNet
-
input: 1 4 \frac{1}{4} 41 -res. representations.
-
output: 1 2 \frac{1}{2} 21 -res. heatmaps
-
结构
HRNet 作为 backbone 帮助生成高分辨率特征。然后连接高分辨率 特征 和 heatmaps,共同输入反卷积模块,生成更高分辨率的 特征和 heatmaps。之后再整合 Associative Embedding 方法来进行人体姿态估计。