摘录一篇HRNet和HigherHRNet对比的博客

Patricia_daye

已于 2022-06-10 13:06:11 修改

阅读量1.1k

点赞数

分类专栏： HPE 文章标签：深度学习人工智能神经网络

于 2022-06-10 13:04:21 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Patricia_daye/article/details/125219671

版权

HPE 专栏收录该内容

11 篇文章 4 订阅

订阅专栏

HRNet 和 HigherHRNet 笔记

摘录自博客

两个网络都是针对人体姿态估计任务的。人体姿态估计是一项图片处理任务，目的是找到一张照片当中的关节点。

HRNet 是人体姿态估计任务中的标杆网络。该网络的创新点在于 “维持了输入数据的高分辨率”， “并行连接了由高到低分辨率的子网络” 同时 “保持高效计算和参数量”。

为什么选择 HRNet？
HRNet 框架
HigherHRNet
demo 视频
FAQ

为什么选择 HRNet？

良好的开源文章与 GitHub 代码维护。2.9k stars github
是许多现行新研究的 backbone 。
在许多姿态估计任务和数据集上表现出色。、

HRNet

针对姿态估计任务，我们需要检测出图中人物的关节点组合。

一般来说，方法大致分为两大类：自顶向下，自底向上。

Top-down and bottom-up HPE

bottom-up
top-down

	Top-Down	Bottom-Up
pipeline	1. 使用目标检测器检测单人实例。2. 对bounding box 的单人进行关键点检测。	1. 对所有的人进行关键点检测。2. 然后将这些点组合为实例。
特点	精度高、计算量大；因为将整个任务分为两部分，可以分别训练两方，但也因为额外的检测导致更高的运算成本。	速度快、对尺度敏感；

数据集

COCO, FasterRCNN来检测 bounding boxes, OKS
MPII, 自带标注 bounding boxes

输入输出

输入图片尺寸是 265 x 192 或 384 x 288；
输出 heatmap 尺寸是 64 x 48 或 96 x 72 （1/4）; 17 channels = 17 keypoints （COCO）

前两个卷积层的作用：根据需要的 heatmap 大小来降低输入网络的特征尺寸。

W32 和 W48

开源了一个小网络和一个大网络： HRNet-W32 和 HRNet-W48。

其中，32 和 48 分别代表最后三个阶段的宽度，即 32，64，128，256；48，96，192，384。

论文当中 exchange block 是一个模块，exchange unit 是 fuse layer。

在论文图里，

HigherHRNet

这是同一个团队的推出新网络。针对 bottom-up 姿态估计，使用了 HRNet 作为 backbone。

这个网络解决了自底向上姿态估计里的尺度变化问题。

他们的方法是使用 HRNet 提供的高分辨率特征来输出多分辨率的 heatmaps。

HigherHRNet 在 COCO 数据集上超过了所有自底向上的方法，其中，中等尺寸获得很大提升。

HigherHRNet 也在 CrowdPose 数据集上成为标杆。

作者表示 bottom-up 方法在多人场景下比 top-down 方法更加具有鲁棒性，然而没有在相同数据集上对常规 top-down 方法进行比较。

backbone：HRNet
在 HRNet 的尾端输出更高分辨率的 heatmaps

HRNet 梳理

HRNetV1
HigherHRNet
Bottom-Up HPE

以下内容全部针对 Multi-person, Bottom-up, HPE

HRNet

input: $\frac{1}{4}$ -res. representations.
output: $\frac{1}{4}$ -res. representations.
main body 结构

HRNetV1

输出的特征仅来自最高层，其他特征忽略。

应用到 multi-person bottom-up HPE

HigherHRNet 3.1 提及将 HRNet 应用到 Bottom-up 的方式，联合 Associate Embedding 方法。

仅将 HRNet 看作一个可以生成高分辨率特征的网络，然后添加一个卷积层用来测 heatmap 和 tagmap，之后根据 Associative Embedding 的方法来

e2e 的做人体姿态估计。

HigherHRNet

input: $\frac{1}{4}$ -res. representations.
output: $\frac{1}{2}$ -res. heatmaps
结构

HRNet 作为 backbone 帮助生成高分辨率特征。然后连接高分辨率特征和 heatmaps，共同输入反卷积模块，生成更高分辨率的特征和 heatmaps。之后再整合 Associative Embedding 方法来进行人体姿态估计。

关注

0
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
摘录一篇HRNet和HigherHRNet对比的博客

找了一些对我理解有帮助的部分。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。