Hourglass Network 沙漏网络（pose estimation姿态估计）

hxxjxw

已于 2022-01-26 10:52:50 修改

阅读量7.6k

点赞数 4

文章标签： cv

于 2020-10-17 16:54:05 首次发布

本文链接：https://blog.csdn.net/hxxjxw/article/details/109130642

版权

在ECCV2016《Stacked Hourglass Networks for Human Pose Estimation》这篇paper中提出

是一个姿态估计（pose estimation）的网络结构

姿态估计（Pose Estimation）是 CV 领域一个非常重要的方向，而Stacked Hourglass Networks 级联漏斗网络的提出就是为了提升姿态估计的效果，但是其中的经典思想可以扩展到其他方向，比如目标识别方向，代表网络是 CornerNet（预测目标的左上角和右下角点，再进行组合画框）。

CNN 之所以有效，是因为它能自动提取出对分类、检测和识别等任务有帮助的特征，并且随着网络层数的增加，所提取的特征逐渐变得抽象。以人脸识别为例，低层卷积网络能够提取出一些简单的特征，如轮廓；中间卷积网络能够提取出抽象一些的特征，如眼睛鼻子；较高层的卷积网络则能提取出更加抽象的特征，比如完整的人脸。这些将有助于我们理解级联漏斗模型（Stacked Hourglass Model，简称SHM）为什么有效。

做姿态估计，需要预测身体不同的关节点，手臂这种线条简单的结构，可能在中间卷积网络更容易被识别；而面部这种线条复杂的结构，可能在高层卷积网络才更容易被识别。因此，如果我们只使用最后一层的 feature map，就会造成一些信息的丢失。SHN 的主要贡献——利用多尺度特征来识别姿态。

这里为什么要做多个 "hourglass" 结构的级联？

文中指出相互关键点之间也是有关系的，知道了双肩就更好预测肘，知道了肘的位置就更好的预测手的位置，而每一个 “hourglass” 结构都很会产生一个热力图预测，这样级联起来，上一个 “hourglass” 学习并预测的关节点之间的联系也可以为下一级所用。