在ECCV2016《Stacked Hourglass Networks for Human Pose Estimation》这篇paper中提出
是一个姿态估计(pose estimation)的网络结构
姿态估计(Pose Estimation)是 CV 领域一个非常重要的方向,而Stacked Hourglass Networks 级联漏斗网络的提出就是为了提升姿态估计的效果,但是其中的经典思想可以扩展到其他方向,比如目标识别方向,代表网络是 CornerNet(预测目标的左上角和右下角点,再进行组合画框)。
CNN 之所以有效,是因为它能自动提取出对分类、检测和识别等任务有帮助的特征,并且随着网络层数的增加,所提取的特征逐渐变得抽象。以人脸识别为例,低层卷积网络能够提取出一些简单的特征,如轮廓;中间卷积网络能够提取出抽象一些的特征,如眼睛鼻子;较高层的卷积网络则能提取出更加抽象的特征,比如完整的人脸。这些将有助于我们理解级联漏斗模型(Stacked Hourglass Model,简称SHM)为什么有效。
做姿态估计,需要预测身体不同的关节点,手臂这种线条简单的结构,可能在中间卷积网络更容易被识别;而面部这种线条复杂的结构,可能在高层卷积网络才更容易被识别。因此,如果我们只使用最后一层的 feature map,就会造成一些信息的丢失。SHN 的主要贡献——利用多尺度特征来识别姿态。
这里为什么要做多个 "hourglass" 结构的级联?
文中指出相互关键点之间也是有关系的,知道了双肩就更好预测肘,知道了肘的位置就更好的预测手的位置,而每一个 “hourglass” 结构都很会产生一个热力图预测,这样级联起来,上一个 “hourglass” 学习并预测的关节点之间的联系也可以为下一级所用。
Hourglass Network 沙漏网络 (pose estimation姿态估计)
于 2020-10-17 16:54:05 首次发布