原文链接如下:Stacked Hourglass Networks for Human Pose Estimationarxiv.org
这篇论文算是继CPM之后卷积神经网络在human pose estimation中使用的又一代表作。这篇论文提出了一种创新的卷积神经网络结构,使用了重复的bottom-up和top-down连接的处理结构,以及同CPM一样使用了intermediate supervision(中继监督)的监督方法,达到了一个准确率的提升。
网络总体简介
这篇论文指出,在通过图像或者视频理解和分析人类的行为,以及进行人机交互或者动画这些高级任务中,人体姿态估计是一个关键点。于是作者在前人使用ConvNets的基础之上,也设计了一个新的"stacked hourglass"卷积网络接结构。首先网络的总体结构如下图所示。
可以看到实际上stacked hourglass network就是多个hourglass modules的stack(堆叠),每个hourglass module由一个bottom-up和top-down的网络结构构成。他的样子长得就像是堆叠起来的沙漏,所以作者称它为"stacked hourglass networks"。每个bottom-up除了卷积之外将图片从高分辨率降到低分辨率,提取更强的语义特征,top-down过程再将图片从低分辨率升到高分辨率,加强定为特征。
Hourglass Module Design
单个的hourglass module的结果就如下图所示:
hourglass 的设计来源就是来自于我们在提取特征的时候,必须要提取每一个分辨