Stacked Hourglass Networks for Human Pose Estimation
Abstract
Hourglass Net是一个进行人体位姿估计的卷积神经网络(也可以用在人脸关键点检测等领域)。它结合了身体上的空间关系和多种尺寸上得到特征。作者采用了将多个Hourglass模块堆叠的方法,并且将中继监督运用进来,这些对于提高网络性能至关重要。这个方法在当时可以在FLIC数据集和MPII上达到state-of-art的效果。
网络结构:
Introduction
准确的人体关键点对于理解视频和图片中的人物状态是至关重要的。Hourglass网络和通常的卷积方法一样,最终可以产生像素级别的结果(Hourglass的结果是N个关键点的heatmap图,)。每个hourglass 模块会pool down到一个非常小的尺寸,然后再上采样(上采样的同时加上pool down时相同尺寸的feature map)。
Related Work
人体位姿估计主要有几个方法:
- 直接对x, y坐标进行回归
- 对原始图片进行多个尺度处理,然后得到最终结果
作者的网络建立在上述方法的基础上,探究了如何捕获多个尺度的信息,并且如何对不同的尺寸的特征进行整合。
对各种前人的网络介绍中,提及到Tompson et al. 使用级联(cascade)网络进行预测,并解释说级联网络的优点是减少内存使用的同时提高最终的效果。
网络结构
Bottleneck 模块
整个网络的输入是256*256,首先做一个7*7的卷积,然后做了1个Bottleneck, 在做了1个max_pooling, 之后做了2个BottleNeck,此时的尺寸是64*64
作者在论文中说,将输入从256*256降低到64*64,这样做主要是因为256*256需要消耗大量的GPU资源。缩小尺寸没有影响网络的预测。
我认为,使用bottlen