终于跳进人体姿态估计的坑了,本篇文章来源于ECCV2016。
论文链接
它的亮点是通过反复上采样和下采样,不断地融合空间信息,这样就可以把各个关键点的信息连贯地融合到一起,最后输出基于像素点的预测,它是一个singel pipeline,其中feature map最小的是4 * 4。
它的设计如图3:经由卷积层和max pooling层将feature map降至较低的分辨率,在Max pooling之前,它有一个分支分出,这里很像是resent的residual操作。当Max pooling到最小尺寸后,再经由上采样之后,在加上之前的分支,这也可以看作是一个沙漏的结构,这个结构是对称的,每一层Max pooling都有对应的上采样。
在输出网络之后,有两个1 * 1的卷积,来生成一组heatmap,网络预测节点在每个像素处存在的概率。在图3之前还有两个1 * 1的卷积。
模型中使用了大量的residual modules
同时为了减少计算量,hourglass的feature
Stacked Hourglass Networks
最新推荐文章于 2023-11-30 17:14:03 发布