终于跳进人体姿态估计的坑了,本篇文章来源于ECCV2016。
论文链接
它的亮点是通过反复上采样和下采样,不断地融合空间信息,这样就可以把各个关键点的信息连贯地融合到一起,最后输出基于像素点的预测,它是一个singel pipeline,其中feature map最小的是4 * 4。
它的设计如图3:经由卷积层和max pooling层将feature map降至较低的分辨率,在Max pooling之前,它有一个分支分出,这里很像是resent的residual操作。当Max pooling到最小尺寸后,再经由上采样之后,在加上之前的分支,这也可以看作是一个沙漏的结构,这个结构是对称的,每一层Max pooling都有对应的上采样。
在输出网络之后,有两个1 * 1的卷积,来生成一组heatmap,网络预测节点在每个像素处存在的概率。在图3之前还有两个1 * 1的卷积。
模型中使用了大量的residual modules
同时为了减少计算量,hourglass的feature map的size是64 * 64.它首先经过7 *7,stride=2的卷积层,然后在经由Max pooling,将256降到64&#
Stacked Hourglass Networks
最新推荐文章于 2024-07-27 10:18:39 发布
本文深入解析ECCV2016论文Stacked Hourglass Networks,该模型利用递归的上采样和下采样,融合空间信息进行人体关键点预测。通过多级沙漏结构,网络在保持局部信息的同时,增强全局理解,适用于单人姿态检测。训练时采用中心裁剪、旋转和缩放的数据增强,使用RMSprop优化器和MSE损失函数。
摘要由CSDN通过智能技术生成