[paper] Hourglass

最新推荐文章于 2023-12-24 14:51:13 发布

四月晴

最新推荐文章于 2023-12-24 14:51:13 发布

阅读量1.4k

点赞数 1

分类专栏：计算机视觉 paper 图像处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/siyue0211/article/details/92801953

版权

Stacked Hourglass Networks是一种用于人体姿态估计的卷积神经网络，通过堆叠Hourglass模块和中继监督捕获多尺度特征，提高预测准确性。网络结构包括Bottleneck模块，以减小计算量并保留信息，最终生成关键点的heatmap。

摘要由CSDN通过智能技术生成

Stacked Hourglass Networks for Human Pose Estimation

Abstract

Hourglass Net是一个进行人体位姿估计的卷积神经网络（也可以用在人脸关键点检测等领域）。它结合了身体上的空间关系和多种尺寸上得到特征。作者采用了将多个Hourglass模块堆叠的方法，并且将中继监督运用进来，这些对于提高网络性能至关重要。这个方法在当时可以在FLIC数据集和MPII上达到state-of-art的效果。

网络结构：
在这里插入图片描述

Introduction

准确的人体关键点对于理解视频和图片中的人物状态是至关重要的。Hourglass网络和通常的卷积方法一样，最终可以产生像素级别的结果（Hourglass的结果是N个关键点的heatmap图，）。每个hourglass 模块会pool down到一个非常小的尺寸，然后再上采样（上采样的同时加上pool down时相同尺寸的feature map）。

Related Work

人体位姿估计主要有几个方法：

直接对x, y坐标进行回归
对原始图片进行多个尺度处理，然后得到最终结果

作者的网络建立在上述方法的基础上，探究了如何捕获多个尺度的信息，并且如何对不同的尺寸的特征进行整合。

对各种前人的网络介绍中，提及到Tompson et al. 使用级联（cascade）网络进行预测，并解释说级联网络的优点是减少内存使用的同时提高最终的效果。

网络结构

Bottleneck 模块

整个网络的输入是256*256，首先做一个7*7的卷积，然后做了1个Bottleneck, 在做了1个max_pooling, 之后做了2个BottleNeck，此时的尺寸是64*64

作者在论文中说，将输入从256*256降低到64*64，这样做主要是因为256*256需要消耗大量的GPU资源。缩小尺寸没有影响网络的预测。

我认为，使用bottlen

最低0.47元/天解锁文章

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。