[paper] Hourglass

Stacked Hourglass Networks for Human Pose Estimation

Abstract

Hourglass Net是一个进行人体位姿估计的卷积神经网络(也可以用在人脸关键点检测等领域)。它结合了身体上的空间关系和多种尺寸上得到特征。作者采用了将多个Hourglass模块堆叠的方法,并且将中继监督运用进来,这些对于提高网络性能至关重要。这个方法在当时可以在FLIC数据集和MPII上达到state-of-art的效果。

网络结构:
在这里插入图片描述

Introduction

准确的人体关键点对于理解视频和图片中的人物状态是至关重要的。Hourglass网络和通常的卷积方法一样,最终可以产生像素级别的结果(Hourglass的结果是N个关键点的heatmap图,)。每个hourglass 模块会pool down到一个非常小的尺寸,然后再上采样(上采样的同时加上pool down时相同尺寸的feature map)。

Related Work

人体位姿估计主要有几个方法:

  1. 直接对x, y坐标进行回归
  2. 对原始图片进行多个尺度处理,然后得到最终结果

作者的网络建立在上述方法的基础上,探究了如何捕获多个尺度的信息,并且如何对不同的尺寸的特征进行整合。

对各种前人的网络介绍中,提及到Tompson et al. 使用级联(cascade)网络进行预测,并解释说级联网络的优点是减少内存使用的同时提高最终的效果。

网络结构

Bottleneck 模块

整个网络的输入是256*256,首先做一个7*7的卷积,然后做了1个Bottleneck, 在做了1个max_pooling, 之后做了2个BottleNeck,此时的尺寸是64*64

作者在论文中说,将输入从256*256降低到64*64,这样做主要是因为256*256需要消耗大量的GPU资源。缩小尺寸没有影响网络的预测。

我认为,使用bottlen

  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值