Hourglass Network - stacked hourglass network for human pose estimation 论文解读

paper title: stacked hourglass network for human pose estimation
paper link: https://arxiv.org/abs/1603.06937
oral or demo video:-
project: -
github:https://github.com/princeton-vl/pose-hg-train
conf & anthor: ECCV 16,Alejandro Newell et al (UMich)
arXiv submit v1: 2016.03 google citation: 969(2019.07.12)

相关链接:

主要内容
这篇文章主要提出了一个“stacked hourglass”的卷积网络架构来完成单人人体姿态估计问题。文章提出了一种称为"hourglass"的模块,如其名,"hourglass"模块中的特征处理过程是一个"bottom-up -> top-down"的形式。在"bottom-up"过程中通过Maxpooling 操作feature map的尺寸不断减小,而接着的"top-down"过程中,通过上采样feature map的尺寸不断增大,恢复至输入的尺寸;在这个过程中,融合了不同分辨率的特征。最后通过多个"hourglass"的stack构成构成网络的整体结构。

网络结构
(1)"hourglass"模块的基本结构
"hourglass"模块的基本结构如下图所示,图中的每一个方块都表示一个残差模块。
hourglass module
根据论文的代码,残差模块的具体形式如下:
residual block in hourglass network

(2)"stacked hourglass network"的整体结构
"hourglass network"的整体结构如下图所示,输入的图像首先经过卷积和pooling操作后,尺寸缩小四倍(256x256->64x64),然后接多个"hourglass"模块。在中间的每一个"hourglass"模块后都会输出一个中间结果heatmaps,参与损失函数计算,并会将这个heatmaps通过1x1的卷积“remap”回去,与原来的feature map相加到一起。具体详细的结构可以参见下图。
stacked hourglass network

损失函数
损失函数采用的是MSE:
L m o d u l e = 1 T 1 W ∗ H ∑ t = 1 T ∑ i = 1 W ∗ H ( c i t − c ^ i t ) 2 L_{module}=\frac{1}{T}\frac{1}{W*H}\sum_{t=1}^{T}\sum_{i=1}^{W*H}(c_i^t-\hat{c}_i^t)^2 Lmodule=T1WH1t=1Ti=1WH(citc^it)2
其中:

  • t表示关节点的编号,T=16;
  • 上面公式表示的是一个"hourglass"模块的损失,计算loss的时候所有模块的损失都会计算。


论文结果
MPII数据集上PCKh@0.5平均为90.9;具体如下:
hourglass result

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值