hourglass论文_Stacked Hourglass networks

摘要

Stacked Hourglass(Stacked HG, 堆叠沙漏)网络最早出现在2016年的<>一文,作者来自密西根大学。作者通过提出该网络结构来定位人体的关键点,从而完成人体姿态的估计。Stacked HG网络的作用是通过估计人体关键点的热度图来实现关键点的定位。目前,基于该网络结构的各种变种算法,牢牢占据了姿态检测的半壁江山,并且在人脸关键点定位领域,Stacked HG也得到了越来越多的应用(如2017年的FAN,2018年的LAB等算法)。

网络由来

CNN的多层次特征

CNN深度卷积网络如vgg16,resnet,近几年在推动人工智能的发展上,做出了巨大的贡献,原因就在于CNN可以自动提取对分类/检测/识别任务有帮助的特征,不再需要传统人工设计特征,如SIFT/HOG等。

CNN通常含有很深的网络层,每一层代表对图像的特征提取,被称为feature map。随着网络层数的加深,通常由于pooling 或者stride=2的conv操作,使得feature map的尺寸逐渐减小,从而形成不同尺度下的特征图。卷积网络对图像特征的提取,是随着网络的层数的加深,而从低层特征描述逐渐抽象为高层特征描述。以前估计姿态的网络结构(如DeepPose),大多只使用最后一层的卷积特征,这样进利用单一尺度下的特征度来进行人体关键点定位,会造成信息的丢失。

多尺度特征

对于人体姿态估计这种关联型任务,全身不同的关节点,并不是在相同的feature map上具有最好的识别精度。举例来说,胳膊可能在第3层的feature map上容易识别,而头部在第5层上更容易识别,见下图。所以,需要设计一种可以同时使用多个feature map的网络结构。

image.png

HourGlass 捕捉每一个尺度下的信息

如论文所述,HG的设计动机是对于在每一个尺度下捕捉信息的需求。尽管局部信息对于识别人面部,手部特征很有效,但对于人体姿态的最终估计则需要对整个人体的联合理解。人体的方位,四肢的布局,关节点之间的关系等这些线索都可能是在在不同尺度下获得的最佳识别结果。

网络结构

Hourglass

总体来讲,Hourglass网络结构是一种简单的,具有捕捉各尺度下信息能力的最小设计。同时,它兼顾了“ bottom-up”(从高分辨率到低分辨率)和“top-down”之间的对称分布(FCN这种属于严重的bottom-up设计)。从结构上,HG可看作是conv-deconv或者encoder-decoder的结构。从输入开始,经过多次的降采样到4x4,再经过同等次数的上采样将featuremap 恢复成原输入大小。

具体来讲,HG是一个递归的过程。一个n阶HG的输入是64x64(对于一个256大小的输入,需经过7x7conv,maxpool将其降采样至64x64,选择64的原因是为了节省计算量),然后输入会经过两个分支: 低分辨率分支(low resresolution)和高分辨率分支。高分辨率分支是一个残差块(up1模块),低分辨率分支由 一个maxpool-residual(low1模块),串联一个残差块或n-

阶HG(low2模块)组成,最后,低分辨率分支经过upSampling-residual(up0模块) 与高分辨率分支的输出相加。其中,整个网络中的残差块输入输出尺寸相等。

HourGlass

Stacked HG

如下图所示,含有1个HG单元的网络经HG 后经过參差-conv-relu-bn- 1x1conv输出N 个64x64

热度图[64,64, N_Landmark

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值