Stacked Hourglass Networks for Human Pose Estimation - HourGlass

一.Stacked Hourglass Networks for Human Pose Estimation — HourGlass(沙漏网络)

论文资源:https://arxiv.org/abs/1603.06937

1. 摘要&&储备知识引入

1.摘要:本文通过沙漏网络将特征在所有的尺度上被处理和整合,以最好地捕获与身体相关的各种空间关系,通过重复的自底向上、自顶向下处理与中间监督结合使用,从而提高网络的性能,在FLIC和MPII数据集测试上取得的最先进的结果超过了所有最新的方法
2.储备知识引入:
(1)1 × \times × 1卷积核的作用:1.进行数据维度的升降(保持维度一致)2.

2.整体网络结构图

在这里插入图片描述
之前的网络结构都是自底向上不断地进行卷积扩大维度从最后一层通过全连接直接预测。在姿态估计中,不同的位置的关键点信息在不同分辨率的特征图敏感度是不一样的,所以沙漏网络提供了自顶向下的不同维度下的预测。

3.人体姿态估计简介

(1)给定一个RGB图像,我们希望定位重要的身体关节点的精确的像素位置,了解一个人的姿态和肢体的关节对交流识别等高级任务是有用的,也是人机交互和动画等领域的基本工具
(2)姿态估计是一个公认的视觉问题,一个好的姿态估计系统必须对遮挡和严重变形具有很强的鲁棒性,对罕见的和新颖的姿态具有成功的估计能力,并且不受服装和照明等因素的影响而改变外观
(3)通过连续地将多个沙漏模块端到端地放在一起来扩展单个沙漏。这允许跨尺度的重复自底向上、自顶向下的推理。与使用中间监督相结合,重复双向推理对网络的最终性能至关重要

在这里插入图片描述
从上图看出,我们看到由每个热图的最大激活量提供的最终姿态估计。

4.单个HourGlass的网络结构

在这里插入图片描述
1.沙漏的设计是自底向上和自顶向下的是为了捕捉每一个尺度的信息。人的方位,四肢的排列,以及相邻关节的关系都是许多线索中的一种,这些线索在图像的不同尺度下都能得到最好的识别。沙漏是一种简单、最小的设计,它能够捕捉所有这些特性,并将它们结合在一起,输出像素级的预测。
在这里插入图片描述
2.标准残差块:input feature map 经过【1,1,128】,【3,3,128】,【1,1,256】的卷积核进行卷积再与input feature相加得到output feature map
在这里插入图片描述
3.中间监督预测模块:每一个Hourglass网络都添加Loss层.中间监督的作用在文中提到:如果直接对整个网络进行梯度下降,输出层的误差经过多层反向传播会大幅减小,发生梯度消失现象。Hourglass网络输出heatmap的集合(蓝色),通过和GroundTurth进行LOSS计算,其中下一层的HourGlass的输入为:上一层HourGLass的输出再采用两个连续的 1×1 Conv层进行处理,得到最终的网络输出,再加上进行预测后的HeatMap进行【1,1,256】卷积后的Feature Map

5.训练过程

在这里插入图片描述
细化后的HourGlass:
在这里插入图片描述
1.从第一个沙漏网络开始,输入图片大小为256256,一开始经过一次77*156且 stride为2 的卷积核进行卷积后,紧接着跟随一个residual module和 max pooling将像素值从156下降到64。

2.自底向上:图的左边每一个块都是一个标准残差块。每一个标准残差块进行卷积后进行Max Pooling降维,并且通过一个通道将当前维度的feature Map 直接保留Concat到下一步升维(最近邻上采样)的feature Map中。

3.自顶向下:通过最近邻上采样升维到与左边的同纬度通道相加进行不同尺度下的特征图预测,不同尺度下的特征图预测是中间监督模块进行预测和拼接

4.正如本文开头所示,网络的核心结构为堆叠多个hourglass model,这为网络提供了重复自下而上,自上而下推理的机制,允许重新评估整个图像的初始估计和特征。实现这一过程的核心便是预测中级热度图并让中级热度图参与loss计算。

6.单一HourGlass的中间监督

如果对单一的Hourglass Model进行Intermediate Supervision,监督放在哪个位置比较合适呢?如果在网络进行上采样后提供监督,那么在更大的全局堆叠沙漏网络姿势估计上下文中,无法相对于彼此重新评估这些特征;如果在上采样之前监督,此时,给定像素处的特征是处理相对局部感受野的结果,因此不知道关键的全局线索。本文提供的解决方式是repeated bottom-up,top-down inference with Stacked hourglass

  • 5
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 堆叠沙漏网络(Stacked Hourglass Networks)是一种用于人体姿态估计的深度学习模型。它由多个沙漏模块(Hourglass Module)堆叠而成,每个沙漏模块都包含了卷积神经网络和池化层,用于提取特征。堆叠沙漏网络的优点是可以对不同尺度的特征进行处理,从而提高了姿态估计的准确性。 ### 回答2: Stacked Hourglass Networks (SHN)是一种用于图像分割和人体姿势估计的神经网络结构,由卡内基梅隆大学和康奈尔大学的研究人员于2016年提出。SHN通过多层级的堆叠半监督网络,在对输入图像进行多尺度特征提取的同时实现了高分辨率的姿态估计。 SHN主要由两部分构成:堆叠的小型Hourglass网络和批量标准化(BN)。Hourglass网络是指由多层卷积层和上采样层、下采样层构成的一个可编程的Block,用于具体化姿态估计的操作。堆叠在一起的小型Hourglass网络在不同的分辨率和空间上进行特征提取,以共同实现最终的分割和姿态估计结果。批量标准化是一种用于规范化网络输入和加速网络收敛的技术。 SHN对于图像分割和人体姿势估计具有较高的准确率和鲁棒性。采用上述网络结构进行人体姿势估计,可优化难度较大的人体部位之间的相互作用和相互影响,使得姿态估计的精度和稳定性得到了显著提高,在肢体遮挡、图像噪声和背景复杂等困难情况下也可以取得良好的表现。 总之,作为一种多层级、半监督的神经网络结构,SHN在图像分割和人体姿势估计中发挥着越来越重要的作用,也为相关领域的研究和应用提供了一个重要的思路和工具。 ### 回答3: Stacked Hourglass Networks是一个先进的计算视觉网络,用于实现人类关键点检测和姿势估计。与其他现有的方法相比,它具有更准确,更可重复和更快速的输出。该模型通过串联8个Hourglass模块构建,Hourglass模块是特殊的卷积神经网络,可以对图像进行多次分辨率下采样和上采样以提高输出精度。这些模块也具有回归和分类头,能够同时预测关键点的位置和姿势。Stacked Hourglass Networks 模型已经在许多场景中取得成功,如动态手势识别、行人关键点检测和3D姿态估计等。 Stacked Hourglass Networks的核心思想基于卷积神经网络和图像金字塔技术。在处理人体关键点检测时,由于人的姿势会因为动态变化和视角变换而导致关键点位置的不稳定性。因此,处理这个任务的模型需要在不同的尺度下检测关键点和姿势。Stacked Hourglass Networks通过多个Hourglass模块的串联,每个模块将输入图像分别经过多次下采样和上采样,产生一系列不同尺度的特征图。这些特征图经过回归和分类头进行训练和预测,最后合成出整个图像输入的关键点和姿势输出。 Stacked Hourglass Networks模型具有许多优点,如精度高,稳健,具有可解释性等。在实际应用中已经取得了很好的效果。未来,Stacked Hourglass Networks模型仍然有很大的研究空间,可以通过各种改进和方法来提高性能,同时可以将其用于更多的视觉任务中。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值