【论文解读】Stacked Hourglass Networks

题目:Stacked Hourglass Networks forHuman Pose Estimation

作者背景:

ECCV 2016录用

作者来自密歇根大学

 

一、中心思想

- 提出一种新的卷积网络结构,称为堆叠式沙漏网络,用于人体姿态估计

- 融合各个尺度提取特征,重复自顶向下、自底向上的架构

- 几个关键技术:残差模块Hourglass Module中间监督

二、模型结构

对于模型的架构,我们逐级拆解来理解:

- 从最小的单元残差模块开始理解

- 残差模块组合成为Hourglass Module

Hourglass Module堆叠起来,前后增加一些简单的层,即构成了网络整体架构

接下来进行详细解释

2.1 残差模块

previewpreview

 

残差块结构如图所示,详细的数据过程是下面的图片:

- 主体路径是是3个卷积层,卷积核分别为:1*1、3*3和1*1;

- skip路径是一个卷积核为1*1的卷积层

preview

2.2 Hourglass Module

Hourglass Module由上面的Residual Module组成,由于它是一个递归的结构,所以可以定义一个阶数来表示递归的层数,首先来看一下一阶的Hourglass Module

preview

上图中的Max pool代表下采样,Res代表上面介绍的Residual Module,Up Sample代表上采样,这里使用的上采样方法是最近邻差值

多阶的Hourglass Module就是将上图虚线框中的块递归地替换为一阶Hourglass Module,由于作者在实验中使用的是4阶的Hourglass Moudle,所以我们画出了4阶的Hourglass Module的示意图:

preview
对应的原文中的一个HourglassMoudle的架构如Fig3所示,其中每个box都代表一个残差模块

preview

 

 

2.4 整体架构

先看一下整体架构的概况,如下图所示

preview

- 网络输入的图片分辨率为256×256,然后经过一个7*7,步长为2的卷积层,之后再经过一个残差块和Maxpooling层使得分辨率降低到64,这一步骤的目的主要是降低显存

- 然后将尺寸为64*64的特征图输入到8个堆叠起来的(4阶Hourglass Module+Res+conv+relu+conv)中,特征输出尺寸保持不变

- 最后一个Hourglass Module的输出不再进行合并,直接输出heatmap

数据流图如下所示

preview

上面的整体网络架构图中,红色的模块为中间监督的过程,输出为16通道,针对MPII数据集,因为该数据集有16个关节点,因此输出为16通道

下面,具体介绍一下网络的中间监督过程

2.5 中间监督

- 作者在整个架构中堆叠了8个hourglass模块,提到其关键是要使用中间监督来对每一个hourglass模块进行预测,即计算每个hourglass模块输出的heatmap的损失

- 中间监督的位置图下图中蓝色部分所示,选取该位置的原因是:监督的特征,需要同时包含高级别和低级别、全局和局部特征,因此选在每个hourglass模块的输出位置

preview

作者对每个hourglass的输出的heatmap计算loss,每个loss给予不同的权重,并加和成为模型学习的总loss,进行反向传播学

三、其他

3.1 损失函数

损失函数采用Mean Squared Error(MSE)来比较预测的heatmap与ground-truth的heatmap(在关键点中心周围使用标准差为1的2D高斯分布)

参考文献:

【1】Newell A , Yang K , Deng J . Stacked Hourglass Networks for Human Pose Estimation[J]. arXiv e-prints, 2016.

【2】https://cloud.videojj.com/bbs/topic/40/%E8%AE%BA%E6%96%87%E7%AC%94%E8%AE%B0-%E4%BA%BA%E4%BD%93%E5%A7%BF%E6%80%81%E4%BC%B0%E8%AE%A1-eccv-2016-stacked-hourglass-networks-for-human-pose-estimation

【3】https://zhuanlan.zhihu.com/p/45002720

### 回答1: 堆叠沙漏网络(Stacked Hourglass Networks)是一种用于人体姿态估计的深度学习模型。它由多个沙漏模块(Hourglass Module)堆叠而成,每个沙漏模块都包含了卷积神经网络和池化层,用于提取特征。堆叠沙漏网络的优点是可以对不同尺度的特征进行处理,从而提高了姿态估计的准确性。 ### 回答2: Stacked Hourglass Networks (SHN)是一种用于图像分割和人体姿势估计的神经网络结构,由卡内基梅隆大学和康奈尔大学的研究人员于2016年提出。SHN通过多层级的堆叠半监督网络,在对输入图像进行多尺度特征提取的同时实现了高分辨率的姿态估计。 SHN主要由两部分构成:堆叠的小型Hourglass网络和批量标准化(BN)。Hourglass网络是指由多层卷积层和上采样层、下采样层构成的一个可编程的Block,用于具体化姿态估计的操作。堆叠在一起的小型Hourglass网络在不同的分辨率和空间上进行特征提取,以共同实现最终的分割和姿态估计结果。批量标准化是一种用于规范化网络输入和加速网络收敛的技术。 SHN对于图像分割和人体姿势估计具有较高的准确率和鲁棒性。采用上述网络结构进行人体姿势估计,可优化难度较大的人体部位之间的相互作用和相互影响,使得姿态估计的精度和稳定性得到了显著提高,在肢体遮挡、图像噪声和背景复杂等困难情况下也可以取得良好的表现。 总之,作为一种多层级、半监督的神经网络结构,SHN在图像分割和人体姿势估计中发挥着越来越重要的作用,也为相关领域的研究和应用提供了一个重要的思路和工具。 ### 回答3: Stacked Hourglass Networks是一个先进的计算视觉网络,用于实现人类关键点检测和姿势估计。与其他现有的方法相比,它具有更准确,更可重复和更快速的输出。该模型通过串联8个Hourglass模块构建,Hourglass模块是特殊的卷积神经网络,可以对图像进行多次分辨率下采样和上采样以提高输出精度。这些模块也具有回归和分类头,能够同时预测关键点的位置和姿势。Stacked Hourglass Networks 模型已经在许多场景中取得成功,如动态手势识别、行人关键点检测和3D姿态估计等。 Stacked Hourglass Networks的核心思想基于卷积神经网络和图像金字塔技术。在处理人体关键点检测时,由于人的姿势会因为动态变化和视角变换而导致关键点位置的不稳定性。因此,处理这个任务的模型需要在不同的尺度下检测关键点和姿势。Stacked Hourglass Networks通过多个Hourglass模块的串联,每个模块将输入图像分别经过多次下采样和上采样,产生一系列不同尺度的特征图。这些特征图经过回归和分类头进行训练和预测,最后合成出整个图像输入的关键点和姿势输出。 Stacked Hourglass Networks模型具有许多优点,如精度高,稳健,具有可解释性等。在实际应用中已经取得了很好的效果。未来,Stacked Hourglass Networks模型仍然有很大的研究空间,可以通过各种改进和方法来提高性能,同时可以将其用于更多的视觉任务中。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值