姿态检测整理--01-Stacked Hourglass Networks for Human Pose Estimation

Stacked Hourglass Networks for Human Pose Estimation(发表于2016年)

基本上是目前姿态研究的基础网络,具有bottom-up和top-down二者特性。bottom-up是先得到肢体再归并到不同个体。


姿态检测的history:

人们开始从传统方法[2-9]转而研究深度神经网络在这方面的应用,是Toshev[24]成功应用神经网络估计人类姿态,他使用的方法是回归关节点坐标(x,y)。Tompson[15]将热点图headtmap替代了回归的方法,同时使用不同尺度分辨率逐渐获取特征。然后又到了Newell的stacked Hourglass,也是组合不同分辨率所得特征,也就是这篇文章喽。

Hourglass和它之前的网络不同点说明:

Tompson的方法是使用CNN和图形模式,图形模式用来获取关节点间的关系(继续深挖/探究关节点间的联系的方法这也是很多人研究的方向[20,25,17]),比如,chen[25]使用聚类的方法。CNN和图像模式组合的方法是2015年的相关研究的经典基调。当然也有不同的方法,比如有:迭代的方法[19],图片先作为输入,然后将预测结果作为输入来微调网络。Wei[18]使用多个阶段的提取结果。
在微调时,,Tompson等的研究使用短视频cascade(这儿的cascade翻译是错误的,读过相关论文,这是级联学习方法,是使用多阶段训练的方法提升精确度)的方式,Newell发现cascade帮助不大,错误更多是由于肢体被挡住或者识别错误,所以继续在当前尺度下进行调整不能提高预测结果。

对Hourglass的细节说明:

对于单一的hourglass结构

Hourglass和fully convolutinal networks[23]以及其他网络[15,30,31,32,33,34,35,36,37,38]相似(在不同尺度下识别姿态,截至到目前2017年,较多用到的是Hourglass,FCN,ResNet),但是结构特殊:同时包含了bottom-up(from high resolutions to low resolutions)和top-down (from low resolutions to high resolutions)。而且,整个网络有多个bottom-up和top-down过程。这样设计的目的是在各个尺度下抓取信息。[关于典型网络结构,xie[30]做了一个总结。全卷积网络和整体嵌入网络结构倾向与使用bottom-up,不太重视top-down。]

堆叠Hourglass结构之后:

Hourglass处理top-down过程时,不用unpooling或deconv层,而是使用最近邻的上采样以及使用跳跃连接方式skip connection(ResNet 结构)。
有人为了得到多尺度下的特征,使用了多条分支[15,18],Hourglass使用单处理流程线,但能达到多尺度获取特征的效果。最后,将不同分辨率下的特征联系起来,使用了Tompson的方法—对低分辨率做最近邻上采样从而得到特征的元素,最后得到的是热度图。

网络设计:

Hourglass使用了残差网络,并且使用了googlenet中的分解大fliter的方法。
这里写图片描述
Hourglass还会叠加这个结构,可以在多尺度下发现特征。第一层结构可以发现局部和整体的特征,将这些特征送入第二层结构之后,高层次特征会得到更高层次特征,高层次特征在地分辨率图像中出现。单层Hourglass可能会不能发现一些尺度下特征与其他尺度下的关系,所以要用两层这个结构。最后,loss是两个结构用同一套ground truth进行计算。

训练:

数据预处理:

用到了FLIC和MPII数据集。FLIC是电影截图,给出上半身标注。MPII是生活照片,是多人图片。
因为没有预先输入人体检测的模型,训练时需要将人放到图片中间,以决定target person。FLIC是根据标注将人放到图片中间。MPII是根据target person裁剪得到256×256的图片,对于centering之后仍不清楚是否合适,需要做数据增强(需要指出,Hourglass 是处理单人姿态检测)。


这个方法的简单理解,可以参考到网络的可视化,不过从准确性和信息丰富角度,比可视化多一个ResNet结构,而且是专用的一段网络。

  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 堆叠沙漏网络(Stacked Hourglass Networks)是一种用于人体姿态估计的深度学习模型。它由多个沙漏模块(Hourglass Module)堆叠而成,每个沙漏模块都包含了卷积神经网络和池化层,用于提取特征。堆叠沙漏网络的优点是可以对不同尺度的特征进行处理,从而提高了姿态估计的准确性。 ### 回答2: Stacked Hourglass Networks (SHN)是一种用于图像分割和人体姿势估计的神经网络结构,由卡内基梅隆大学和康奈尔大学的研究人员于2016年提出。SHN通过多层级的堆叠半监督网络,在对输入图像进行多尺度特征提取的同时实现了高分辨率的姿态估计。 SHN主要由两部分构成:堆叠的小型Hourglass网络和批量标准化(BN)。Hourglass网络是指由多层卷积层和上采样层、下采样层构成的一个可编程的Block,用于具体化姿态估计的操作。堆叠在一起的小型Hourglass网络在不同的分辨率和空间上进行特征提取,以共同实现最终的分割和姿态估计结果。批量标准化是一种用于规范化网络输入和加速网络收敛的技术。 SHN对于图像分割和人体姿势估计具有较高的准确率和鲁棒性。采用上述网络结构进行人体姿势估计,可优化难度较大的人体部位之间的相互作用和相互影响,使得姿态估计的精度和稳定性得到了显著提高,在肢体遮挡、图像噪声和背景复杂等困难情况下也可以取得良好的表现。 总之,作为一种多层级、半监督的神经网络结构,SHN在图像分割和人体姿势估计中发挥着越来越重要的作用,也为相关领域的研究和应用提供了一个重要的思路和工具。 ### 回答3: Stacked Hourglass Networks是一个先进的计算视觉网络,用于实现人类关键点检测和姿势估计。与其他现有的方法相比,它具有更准确,更可重复和更快速的输出。该模型通过串联8个Hourglass模块构建,Hourglass模块是特殊的卷积神经网络,可以对图像进行多次分辨率下采样和上采样以提高输出精度。这些模块也具有回归和分类头,能够同时预测关键点的位置和姿势。Stacked Hourglass Networks 模型已经在许多场景中取得成功,如动态手势识别、行人关键点检测和3D姿态估计等。 Stacked Hourglass Networks的核心思想基于卷积神经网络和图像金字塔技术。在处理人体关键点检测时,由于人的姿势会因为动态变化和视角变换而导致关键点位置的不稳定性。因此,处理这个任务的模型需要在不同的尺度下检测关键点和姿势。Stacked Hourglass Networks通过多个Hourglass模块的串联,每个模块将输入图像分别经过多次下采样和上采样,产生一系列不同尺度的特征图。这些特征图经过回归和分类头进行训练和预测,最后合成出整个图像输入的关键点和姿势输出。 Stacked Hourglass Networks模型具有许多优点,如精度高,稳健,具有可解释性等。在实际应用中已经取得了很好的效果。未来,Stacked Hourglass Networks模型仍然有很大的研究空间,可以通过各种改进和方法来提高性能,同时可以将其用于更多的视觉任务中。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值