hourglass网络详解+pytorch代码

最新推荐文章于 2024-09-23 08:42:00 发布

小伟db

最新推荐文章于 2024-09-23 08:42:00 发布

阅读量5.9k

点赞数 2

原文链接：https://www.cnblogs.com/darkknightzh/p/11486185.html

版权

本文介绍了一种用于人体姿态估计的深度学习模型StackedHourglass，该模型通过堆叠沙漏网络实现多尺度特征识别，每个沙漏网络内部采用残差模块，通过中间监督提高训练效果。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

第三方pytorch代码（位于models/StackedHourGlass.py）：

https://github.com/Naman-ntc/Pytorch-Human-Pose-Estimation

1. 简介

该论文利用多尺度特征来识别姿态，如下图所示，每个子网络称为hourglass Network，是一个沙漏型的结构，多个这种结构堆叠起来，称作stacked hourglass。堆叠的方式，方便每个模块在整个图像上重新估计姿态和特征。如下图所示，输入图像通过全卷积网络fcn后，得到特征，而后通过多个堆叠的hourglass，得到最终的热图。

Hourglass如下图所示。其中每个方块均为下下图的残差模块。

Hourglass采用了中间监督（Intermediate Supervision）。每个hourglass均会有热图（蓝色）。训练阶段，将这些热图和真实热图计算损失MSE，并求和，得到损失；推断阶段，使用的是最后一个hourglass的热图。

2. stacked hourglass

堆叠hourglass结构如下图所示（nChannels=256,nStack=2,nModules=2,numReductions=4, nJoints=17）：

3. hourglass

hourglass在numReductions>1时，递归调用自己，结构如下：

4. 上采样myUpsample

其中x为(N)(C)(H)(W)的矩阵，x[:, :, :, None, :, None]为(N)(C)(H)(1)(W)(1)的矩阵，expand之后变成(N)(C)(H)(2)(W)(2)的矩阵，最终reshape之后变成(N)(C)(2H) (2W)的矩阵，实现了将1个像素水平和垂直方向各扩充2倍，变成4个像素（4个像素值相同），完成了上采样。

5. 残差模块

残差模块结构如下：

6. conv

7. ConvBlock

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。