论文阅读理解 - Learning Feature Pyramids for Human Pose Estimation

最新推荐文章于 2024-05-30 09:59:33 发布

AIHGF

最新推荐文章于 2024-05-30 09:59:33 发布

阅读量4.4k

点赞数 2

分类专栏： Torch 论文阅读姿态估计文章标签：人体姿态估计论文阅读 Torch

本文链接：https://blog.csdn.net/zziahgf/article/details/78818219

版权

本文探讨了如何使用Pyramid Residual Modules（PRMs）增强深度卷积网络（DCNNs）对尺度变化的鲁棒性，特别在人体姿态估计任务中。PRMs通过多分支网络学习不同尺度的特征，用以构建特征金字塔。Stacked Hourglass Network在每个尺度上捕获信息，而PRMs则进一步提升了尺度不变性。论文中还提出了新的权重初始化方法和训练策略，如输出方差的累积问题解决方案，以及在实验中展示了PRMs在不同网络结构中的应用。

摘要由CSDN通过智能技术生成

Learning Feature Pyramids for Human Pose Estimation

[Paper]

[Code-Torch]

在 Inference 时，Pyramids 类方法被广泛用于处理 scale 变化.

提出 Pyramid Residual Module(PRMs) —— 金字塔残差模块，来增强 DCNNs 的尺度不变性(invariance in scales)；

Hourglass 网络，conv-deconv 结构；

提出新的权重初始化方法，对 multi-branch 网络权重进行初始化.

目标：

增强 DCNNs 对于尺度变化的鲁棒性；
方法：

PRMs，学习卷积 filter，建立特征金字塔；

给定输入 features，PRMs 采用 multi-branch 网络基于不同采样率进行下采样，以获得不同尺度的特征；

然后，对不同尺度的特征学习卷积 filters；

再对 filtered 特征下采样到相同分辨率，并相加不同尺度特征.

1. Stacked Hourglass Network

Hourglass 网络以 feed-forward 方式学习每个 scale 的信息.

首先，对 feature maps 下采样，bottom-up 处理；

然后，对 feature maps 上采样， top-down 处理；并结合 bottom layers 的更高分辨率特征；如 Figure 2(b).

重复多次 bottom-up 和 top-down，构建 stacked hourglass 网络，在每个 stack 的末尾添加中间监督.
这里写图片描述
Figure 1. single “hourglass” 模块例示. 每一个 box 对应一个 residual 模块.

Residual Unit:
这里写图片描述

采用 residual unit 来构建 hourglass 网络 block. 但其只能捕捉一个尺度的视觉特征和语义.

Stacked Hourglass Network 训练的中间监督处理：
这里写图片描述
Figure 1.1 中间监督处理. 网络输出 heatmaps(蓝色框) ，其后添加训练 loss. 采用 $1×1$ 卷积将 heatmaps 来匹配 intermediate 特征的 channels 数.

2 Pyramid Residual Modules(PRMs)

这里写图片描述
Figure 2. 框架. (a) 网络结构，有 $n$ 个 stacks hourglass 网络. (b) 每个 hourglass stack 的细节. 每个 hourglass 的末尾产生 joint 位置的 scoremaps，并使用 squared-error loss.