Learning Feature Pyramids for Human Pose Estimation
在 Inference 时,Pyramids 类方法被广泛用于处理 scale 变化.
- 提出 Pyramid Residual Module(PRMs) —— 金字塔残差模块,来增强 DCNNs 的尺度不变性(invariance in scales);
- Hourglass 网络,conv-deconv 结构;
- 提出新的权重初始化方法,对 multi-branch 网络权重进行初始化.
目标:
增强 DCNNs 对于尺度变化的鲁棒性;
方法:
PRMs,学习卷积 filter,建立特征金字塔;
给定输入 features,PRMs 采用 multi-branch 网络基于不同采样率进行下采样,以获得不同尺度的特征;
然后,对不同尺度的特征学习卷积 filters;
再对 filtered 特征 下采样到相同分辨率,并相加不同尺度特征.
1. Stacked Hourglass Network
Hourglass 网络以 feed-forward 方式学习每个 scale 的信息.
首先,对 feature maps 下采样,bottom-up 处理;
然后,对 feature maps 上采样, top-down 处理;并结合 bottom layers 的更高分辨率特征;如 Figure 2(b).
重复多次 bottom-up 和 top-down,构建 stacked hourglass 网络,在每个 stack 的末尾添加中间监督.
Figure 1. single “hourglass” 模块例示. 每一个 box 对应一个 residual 模块.
Residual Unit:
采用 residual unit 来构建 hourglass 网络 block. 但其只能捕捉一个尺度的视觉特征和语义.
Stacked Hourglass Network 训练的中间监督处理:
Figure 1.1 中间监督处理. 网络输出 heatmaps(蓝色框) ,其后添加训练 loss. 采用 1×1 1 × 1 卷积将 heatmaps 来匹配 intermediate 特征的 channels 数.
2 Pyramid Residual Modules(PRMs)
Figure 2. 框架. (a) 网络结构,有 n n 个 stacks hourglass 网络. (b) 每个 hourglass stack 的细节. 每个 hourglass 的末尾产生 joint 位置的 scoremaps,并使用 squared-error loss.
PRM 学习输入 features 的不同分辨率的 filters.
记 和 W(l) W ( l ) 分别为输入和第 l l 层的 filter.
PRM 表示为:
其中, P(x(l);W(l)) P ( x ( l ) ; W ( l ) ) 为 feature pyramids,特征金字塔,其形式为:
P(x(l);W(l))=g(∑Cc=1fc(