这是ECCV2016,密歇根大学的研究团队做的工作,后续的很多人体姿态估计方法都借鉴了hourglass网络结构,并进行了改进,可以说hourglass的网络结构算是受到了业界的认可。
1. 研究问题
人体姿态估计任务,需要同时利用局部信息和全局信息。
2. 研究方法
提出沙漏模块,捕获和整合多尺度信息(局部和全局上下文),并且堆叠多个沙漏,重复自下而上,自上而下的推理,结合中间监督的使用,预测人体关键点。
单一沙漏模块
整个沙漏结构是对称的,输入先经过"bottom-up"过程(池化降采样和一系列的残差块)做特征提取,后经过“top-down”过程(最近邻插值上采样和加法连接)做特征融合,最后基于融合后的特征图预测骨骼关键点。
Fig3 中的每个块都是残差块,残差块只提取特征,不做图像缩放,缩放只在池化和插值中做,从图中可见,每个残差块都输出256个特征图。
带有中间监督的堆叠沙漏网络
利用单个沙漏网络可以提取多尺度特征,文章使用8个堆叠的沙漏提取更高级的特征,并且在每个沙漏后预测热图进行中间监督,以提高网络的性能。
堆叠沙漏网络
中间监督
上图的蓝色块就是预测的热图,然后利用1*1卷积增加维度,和上一级的沙漏输出和本级的沙漏输出叠加,作为下一个沙漏的输入。
3. 实验结果
4. 结论
(1)沙漏模块可以提取多尺度信息,有利于人体姿态估计。
(2)堆叠的沙漏以及中间监督过程进一步提升网络的预测能力。