2020/7/21
Hey,这篇论文主要从以下三个方面对多人姿态估计进行了创新:
1、数据预处理(坐标点变换和ground truth heatmap生成)过程中的中心点对齐问题。
2、使用多尺度监督引导网络生成热度图(论文中将此视为空间注意力机制)
3、用于keypoint和body part heatmap监督的损失函数:focal L2 loss
当然多尺度监督技术不是这篇论文的首创,但是具体使用方法上与先前的工作不同。生成Hourglass Network整个结构中所有分辨率的ground truth heatmap,作者认为这样会辅助引导生成高质量高分辨率的热图,并且增加网络对人体姿态的尺度变化的鲁棒性(尤其是使用输入图像金字塔放大时,网络内部其实在低分辨率下做了多次前向推理,获得了粗略的位置信息编码热图)。
要求在低分辨率下生成精确热度图是比较苛刻的,先前的工作都是重新生成在其他分辨率下的精确热图,这其实就是特征金字塔的方式。而本文选择生成平均池化后的热度图放置到网络输出的不同分辨率特征空间下做直接监督,以此把它们当作是空间上的注意力机制。试验发现这种操作将减少网络多尺度监督学习的难度,在低分辨率特征空间下只预测关键点响应的大致区域,比如4*4大小的输出特征空间中仅仅有1个cell会有高响应值。本文使用自适应平均池化后的“热度图”作为关键点定位信息的引导,是一种显式且粗糙的引导。原始的Hourglass Network仅仅做了多尺度的特征融合。论文中显示加入这种引导机制后,带来了1+%AP的精度提升。
论文中multi-scale ground truth heatmap的生成描述如下:
生成的某个通道的body part heatmap在各个尺度的标签
和Rethinking章节中提到的生成heat map时的不平衡问题类似,我们也应该对所引入的不同分辨率特征的监督损失做好平衡,否则容易出现训练失败(主要是梯度爆炸或者某个分辨率下学习不良)的情况。本文对不同尺度下的损失进行加权的依据是根据输出特征图的面积进行数值上的超参数调节。论文中所有使用多尺度监督的实验结果都用如下的参数配置:
老规矩还是给大家介绍一下租用GPU做实验的方法,我们是在智星云租用的GPU,使用体验很好。具体大家可以参考:智星云官网: http://www.ai-galaxy.cn/,淘宝店:https://shop36573300.taobao.com/公众号: 智星AI,
PEACE
参考文献:
https://zhuanlan.zhihu.com/p/109118177
https://github.com/hellojialee/Improved-Body-Parts
https://arxiv.org/abs/1911.10529