前言:这是ECCV2018的文章,也是MPII目前的top 结果。这篇文章,用了很多“中继监督",本文的主要思想是结合“多尺度信息”,把这个体现到loss中,并且对多尺度信息进行结合,利用这一点来提升feature 效果。同时也引入了人体的结构信息,不像以前都是单个keypoint的heatmap 单独预测,本文还预测一种关联heatmap。还提出了一种keypoint的mask training来应对遮挡!
主要工作意义:
这篇文章的主要工作内容,在我看来是去探讨 如何提升“深度神经卷积网络” 对于困难情况下的姿态估计!比如遮挡!以及尺度变换带来的影响!因为尺度变换会导致部分关键在 ”低分辨率的feature map“ 上消失?
本文认为,目前的state-of-the-art 的DNN-based 方法存在以下一些问题:
1、尺度不稳定:不是很明白这里为什么要说SSD,SSD框了之后难道不是在原图上截取嘛? 作者也说了,在deconv的金字塔种,网络会去对于某一个特定尺寸过拟合?也没看懂是为啥?
2、前人的工作没用上“pose的结构信息”(这个的话只能是指利用CNN的这些前人工作):解决这个问题,可以有效的让模型在真实多人情况下,遮挡情况下等多种复杂情况下有着更好的泛化能力。occlusions and matching ambiguities are the bottlenecks
整体的结构:
这张图是整个网络的整体结构,看起来也不算复杂,只是东西有点多,给了很多定义!整个网络依然是基于Hourglass 改造而成的。
MSS-Net(multi-scale supervision network):其实长相上和Hourglass几乎一模一样,但是加入了Multi-Scale Supervision,也就是在Hourglass本身的deconv过程中浅层deconv也进行监督。从浅层的deconv features 到 heatmap 中间是否加入了headconv层,没有特别说明!但是从这个结构看,应该是非常消耗显存的!!!主要是起到一个优化scale带来的不利因素!多尺度的特征学习可以更好的捕捉身体关键点的局部上下文特征!当然deconv-pyramid也是一个“coarse-to-fine”的过程,加上了loss监督,其实和“attention mechanism”这种机制有相似之处,让网络在训练过程中,利用loss来保持某些local的关注去着重优化那部分。
MSR-Net(multi-scale regression network):这里就是把最后一个MSS-Net的deconv pyramid的结果以及输出结合concat之后再去regression到最终结果。MSR-Net利用的是MSS-Net的输出,结合了不同scale的信息,更好的去还原,以及定位更加准确!
structure-aware loss:
前一部分表示普通的keypoint heatmap作为groundtruth,后一部分表示Structure-Aware heatmap作为groundtruth,可以上上图中看到这个groundtruth的设定!
Keypoint Masking Training:
这里也是采用了数据增广的思想,但是普通的数据增广没有办法有效的去针对“遮挡”这种情况来增强网络的泛化能力与预测能力。通过去生成关键点被遮挡的情况的数据,人工去遮挡某些关键点,另一种是把关键点patch,拷贝到图中其他区域,来制造常见的一种情况“多关键点match成人”!
剩下的就是常规的数据增广方法,