这篇文章不是介绍怎么设计网络去提高多人姿态检测在数据集上的mAP值,而是去找出姿态估计算法为啥得分这么低的原因,更直白的讲就是,这个模型效果不好,这个效果不好具体是哪些地方效果不好,文章探究的是这个更底层的原因,而不是简单粗暴的堆trick提高mAP。文章是2017年发表的,当时比较出名的两个多人人体姿态估计网络是Google的GRMI和CMU的OpenPose,文章就是根据这两个模型来查找原因。
首先先介绍下当前计算人体关键点mAP值的方法:OKS,具体信息可以参考这个链接。对于person p p p上的两个点的oks值在[0~1]之间,记作 k s ( θ ^ i ( p ) , θ j p ) ks(\hat{\theta}^{(p)}_{i}, \theta^{p}_{j}) ks(θ^i(p),θjp)。文章提出了三个会造成误差的原因:Localization, scoring, background
Localization
分成4类,如图所示:
- Jitter, 0.5 < = k s ( θ ^ i ( p ) , θ i p ) < = 0.85 0.5<=ks(\hat{\theta}^{(p)}_{i}, \theta^{p}_{i})<=0.85