目前,姿态估计有两个主流的方法,自顶向下,先检测出数据中的人体检测框,再根据每个检测框识别人的姿态。与之对应的是自低向上的方法,即先检测数据中所有的骨骼点,再通过拼接得到多人的骨架。两种方法各有缺点,其中自顶向上的方法,姿态检测准确度非常依赖目标检测框的质量。而自低向上的方法,如果两人离得非常近,容易出现模棱两可的情况,而且由于是依赖两个骨骼点之间的关系,所以失去了对全局的信息获取。
Alphapose是多人姿态识别框架,属于自顶向下的方法,其主要解决两个问题,(1) 检测框不准,如图1所示;(2) 检测框重叠问题,如图2所示。
其中,红色框为真实框,其经过SPPE(Single Person Pose Estimation)后可以检测到骨骼点,黄色框为预测框,且其与真实框的IOU大于阈值(0.5),为预测正确的检测框,但是其经过SPPE后并没有检测到骨骼点。且从图中可以看到,预测正确的框检测不到骨骼点主要有两个方面,(1) 该框所在区域并没有完全包括人体;(2) 该框中人体不是处于中心位置。