姿态估计中位置十分显眼的巨作:Openpose
Abstract
重点查看论文,需要看下它的abstract,本文提出了一个2D的单张图片的多人姿态估计,(现在都出3D的姿态估计了),后面主要采用了PAF的方法以及组合数学中的K分图匹配方法,很优雅的解决了CPM中的多人肢干连接的问题。本文提出的网络结构,首先对全图进行了一个encode,在达到实时性要求的情况下,同时保持了很高的accuracy。本文使用的是联合的多branch分支,一个分支负责关键点的检测,以及关键点的连接成骨架,再通过二分图匹配的匈牙利算法,这样的bottom-up的结构。在2016的coco keypoints的比赛取得了第一名,且在MPII这样的数据集中达到了sota(后续就是hrnet,以及kaiming最近的moco的无监督方法也刷到了sota,实在跟不上了。)
Introduction
在文章中,提出了pose estimation的以下挑战。
(1). 图像中的人数位置,他们可能出现在任何位置,且大小不一。
(2). 在相互接触,以及遮挡等不好的情况都会对关键点的检测造成困难,同时随着人数的数量增加,运行时间的复杂度,也会上升,使得实时的表示成为一个挑战。这种方法,主要采用的是检测+singel person eatimation。但是这种方法十分依赖检测的准确率,如果检测凉了,那么后面的key point还找啥呀。
(3). 如果检测极其叼,但是有30个人,那么需要进行30重复的单人人体姿态估计,这样使这个方法在复杂场景下就会变得十分缓慢。
Method
本文,主要针对的还是bottom-up的方式,采用PAF(Part Affinity Fieilds)(咋翻译?部件亲和场?),来进行自下而上的人体姿态估计。首先借鉴的CPM的方法,检测出人关键点的位置,比如图片上人体右肩膀的位置,得到检测结果是通过预测人体关键点的heatmap,这样就可以看到每个人体关键点上都有一个高斯的峰值,代表网络预测出这里是一个人体的关键点,同样对其他所有人的关键点进行同样的结果,得到这个检测结果,在得到检测结果之后,对关键点加测结果进行连接。在进行连接的时候,主要采用的就是PAF(后续进行说明,一堆数学问题)。
所以整个过程如下所示: