昨天在arxiv上发现的一篇非常有意思的论文,特来记录一下,惯例发链接
自己实现的github
为什么文章叫Single-Stage,首先,针对多人pose这方面,主流的方法分为两类:
- Top-Down solution。先用一个detector检测出来图像上的所有行人,然后针对每一个检测的出来的human box,做单人pose预测,总共需要2步
- Bottom-Up solution。先用一个cnn检测出来图像上所有人的所有关键点,再通过一个聚类算法(或者其它方法)对这些点进行区分,将同一个人的点划分到一起,最后得到所有人的关键点,总共需要2步
以上的方法都是需要经过两个步骤才可以得到最终的multi-person pose,那么有没有一种方法可以一步到位?这就是论文提出的方法,一步到位,一次就可以得到多个人的pose点,所以叫做Single-Stage,具体看下图:
思路和之前anchor-free的Objects as Points很像,具体如