微软亚洲研究院新出的一篇很有意思的文章,从另外一个角度统一了object detection、instance segmentation、pose estimation。对于object detection和pose estimation任务而言,之前有过像CenterNet、SPM等通过检测中心点回归的方法来统一这两个方向的任务,但作者认为这样做有一些问题:
- 仅仅使用中心点做回归能够利用的特征信息太少。像CenterNet,通过中心点回归object的中心点和宽高,如果是人的话,还可以回归N个关键点,这个问题在于通过中心点来回归的一些位置,可能会非常远离center点,那么center点能够利用的有效信息就会比较少甚至没有(个人认为这个解释不是很能站得住脚,因为cnn都有感受野,一般走到最后一层的时候感受野其实很大了,一般都是能conver掉原始的回归范围)。
- 之前的方法只关注于解决object detection和pose estimation这两个任务,而没有去做过instance segmentation相关的任务
所以针对以上问题,本文提出了一种叫做Point-Set Anchors的方法,使用一种思路来解决三个方向的任务。
Point-Set Anchors
先说Point-Set。Point-Set是一系列点的集合用来表示具体的object。针对不同的任务,它有不同的表达方式,如下图所示:
Detection/Segmentat