文章目录
新的一年,开始了新的征程。为了在检测方向走的更远,精读论文还是少不了的。笔者最近翻看了微软的COCO比赛官网,发现它包含了如下任务,
(1)目标检测(80类);
(2)人体关节点检测(17个点);
(3)Stuff分割(也即semantic分割,指代不规则目标的分割,比如grass、wall、sky、人群等);
(4)全景分割(包含了semantic分割 和 instance分割);
对于Keypoints 2018比赛,冠军队伍为Face++,亚军为MSRA,后者的工作在“Simple Baselines for Human Pose Estimation and Tracking”中有介绍,算法思路比较简单,大家感兴趣可以去读,本文主要讲解第一名的工作。
1 动机
在前面的博文中,笔者提到人体姿态估计的算法分为两种,top-to-down和bottom-to-up,这是从解决问题的顺序角度划分的。与此同时,如果从算法的网络结构方面考虑,可以划分成single-stage和multi-stage的算法。single-stage指经过一次encoder-decoder操作得到最终的关节点位置,比如上文中提到的MSRA的工作,而multi-stage指经过多次encoder-decoder操作得到最终的关节点位置,比如Hourglass network。
对分类任务而言,更深的网络往往比浅层网络效果更好,但是在COCO keypoints 2016、2017比赛中,冠军算法是single-stage的,为什么会这样呢?
针对multi-stage算法效果不好的问题,作者提出了3点可优化的方向,汇总如下&#x