ExtremeNet
文章
本文是继Corner-Net和Grid R-CNN之后第三篇用关键点检测做目标检测的。本文会检测每类物体的4个边缘关键点(最上,最下,最左,最右)以及1个中心点,然后根据边缘点和中心点的对齐关系找到每个物体的bbox。和CornerNet相比,本文的方法找的是物体边缘上的关键点,因此不会存在找bbox corner那种local visual evidence不足的情况。
不管是RCNN系还是YOLO系检测器,他们都是top-down的手段,即就是对可能的图片中的矩形区域进行分类,不过RCNN系会用crop的矩形区域特征,而YOLO为了简洁则使用了anchor。不过这种方法的问题在于,矩形区域并不一定可以很好的表示有的物体,比如下面左图中人手中的网球拍。
一种组合(4个extreme点),属于同一个物体(这样似乎没有考虑中心点重合或者接近的情况?),过程如下图所示。
![](https://img-blog.csdnimg.cn/20190228215252684.png)
本文提出的ExtremeNet这种方法则是bottom-up的,直接在图像中发现物体的关键点,然后group成bbox。具体来说,ExtremeNet接收图片作为输入,会为每一个类别输出4张multi-peak heatmaps,代表4个extreme点,同时每类还会有1张heatmap表示物体的中心点,从这个角度看该方法也是属于one-stage detector。为了将extreme点匹配,文章采用了比较暴力的几何方式(CornerNet中使用的是associative embedding的方式匹配的)。加入每张heatmap有n个点,则遍历n^4种组合,对于每一种组合,如果他们对应的中心点在中心点heatmap上值超过一定阈值,则认为这一种组合(4个extreme点),属于同一个物体(这样似乎没有考虑中心点重合或者接近的情况?),过程如下图所示。
![](https://img-blog.csdnimg.cn/20190228215303835.png)
通过检测4个extreme点来确定物体还有一个好处就是可以通过将这4个点变换为一个八边形,形成物体比较好的一个mask。
To be Continued…