&Title:
&Summary
基于关键点的目标检测方法,如:CornerNet,常常出现很多边界框不正确,原因在于缺少对裁剪框中内容做进一步校验。本文找到一种基于最小代价情况下探究各个裁剪框内视觉模式的方法。基于此前one-stage的CornerNet做的改进(baseline:CornerNet),我们方法叫做CenterNet,将每个检测目标看做是三点(triplet),而不是仅有一对关键点构成,此举改善了精度和召回率。
相应地,本文还设计了两个自定义模块,分别叫做cascade corner pooling(级联角点池化) 和 center pooling(中心点池化),各自的作用是丰富了利用左上和右下角收集的信息,提供更多中心区域的识别信息;
在MS-COCO数据集上,本方法获得AP 47.0%,比现有one-stage方法高4.9%至少,且速度更快,此外与two-stage方法性能也有可比性。
&Research Objective
抑制CornerNet目标检测方法中,检测目标出现的误检问题。
解决了CornerNet缺乏对区域的额外关注的问题,即通过在每个建议区域内以最小的成本探索视觉模式
&Problem Statement
目前的检测算法主要思路还是设置大量Anchor+分配正负样本+训练的一个思路,Anchor的本质是目标的候选框,因为目标的形状和位置的多种可能性,Anchor的数量往往非常庞大,否则会出现遗漏的情况,这种情况对于one-stage的检测算法更加突出。因此会带来两个问题:
- 大量的Anchor中只有少部分和gt的重合比较大,可以作为正样本训练,其它都是负样本,换而言之,正负样本均衡问题,这几乎是所有检测算法都要考虑的问题,不同算法往往也会有不同的策略。
- Anchor的设置本身也是需要超参数的(形状、个数怎么设置),在multi-scale的时候会更加明显,YOLOv2曾经用5个anchor达到了faster rcnn中9个anchor的效果,说明这方面确实也是有很多可以做的地方。
为了克服如上问题,提出了基于关键点的目标检测方法——CornerNet;