Consistent Optimization for Single-Shot Object Detection - 你的anchor用对了吗？

最新推荐文章于 2024-04-20 09:44:07 发布

春枫琰玉

最新推荐文章于 2024-04-20 09:44:07 发布

阅读量2.4k

点赞数 2

分类专栏：深度学习-目标检测

本文链接：https://blog.csdn.net/Chunfengyanyulove/article/details/86708549

版权

论文名称:Consistent Optimization for Single-Shot Object Detection

作者：Tao Kong & fuchun Sun & Huaping Liu & Yuning Jiang & Jianbo Shi

论文链接：https://arxiv.org/abs/1901.06563

作者解读：https://zhuanlan.zhihu.com/p/55416312

先上一张图，下图为论文中提供的RetinaNet加入了Consistent Optimization之后的效果，在COCO数据集上，AP平均提高1个百分点，很稳，也说明了本文方法的有效性，下面一起来学习一下这篇文章吧。

简要概述文章精华

本篇论文中，作者提出在one stage目标检测中影响网络精度的一个原因在于优化的目标与inference设置的不一致性（misalignment between the optimization target and inference configurations），解释来说就是，现在流行的目标检测方法，一般会有两个分支，一个分类，一个坐标框回归，而这两个分支往往是独立的，都是对原始anchor进行处理，这就会带来一个问题，我们在进行分类的时候，使用的是原始的anchor，而在坐标框回归后，很可能回归后的anchor与原始anchor已经产生了不同，这样使用原始anchor的分类结果作为回归后的anchor的分类得分就不准确了，本篇论文就是围绕着解决这个问题来进行的。乍一看本篇文章，感觉与Cascade RCNN有点像，采用的方法同样是对网络输出的结果进行refine，来达到提升网络精度的效果，但是其出发点是不同的，Cascade R-CNN的出发点是解决IOU阈值的设置带来的噪声问题，而consistent optimization的出发点是解决分类anchor与回归后的anchor不一致的问题。并且consistent optimization方法只是修改了RetinaNet网络的loss，改动不大，整体上时间消耗也没有增加，原则上说，其也不算是cascade方法，只是思想相近而已，但是本方法的实用性还是很强的。

文章详细解析

首先，为了证明存在上面提到的不一致性的问题，作者进行了实验分析，分析结果如下图Figure 3,可以发现，Input IOU在[0.3,0.5]之间的anchor,经过回归之后，已经变到[0.5,0.85]，而在网络训练的时候，IOU在0.4以下是被当做负样本的，显然，强行将anchor的分类得分代表坐标回归后的anchor的得分是有问题的。

另外论文中，作者指出，当两个目标交叉在一起的时候，回归器容易产生疑惑。如下图Figure2所示，红框和黄框对应的类别都是bicycle，但是由于人与自行车交叠在一起，黄框在进行回归的时候，容易误回归到人，但如果它的分类标签还是自行车的话，就可能出现问题，如Figure2(b)所示，结果黄框的score比红框还高，这就容易导致红框在NMS的时候被干掉了，影响了目标检测的精度。

另外作者同时分析了在RetinaNet上面对于不同的IOU的output，输出的平均的score及其方差，以及输出的output IOU的均值及其方差，实验结果如下图Figure 5所示，根据实验结果可以发现output的IOU与output score是呈正相关的，但是图（b）显示，随着Output IOU