论文:An Analysis of Scale Invariance in Object Detection – SNIP
论文链接:An Analysis of Scale Invariance in Object Detection - SNIParxiv.org
1. Background & Related Work
1.1 简介
这篇文章主要的研究点是目标检测中的小物体问题。小物体检测一直是目标检测中的难题,做过实验的同学应该都知道数据集中small类的AP基本是最低的,主要原因是两个,一个就是CNN网络提取到的语义化特征和分辨率之间的矛盾;另一个就是目前的目标检测都采用了Faster RCNN的Anchor思想,小物体有时候即使全部在Anchor内,也容易因为小面积导致IoU过低。Anchor本质上是大小固定的box,过小物体会出现IoU过低,过大物体也容易出现IoU过低,结果就是容易漏检……
文章分析了小尺度与预训练模型尺度之间的关系, 并且提出了一个和 Cascade R-CNN 有异曲同工之妙的中心思想:要让输入分布接近模型预训练的分布(本文主要探讨尺度的分布不一致带来的问题). 之后利用分析的结论, 提出了一个多尺度训练(MST)的升级版:Scale Normalization for Image Pyramids (SNIP).
1.2 分类和检测的难度差异
使用深度网络后, 分类任务已经做到了误差率2%(ImageNet). 为什么在COCO上才62%? 这么悬殊的距离主要因为检测数据集中包含了大量小物体, 他们成了绊脚石.
可以看到,COCO 90%的Instance的大小都在0.472以下,和ImageNet差别非常大,在 ImageNet (classi