An Analysis of Scale Invariance in Object Detection – SNIP
一、角度
基于CNN的检测器是对尺寸敏感的,所以要做到通过训练的多样化和专一化为为模型性能服务是很困难的一件事。多样化指的是对于整个检测器而言,输入一定要较均衡的覆盖每个scale,专一指的是检测器的对应不同scale的部分应该得到充足且正确的训练。前者要求提供的样本够丰富,后者要求解决域迁移问题。这个论文和MST(Multi-Scale Training)不同的点在于,它的训练输入做了多尺度处理的同时,还多了一个更严格loss回传筛选机制,使得针对不同尺度的检测器得到很好的训练(每个scale只会针对一个很小范围的)。同时,为了保证测试的时候,能够保证目标能够被匹配到每个检测器对应的小范围,测试的图片也是多尺度的。但这无疑增加了开销。
二、实验分析部分
作者做了两个系列实验,第一个系列实验是来证明,对于CNN而言,它是对尺度敏感的,对于小目标而言,这个问题可以理解为域迁移问题,最好的作法是在imageNet(分类任务其实算大目标)上预训练好后再用小目标数据finetune,这为后面的所有实验奠定了基础。第二个系列实验则证明了训练图片使用单一尺度和单纯使用多尺度,并不能很好的训练好检测器,前者是缺少了多样性和专一性,后者是缺少了专一性。
2.1 确定训练的基本方式
三种模式下的训练方式