微调已经在很多视觉任务上都有一个state-of-art的performance,比如说追踪,分割,物体检测,动作识别等等。但是不同的微调方法对结果也是不一样的,这篇论文主要探索了物体检测上微调中对performance的影响因素。经验和分析结果都告诉我们有更多样本的类对feature learning的影响是更大的,因此最好是能够把样本分布均匀。提出一种层级的feature learning 方法,在GoogLeNet上进行了微调,在物体检测上有4.7%map的提升。
Introduction
在对物体检测做微调时,作者观察到两个现象。
一是长尾属性。长尾现象意思是小部分的物体类别的样本量很大,但是大部分的类样本量却很小,如下图,
ImageNet Classification数据集还是比较好的,基本上类别的数据量都差不多大,但是在PASCAL VOC和ImageNet Detection数据集上,长尾现象确实很