博文参考:https://blog.csdn.net/u014380165/article/details/80793334
看了文章,觉得还不错,在现有的best object-detection model上能增加3%~4%个mAP点。
SNIP的主要思想
基本思想是:浅层的feature map语义特征比较弱,但是小物体特征比较明显,适合在较浅的层检测小物体,但是对于大物体,由于语义特征比较弱,不太适合在浅层进行检测;深层的feature map语义特征很强,但是对于小物体,在该层的特征基本上消失,所以在深层对大物体进行检测比较合适,而小物体则已不适合。
SNIP的思想就是,在不同层scale的feature map中定义的有效anchor范围不同,在浅层的feature map,这里检测小物体,此时的anchor box尺寸占原始图像的大小较小,在深层的feature map,此时的anchor box尺寸占原始图像的大小较大。也就是说在浅层的feature map上只对小的物体对应的ground truth标签(就是定位框)进行误差计算/梯度回传,更新网络,此时忽略大的和中型的物体;同样,在较深的feature map中,只对大的物体进行误差计算(此时的anchor box设定的比较大)/梯度回传,忽略小的物体。这样即可保证在对应scale层中提取最佳的特征,从而增加检测的准确率。