SSD算法
如图所示为VGG16的主干网络,max pooling不算卷积层,虚线之前对应的是下图的虚线结果,我们将分类头进行截取,其中我们采用了Conv4_3结构的特征图进行预测。FC6对应第一个蓝色的全连接层,FC7对应着第二个蓝色的全连接层。我们修改了maxpooling的结构,因此其中的分辨率不发生改变。
如图所示,SSD算法采用VGG16网络作为骨干网络,我们通过在主干网络的每个特征层之间增加卷积层来进行预测,对于分辨率大小为mxn的特征图,对于每一个defalt box我们首先需要预测C个类别的概率大小,其次需要预测4个位置坐标的偏差信息,因此一个分辨率大小为mxn的网络,我们的输出为(c+4)kmn。采用6个不同尺度的特征图去检测不同尺度目标信息。
上图详细介绍了我们default box选取的情况,对于不同大小的特征图,我们采用不同大小的default box可以更好的预测目标情况,浅层特征图包含了较多的细节信息,更适合进行小物体的检测。而较深的特征图包含了更多的全局信息,更适合大物体的检测。
Hard negative mining
由于在匹配过程中,大多数的default box都是负样本,会造成在训练过程中正负样本不匹配的问题,因此为了解决这个问题,我们选取置信度较高的负样本,使正负样本之间的比值处于3:1的形式。