要点:
1. SSD的核心是使用应用于feature map的小卷积滤波器来预测固定的一组默认边界框的类别和框偏移。
将边界框的输出空间离散化为不同宽高比和每个要素图位置的一组默认框。
生成固定大小的边界框集合以及在这些框中存在对象类实例的分数,随后是非最大抑制步骤以产生最终检测 (超过阈值即检测出:允许网络预测多个重叠默认框的高分,而不是要求它只选择具有最大重叠的一个)。
2. 多尺度结构:为了实现高检测精度,我们从不同尺度的特征图产生不同尺度预测feature map,并通过纵横比明确地分开预测(不同的feature map的anchor box 不一样)。
(使用低层feature map检测小目标,高层检测大目标)
细节:
1. 如下图,在8*8的feature map只能检测出猫,不能检测出狗。因为在8*8 的default box尺寸中没有狗的尺寸。
2 多尺度特征图(Mult-scale Feature Map For Detection)
在图像Base Network基础上,将Fc6,Fc7变为了Conv6,Conv7两个卷积层,添加了一些卷积层(Conv8,Conv9,Conv10,Conv11),这些层的大小逐渐减小,可以进行多尺度预测。
3 卷积预测器(Convolutional Predictors For Detection)
每个新添加的卷积层和之前的部分卷积层,使用一系列的卷积核进行预测。对于一个大小为m*n大小,p通道的卷积层,使用3*3的p通道卷积核作为基础预测元素进行预测,在某个位置上预测出一个值,该值可以是某一类别的得分,也可以是相对于Default Bounding Boxes的偏移量,并且在图像的每个位置都将产生一个值。
4 默认框和比例(Default Boxes And Aspe