前段时间一直在看ssd,但是总是不太明白,今天突然明白了,就记录下自己的理解
先看下ssd的网络结构如下:

由于不想画这个结构,就盗了别人的图,非常感谢此作者。
SSD采用VGG16作为基础模型,然后在VGG16的基础上新增了卷积层来获得更多的特征图以用于检测。可以明显看到SSD利用了多尺度的特征图做检测。模型的输入图片大小是300x300(还可以是512x512,其与前者网络结构没有差别,只是最后新增一个卷积层)。
采用VGG16做基础模型,首先VGG16是在ILSVRC CLS-LOC数据集预训练。然后借鉴了DeepLab-LargeFOV,分别将VGG16的全连接层fc6和fc7转换成3x3卷积层conv6和1x1卷积层conv7,同时将池化层pool5由原来的stride=2的2x2变成stride=1的3x3,为了配合这种变化,采用了一种Atrous Algorithm,其实就是conv6采用扩展卷积或带孔卷积(Dilation Conv),其在不增加参数与模型复杂度的条件下指数级扩大卷积的视野,其使用扩张率(dilation rate)参数,来表示扩张的大小,如下图所示,(a)是普通的3x3卷积,其视野就是3x3,(b)是扩张率为2,此时视野变成7x7