前言
SSD使用较浅的层来预测小目标,用较深的层来预测大目标,这样虽然能够实现多尺度目标检测,但由于浅层的特征图语义信息不够强,缺乏高层的语义特征,因此SSD对小目标的检测效果很差。这样来看的话,如果我们要提升检测精度,要么使用更好的特征网络 以提取判别性更强的特征,要么增加上下文信息,也就是将高层语义特征融入浅层特征图中,这对于检测小目标是很重要的。
本文最重要的贡献是,将上下文信息引入目标检测中。将SSD的基础网络从VGG换成ResNet-101,以更好地提取特征;同时利用反卷积层(deconvolution layer)引入上下文信息,使得浅层特征图能有更好的表示能力,从而提升小目标的检测精度。作者认为反卷积中的前馈连接模块和新的输出模块是最重要的部分。
DSSD模型
下图对比了SSD和DSSD在ResNet上的网络结构,图中蓝色的层是SSD中添加在基础网络后的卷积层,称为SSD层,红色的层是DSSD层。
1. 用ResNet-101代替VGG
上图的上半部分中,SSD使用ResNet-101作为基础网络,可以看到是在conv5_x之后添加卷积层,然后利用conv3_x,conv5_x和其它的卷积层来进行预测。但是仅这样修改并不能提升检测结果,如下表所示,第一行显示SSD以ResMet-101作为基础网络时,当输入图像为 321 ×