地址:SSD:Single Shot MultiBox Detector
时间:2015年12月发布,2016年12月最终
全文概括
SSD引入了Faster RCNN的anchor,使用多level 的 feature map来进行分类和回归,从而增强多尺度的语义信息(SSD应用在不同尺度的feature 上)。
在VOC 2007 test数据集上,SSD达到
74.3
%
74.3\%
74.3%的mAP及
59
59
59FPS;而Faster R-CNN 达到
73.2
%
73.2\%
73.2%的mAP及
7
7
7FPS、YOLO达到
63.4
%
63.4\%
63.4%的mAP及
45
45
45FPS。即SSD达到了当时最好的性能,且比YOLO要快(个人认为,在骨架网络上,SSD与YOLO最大的区别在于没有后面的fc层,即速度的提升来自于conv层代替fc层。fc层需要更大的内存,而conv可以通过数据复用,减少访问存储的次数。而且,conv层的可优化加速空间更大)
在不同level的feature map上,使用的检测网络(分类和回归)是不一样的,即不共用。
SSD模型
骨干网络使用VGG16,但fc6和fc7变成conv layer,移除fc8和dropout层,pool5从22-stride2变成33-stride1;
检测网络在每个不同level的feature map是不同的,假设该层feature map有p个channel,使用33p的卷积核得到输出的一个维度(即预测其中的一个值,类别分数或者边框offset);
每个anchor都计算分类分数和边框偏移;
模型相关训练方法
模型训练时,使用硬负样本缩减策略,正负比例为1:3;
标记样本时,重叠率超过0.5就标记为ground truth;[作者认为,这简化了学习问题,允许网络给多个重叠annchor高分,而不是要求它仅选最大重叠的框];
损失函数使用和Faster RCNN一样的:平滑L1损失函数+softmax loss;