-
大致背景及思路介绍
a. 一篇很经典的文章,SSD家族的开山鼻祖,在当年达到了比Yolo快,比Yolo准的水平。
b. 引入了多尺度检测,使得检测框的数量和大小种类大大增多,达到了更好的水平。
c. Default box的引入,类似于Anchors。 -
与R-CNN系列,YOLO的比较
a. R-CNN系列的特点就是准和慢。SSD与之相比最大提高就是快,这里主要是由于不需要进行RPN和ROI Pooling这两个步骤,Faster R-CNN的速度为7FPS,而SSD可以达到58FPS。
b. YOLO系列的特点则是快但是不准。而SSD通过增加更多的预测框,并在多个尺度上进行预测,在更大尺度上的Feature map上预测小物体,提高了检测效果。而快则是由于SSD的卷积层更少,没有全连接层,而且输入的图像更小。在VOC2007上,SSD的准确率比YOLO高出接近10个百分点,快13FPS。 -
SSD的主要特点和结构
a. Base network采用VGG16,在此基础上,增加若干卷积层以产生预测结果,这些卷积层的大小渐进的缩小,实现在多个尺度的特征图上的预测。
b. 可以看到,总共在6层上进行预测,每层在每个cell中分别预测6个或3个锚框,最后我们会的到(38 * 38 3+19 * 19 * 6+10 * 10 * 6+5 * 5 * 6+3 * 3 * 6+1 * 1 * 6)总计7308个框,而YOLO只在最后一层的77上,每个cell预测两个框共98个,显然准确率上,SSD会有更大可能优于YOLO。
c. 匹配策略上,首先每个GT box会和所有的预测框中IoU最高的进行一个匹配,然后还会和所有IoU大于一个阈值的进行匹配,这样使得每个GT box可能会和多个预测框进行匹配。
d. 损失函数:定位的损失函数为Smooth L1 loss,分类的损失函数为典型的softmax 损失函数,N为匹配到的预测框的数量,α用于平衡两个loss,默认为1.
e. Default box 缩放尺度和比例的选择。在每层上的缩放比例通过如下公式进行确定,可以看到层数越深,比例越大,也就是小物体主要靠前几层,大物体靠后几层:
f. Hard negative mining:正负样本不均衡的问题依然存在,这里通过置信度排序后,将负样本和正样本的比例控制到3:1。这样可以使得训练更快更稳定。
10-31
365
![](https://csdnimg.cn/release/blogv2/dist/pc/img/readCountWhite.png)
05-10
“相关推荐”对你有帮助么?
-
非常没帮助
-
没帮助
-
一般
-
有帮助
-
非常有帮助
提交