SSD论文浅析

最新推荐文章于 2024-08-07 21:24:34 发布

ThereIsNoSpoon_

最新推荐文章于 2024-08-07 21:24:34 发布

阅读量1.3k

点赞数

本文链接：https://blog.csdn.net/Wzz_Liu/article/details/80829701

版权

SSD是结合YOLO和Faster R-CNN优点的单阶段目标检测器，通过多尺度特征图预测default boxes提高尺寸适应性。网络结构基于VGG-16，使用不同尺度和aspect ratio的default boxes。训练时采用正负样本策略和hard negative mining，loss function结合了定位和分类损失。

摘要由CSDN通过智能技术生成

Single Shot MultiBox Detectordeepsystems

背景

因为YOLO V1带来的快速的检测速度，而准确率却远不如faster-rcnn，而且前面博文所说，YOLO V1只在一个grid cell中预测一种class，并且只在最后一层的feature map进行box的预测，使得在大小尺寸上难以兼顾到。

本文中提出的SSD，很重要的一点就是将之前基础的网络中的feature map和之后的多尺度feature map一起进行prior boxes的选取，提高了boxes对尺寸的要求。文章中对于prior boxes的选择与faster-rcnn中的anchor技术比较类似。

可以说是 anchor+YOLO的产物了。

网络结构

论文中的网络结构采用的是VGG-16-Atrous，使得conv6（FC6）处的尺寸为19*19（看源码可以理解，dilate=True），这里分别采用两组3*3的卷积（SAME卷积）对各层的feature map进行处理。类似于YOLO的方法。

拿conv4_3举例（以下的尺寸都是以此为例）

第一组：实现localization的regression（x,y,w,h）4个参数，则共需要3*3*512的卷积核4*default boxes个，可能要问default boxes是什么鬼东西

default boxes：对应卷积层尺寸38*38，每一个像素对应产生default boxes个box

如上图对于8*8和4*4的来说，default boxes=4

这就好办了，我们为了得到regression，卷积出38*38*（4*default boxes）的结果。

第二组：实现每一类的confidence的计算，加入数据集共前景C类，则需要有（C+1）个confidence。又每一个像素default boxes，则可知需要3*3*512的卷积核（C+1）*default boxes个，好了，我们得到了38*38*（（C+1）*default boxes）的结果。

实验中将第一组和第二组的结果进行concat，得到38*38*（（4+（C+1））*default boxes）的卷积结果