SSD论文浅析

SSD是结合YOLO和Faster R-CNN优点的单阶段目标检测器,通过多尺度特征图预测default boxes提高尺寸适应性。网络结构基于VGG-16,使用不同尺度和aspect ratio的default boxes。训练时采用正负样本策略和hard negative mining,loss function结合了定位和分类损失。
摘要由CSDN通过智能技术生成

Single Shot MultiBox Detectordeepsystems

背景

        因为YOLO V1带来的快速的检测速度,而准确率却远不如faster-rcnn,而且前面博文所说,YOLO V1只在一个grid cell中预测一种class,并且只在最后一层的feature map进行box的预测,使得在大小尺寸上难以兼顾到。

        本文中提出的SSD,很重要的一点就是将之前基础的网络中的feature map和之后的多尺度feature map一起进行prior boxes的选取,提高了boxes对尺寸的要求。文章中对于prior boxes的选择与faster-rcnn中的anchor技术比较类似。

        可以说是 anchor+YOLO的产物了。



网络结构

论文中的网络结构采用的是VGG-16-Atrous,使得conv6(FC6)处的尺寸为19*19(看源码可以理解,dilate=True),这里分别采用两组3*3的卷积(SAME卷积)对各层的feature map进行处理。类似于YOLO的方法。


拿conv4_3举例(以下的尺寸都是以此为例)

    第一组:实现localization的regression(x,y,w,h)4个参数,则共需要3*3*512的卷积核4*default boxes个,可能要问default boxes是什么鬼东西

        default boxes:对应卷积层尺寸38*38,每一个像素对应产生default boxes个box


如上图 对于8*8和4*4的来说,default boxes=4

这就好办了,我们为了得到regression,卷积出38*38*(4*default boxes)的结果。

第二组:实现每一类的confidence的计算,加入数据集共前景C类,则需要有(C+1)个confidence。又每一个像素default boxes,则可知需要3*3*512的卷积核(C+1)*default boxes个,好了,我们得到了38*38*((C+1)*default boxes)的结果。

实验中将第一组和第二组的结果进行concat,得到38*38*((4+(C+1))*default boxes)的卷积结果

    default box不同scale和aspect ratio的选择策略
     
Sk*300(初始的尺寸)表示的是第k层feature map取的scale大小,每一层feature map有不同的scale,同一层的又有不同的aspect ratio,基本做到了大小尺寸的覆盖了。

每一层所取得default boxes不一样。


自此,我们得到了38*38*4 + 19*19*6 + 10*10*6 + 5*5*6

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值