SSD 论文总结

论文摘要

我们提出了一种使用单个深度神经网络检测图像中的物体的方法。我们的方法被称为SSD,它将边界框的输出空间离散化为一组在不同特征图位置上具有不同长宽比和尺度的默认框。在预测时,网络为每个默认框生成每种物体类别的存在分数,并对框进行调整,以更好地匹配物体的形状。此外,网络结合了来自多个具有不同分辨率的特征图的预测,以自然处理各种尺寸的物体。与需要物体提议的传统方法相比,SSD相对简单,因为它完全消除了提议生成和后续像素或特征重采样阶段,并将所有计算封装在一个网络中。这使得SSD易于训练,并且可以方便地集成到需要检测组件的系统中。实验结果表明,SSD在PASCAL VOC、COCO和ILSVRC数据集上的准确性与使用额外物体提议步骤的方法相当,同时速度更快,并且提供了一个统一的训练和推理框架。对于300 × 300的输入,SSD在VOC2007测试集上达到了74.3%的mAP,并且在Nvidia Titan X上以59 FPS运行;对于512 × 512的输入,SSD达到了76.9%的mAP,超越了可比的Faster R-CNN模型。与其他单阶段方法相比,SSD在较小的输入图像尺寸下也具有更好的准确性。代码可在:https://github.com/weiliu89/caffe/tree/ssd 下载。

论文标题:SSD: Single Shot MultiBox Dectector

论文链接:[1512.02325] SSD: Single Shot MultiBox Detector (arxiv.org)

介绍

这篇文章中作者在网络的六个不同的层次提取了特征,最后将这些特征结合,让网络有了多尺度检测的能力,而且这个网络的速度相比于当时先进的two-stage网络(如:Faster R-CNN)有更快的速度和更高的准确率。

模型

网络架构

下面是本文的SSD和同为one-stage的YOLO的网络架构图

SSD网络以VGG16作为网络的基本骨架(在ILSVRC CLS-LOC数据集上被预训练),并且上图的fc6和fc7都被改成了卷积层,保留了原来的参数,还改变了pool5池化层的卷积核,使用了空洞卷积用`a trous算法填补空洞的部分,让2*2步长为2的卷积核变成3*3步长为1,使用了定位损失和置信度损失的加权和作为模型损失。

下图是VGG16网络的架构图,可以与上图进行参照

网络以300*300或512*512的三通道图片作为输入,在经过Conv4-3时输出了一个经过卷积处理的特征图作为对象检测的基础,这张特征图的每一个feature map cell(原文的说法),都会生成4个default boxes(类似于Faster R-CNN中的anchor)(这六张输出的图的前三张是生成4个default boxes,后三张图生成6个default boxes),并且对default boxes打分。这样的方法可以检测不同尺度上的目标。

如下图所示:

在 8*8的大尺度上,体型较小的猫容易被检测到,所以蓝色方框捕捉到了猫的位置,而体型较大的狗没有被检测出来,但是在4*4的特征图上就能被检测出来。

从这里也可以看出这种设计可以从不同尺度上获取目标的位置,可以提高检测的准确率。

训练

SSD的训练过程与其他模型不同的是,在SSD网络中需要根据Ground Truth中选出与其重合度比较高的特定比例的框。训练涉及数据增强和困难负样本挖掘等技术。

Loss Function

正如上文所说,模型损失是位置损失(localization loss)和置信度损失(confidence loss)的加权和,下图就是模型损失的计算公式:

其中N代表的是匹配的default boxes的数量,如果N = 0,那么loss的值就为0。

Localization Loss:

 Confidence Loss:

 在SSD模型中不同的特征图上使用的default boxes的尺寸也不一样,下面是计算公式:

 其中Smin = 0.2, Smax = 0.9。

不同的default boxes也有不同的比例,下面是计算公式:

Hard negative mining

在SSD中,作者没有使用所有的negative examples而是将他们按照置信度损失从高到低排序,取排在前面的样本,并且使得negatives : positives的比例在3:1之间。

Data augumentation

为了让增强模型的鲁棒性作者主要采用了三种方法对输入的图片进行处理。

1.使用整个原始输入图像

2. 采样一个补丁,使得它与物体的交并比为0.1、0.3、0.5、0.7或0.9。

3.随机采样一个补丁。

每个采样补丁的大小是原始图像大小的[0.1, 1],比例在0.5 - 2之间,并有50%的概率水平翻转,还会应用光度调整。

总结

SSD不同于目前比较主流的sliding windows和region proposal,它主要依靠不同尺度上的default boxes进行检测,避免了像sliding windows那样低效的方式,使得检测的速度更快。还结合了不同尺度的特征,使他有着更高的精确度。

  • 16
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值