SSD: Single Shot MultiBox Detector

最新推荐文章于 2022-06-01 17:09:08 发布

好运来2333

最新推荐文章于 2022-06-01 17:09:08 发布

阅读量139

点赞数

分类专栏： Paper

本文链接：https://blog.csdn.net/qq_33254870/article/details/89634722

版权

Paper 专栏收录该内容

15 篇文章 2 订阅

订阅专栏

论文地址：https://arxiv.org/abs/1512.02325
项目地址：https://github.com/weiliu89/caffe/tree/ssd/
or https://github.com/balancap/SSD-Tensorflow
自制PPT与讲解视频链接：https://github.com/DHUB721/Object-Detection （注：仅个人理解，如有错误请多多指正，轻喷，谢谢！）
由于视频中已经对论文做了详细讲解，这里不再赘述，只提出几个疑惑的点交流一下！

1. 论文背景

在该论文发表时，主流的目标检测方法是Faster RCNN，由于Faster RCNN是一个two-stage过程（generate proposals + detection），速度慢是比不可避免的。另一方面，one-stage模型做目标检测可以避免generate proposals的时间，one-stage的代表YOLO速度明显提高，但准确率很低。作者就想能不能结合二者优势，实现一个准确率高速度也快的模型呢？于是SSD诞生了。（注：我个人认为不仅是目标与Faster RCNN、YOLO相似，连采用的方法也是两者的融合，Faster RCNN中的Anchors与YOLO的分格思想。）

2. 论文亮点

在这里插入图片描述

刚才说了，我感觉SSD就是Faster RCNN与YOLO在目标与方法上的融合，那么仅靠方法的融合肯定不能达到更优的效果，所以增加来自不同层级的特征是必然的。

3. 论文细节

3.1 "discretizes"怎么去理解？

在这里插入图片描述

3.2 Matching Strategy

在讲匹配策略之前，先看一句话：
The key difference between training SSD and training a typical detector that uses region proposals, is that ground truth information needs to be assigned to specific outputs in the fixed set of detector outputs.
即在训练的时候要将ground truth作为default box，这也是为什么会有下述条件的原因，因为这个default box肯定会与ground truth匹配（完全重合了）。
在这里插入图片描述
现在再来看匹配策略：
jaccard overlap其实就是IOU，通过上述匹配策略不难发现，有可能一个ground truth会对应对个default box。

3.3 Convolutional predictors for detection

在这里插入图片描述

看网络底部Classifier: Conv: 3 * 3 * (6* ( classes + 4))，6 表示 6 个default box， ( classes + 4)类别预测与 bbox 回归独立进行，其中 classes 表示类别数量，4 表示位置坐标信息。
现在计算一下 8732 这个数字怎么来得：
38 * 38 * 4 + 19 * 19 * 6 + 10 * 10 * 6 + 5 * 5 * 6 + 3 * 3 * 4 + 1 * 1 * 4=8732
作者将不同层级的预测组合（tiling）在一起，形成了 8732 个prior box（default box的实际选择），你认为这是为什么呢？我认为是这种设计可以使得特征图能够对不同尺度的对象都做出响应！