SSD: Single Shot MultiBox Detector

论文地址:https://arxiv.org/abs/1512.02325
项目地址:https://github.com/weiliu89/caffe/tree/ssd/
              or https://github.com/balancap/SSD-Tensorflow
自制PPT与讲解视频链接:https://github.com/DHUB721/Object-Detection (注:仅个人理解,如有错误请多多指正,轻喷,谢谢!)
由于视频中已经对论文做了详细讲解,这里不再赘述,只提出几个疑惑的点交流一下!

1. 论文背景

在该论文发表时,主流的目标检测方法是Faster RCNN,由于Faster RCNN是一个two-stage过程(generate proposals + detection),速度慢是比不可避免的。另一方面,one-stage模型做目标检测可以避免generate proposals的时间,one-stage的代表YOLO速度明显提高,但准确率很低。作者就想能不能结合二者优势,实现一个准确率高速度也快的模型呢?于是SSD诞生了。(注:我个人认为不仅是目标与Faster RCNN、YOLO相似,连采用的方法也是两者的融合,Faster RCNN中的Anchors与YOLO的分格思想。)

2. 论文亮点

在这里插入图片描述

刚才说了,我感觉SSD就是Faster RCNN与YOLO在目标与方法上的融合,那么仅靠方法的融合肯定不能达到更优的效果,所以增加来自不同层级的特征是必然的。

3. 论文细节

3.1 "discretizes"怎么去理解?

在这里插入图片描述

3.2 Matching Strategy

在讲匹配策略之前,先看一句话:
The key difference between training SSD and training a typical detector that uses region proposals, is that ground truth information needs to be assigned to specific outputs in the fixed set of detector outputs.
即在训练的时候要将ground truth作为default box,这也是为什么会有下述条件的原因,因为这个default box肯定会与ground truth匹配(完全重合了)。
在这里插入图片描述
现在再来看匹配策略:
在这里插入图片描述jaccard overlap其实就是IOU,通过上述匹配策略不难发现,有可能一个ground truth会对应对个default box。
在这里插入图片描述

3.3 Convolutional predictors for detection

在这里插入图片描述

看网络底部Classifier: Conv: 3 * 3 * (6* ( classes + 4)),6 表示 6 个default box, ( classes + 4)类别预测与 bbox 回归独立进行,其中 classes 表示类别数量,4 表示位置坐标信息。
现在计算一下 8732 这个数字怎么来得:
38 * 38 * 4 + 19 * 19 * 6 + 10 * 10 * 6 + 5 * 5 * 6 + 3 * 3 * 4 + 1 * 1 * 4=8732
作者将不同层级的预测组合 (tiling) 在一起,形成了 8732 个prior box(default box的实际选择), 你认为这是为什么呢?我认为是 这种设计可以使得特征图能够对不同尺度的对象都做出响应!

3.4 Default box 的scale 选择

首先明确不同特征图中的default box的宽高是由scale确定的。思考一个问题:随着特征图的减小(即一步步池化抽象),那么再用相对比例的 scale 去检测原来的目标,显然是不合理,所以要相应改变 scale 。scale的改变是以等差数列的形式增加的。直观上感受一下:
在这里插入图片描述

要检测 4 * 4 特征图上的猫, scale的设置必然要比 8 * 8 设置得大。这里有个疑问:同一层级的特征图采用相同的scale吗?我理解 scale的变化是存在不同层级之间的想法对吗? 因为每一层有会产生很多特征图, 难道用 1 * 1卷积融合成了一张?具体细节待看完源码之后补充!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值