模型介绍
- SSD: Single shot multiboxdetector. 2016
- 作者:Wei Liu等
- 特点:1. 单阶段模型,不需要候选框;2. 使用默认框回归目标类别和坐标;3. 在不同尺度的特征图预测;4. 实现了端到端训练
- 论文地址:https://arxiv.org/abs/1512.02325
模型架构
默认框和多尺度特征图
- 特征图的每个像素点对应多个默认框
- 高像素特征图回归小物体,低像素回归大物体
默认框的计算
如果m×m的特征图,尺度是0.2 ,宽比例为(1, 0.5, 2), 那么会产生3个默认框,宽高计算为
(0.2×√1, 0.2/√1) (0.2×√0.5, 0.2/√0.5)(0.2×√2, 0.2/√2),所以该层特征图共有m×m×3个默认框
论文中,总共的默认框的计算为38×38×4+19×19×6+10×10×6+5×5×6+3×3×4+1×1×4=8732
每个默认框参数的计算。假设有20分类,每个默认框对应参数是(20+1+4)
正样本的匹配策略和负样本
- 正样本
以GT box为基础,遍历与GT box最匹配(IoU最大)的默认框
以默认框为基础,寻找与GT box满足IoU>0.5的默认框
- 负样本
对所有负样本进行置信度升序排列,选择前n个样本,使得正负样本的比例为1:3
损失函数
总损失
定位损失
正样本和负样本损失
数据增强
- 随机截取采样图像
与物体的IoU为:0.1,0.3,0.5,0.7和0.9
采样图像的比例范围是[0.3, 1.0],aspect ratio是0.5或2
物体的中心在采样区
- 原图像
把随机采样的图像或原图像Resize到固定大小,以0.5的概率翻转
预测步骤
- 对于每个预测框,首先根据类别置信度确定其类别(置信度最大者)与置信度值,并过滤掉属于背景的预测框
- 然后根据置信度阈值(如0.5)过滤掉阈值较低的预测框。对于留下的预测框进行解码,根据先验框得到其真实的位置参数。解码之后,一般需要根据置信度进行降序排列,然后仅保留top-k(如400)个预测框
- 最后就是进行NMS算法,过滤掉那些重叠度较大的预测框。最后剩余的预测框就是检测结果