SSD简述

最新推荐文章于 2023-07-28 20:36:19 发布

CV大白菜

最新推荐文章于 2023-07-28 20:36:19 发布

阅读量1.2k

点赞数 1

分类专栏： CV大白菜文章标签： SSD 图像检测

本文链接：https://blog.csdn.net/qq_28778507/article/details/84943020

版权

SSD也是one stage的检测。one stage的特点是：均匀的在图片的不同位置进行密集抽样，抽样采用不同的尺寸和长宽比，然后利用CNN提取特征之后，直接进行回归和分类。整个过程只有一步。它的优势是速度快，但是密集采样会导致正负样本（前景和背景）及其不均衡，使得模型准确度较低。下面来看看two stage和one stage在mAP和speed上的差异。
在这里插入图片描述
SSD采用CNN直接进行检测。不像YOLO1在全连接层之后再做检测。SSD相比于YOLO1还有两个亮点：

提取了不同尺度的特征图来做检测：大尺度的特征图（比较靠前的特征图）用于检测小物体，小尺度的特征图（比较靠后的特征图）用于检测大物体。
采用了不同尺度和长宽比的先验框，在这里叫prior boxes，在faster RCNN里叫anchor。

YOLO1的缺点是难以检测小物体，SSD的这些改进点可以克服这些缺点。

首先详细说说SSD的特点：

采用多尺度特征图用于检测

CNN网络的特征图会渐渐降低大小，比较靠前的特征图尺度比较大，靠后的特征图尺度较小。较大的特征图可以检测小物体：大的特征图可以划分出更多的小单元；较小的可以检测大物体
在这里插入图片描述

采用卷积进行检测

首先全连接层会有大量的参数，而且需要固定输入。这样就没烦恼啦

设置先验框

每个检测单元都会根据其特征图的大小设置4或6个prior box。而且不同于YOLO1，YOLO1中每个cell预测的bbox都只能预测一个类别，但这里的prior box都会输出一套独立的检测值：

各个类别的置信度
这里注意：SSD把背景也当做了一个类别，当我们说有C个类别的时候，其实是有 $C - 1$ 个物体 $+$ 1个背景类别。在预测时每个边界框时，置信度最高的类别就是所属的类，当第一个置信度最高的时候，表示bbox里面是背景。
边界框的location(cx,cy,w,h)，表示边界框的中心坐标和宽高。但是真是的预测值其实是offset (b^cx,b^cy,b^w,b^h).这一点和faster RCNN非常像。这里再复习一遍：
设先验框位置(d^cx,d^cy,d^w,d^y)，offset为(l^cx,l^cy,l^w,l^y)，他们之间的关系为：

这个过程被称为边界框的编码过程，预测时要进行解码：

在caffe源码中，还可以选择用variance超参数来调整检测值，当variance模式被选择时，则variance被包含在预测之中，就需要手动设置超参数，对l的4个值进行缩放。

但是大部分都没有采用这种模式
假设一个特征图有m $*$ n个cell，每个cell有k个prior box，那么总共需要预测 $(C + 4) * K * M * N$ 个prior box

SSD的网络结构

SSD本已VGG16作为基础，然后增加了新的卷积层获得更多特征用于检测。
在这里插入图片描述
分别将VGG16的全连接层fc6和fc7转换成 3 $\times$ 3 卷积层 conv6和 1 $\times$ 1 卷积层conv7，同时将池化层pool5由原来的stride=2的 2 $\times$ 2 变成stride=1的 3 $\times$ 3 （猜测是不想reduce特征图大小），为了配合这种变化，采用了一种Atrous Algorithm，其实就是conv6采用扩展卷积或带孔卷积（Dilation Conv），扩展率为6。然后移除dropout层和fc8层，并新增一系列卷积层，在检测数据集上做finetuing。
Conv4_3层作为检测的第一个特征图38 $\times$ 38.但是他比较靠前，norm比较大，在其后增加了一个L2 Normalization层：它在channel维度上对每个像素点做归一化，而BN是在[batch,height,width]三个维度上做归一化。

prior box的尺寸设置

从后面新增的卷积层中提取Conv7，Conv8_2，Conv9_2，Conv10_2，Conv11_2作为检测所用的特征图，加上Conv4_3层，共提取了6个特征图。不同特征图上先

最低0.47元/天解锁文章

CV大白菜

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
SSD简述

SSD也是one stage的检测。one stage的特点是：均匀的在图片的不同位置进行密集抽样，抽样采用不同的尺寸和长宽比，然后利用CNN提取特征之后，直接进行回归和分类。整个过程只有一步。它的优势是速度快，但是密集采样会导致正负样本（前景和背景）及其不均衡，使得模型准确度较低。下面来看看two stage和one stage在mAP和speed上的差异。SSD采用CNN直接进行检测。不像...
复制链接

扫一扫