SSD算法-论文阅读详解

最新推荐文章于 2025-03-25 09:33:44 发布

酉意铭

最新推荐文章于 2025-03-25 09:33:44 发布

阅读量2.4k

点赞数 1

分类专栏：目标检测文章标签： SSD算法目标检测

本文链接：https://blog.csdn.net/weixin_40671425/article/details/88848879

版权

目标检测专栏收录该内容

11 篇文章

订阅专栏

SSD: Single Shot MultiBox Detector（单点多盒检测器）

链接：SSD论文原文

一，贡献/创新点

1，SSD是一个single-shot多类检测器，比之前的单点检测器（这里只要是对比YOLOV1）更快，更精确

（a）快的原因是检测层采用的是3*3的卷积核，而不是像YOLOv1采用全连接层进行检测

（b）更精确的原因采用了多尺度进行检测（小，中，大物体），分别使用了6个检测层。

2，SSD的核心是：在特征图上利用小卷积核对一系列固定集合的default bboxes预测类别得分和box偏移

3，为了取得高检测准确率，在不同尺度的特征图上进行不同尺度的预测，并分别预测不同aspect ratio的boxes.

4，设计的特征图可以进行端到端训练并带来高准确率，即使用低分辨率的输入图片，能够改善速度和准确率代价。

二，多尺度特征图预测

在截断的base network（论文中采用VGG16）后面增加了一些卷积层，这些卷积层尺寸逐渐减小并可以在多尺度特征图上进行预测。

三，卷积预测器检测

每个增加的卷积层利用一些小卷积核可以产生固定集合的检测预测结果。例如，对于具有p个通道m*n大小的特征图，需要3*3*p个小卷积核预测类别得分或者default box偏移，在每一个m*n位置都要使用卷积核产生一个输出值。这个bbox偏移输出值衡量一个对应的default box。

网络结构

采用了6个特征图进行预测其大小分别是（38*38），（19*19），（10*10），（5*5），（3*3），（1*1），其中每个特征图中每个位置所采用的default box的数量为（4,6,6,6,4,4）

网络产生的总default box数量为8732，计算如下：

38*38*4=5576

19*19*6=2166

10*10*6=600

5*5*6=150

3*3*4=36

1*1*4=4

base network采用的是VGG16，然后把全连接去掉并额外增加了一些小卷积核产生了一些尺度更小的特征图。

四，default box和 aspect ratio

在网络顶部的多个特征图上，为每个特征图cell关联一系列 default box。默认bbox以卷积方式平铺特征图，因此每个box和其对应的cell是固定的。在每个特征图cell中，预测cell中对应默认box的形状偏移和每个类别的得分。具体来说，对每个指定位置（cell）预测k个box，计算c类得分和4个坐标偏移。所以对特征图中每个位置需要（c+4）k个卷积核，对m*n的特征图共需要（c+4）kmn个卷积核。

五，训练

SDD网络和其他网络的关键区别是：ground truth 信息需要分配到固定检测器输出，也就是每一层特征图的检测器。

六，匹配策略

训练期间需要判断哪个default box对应一个ground truth检测来训练网络。对每一个GT box从不同位置、aspect ratio和尺度的default box中选择进行匹配。对每一个GT box和default box的匹配，挑选具有最好杰卡德交叠（IOU）的box。匹配default box到任何一个GT box的策略是杰卡德交叠大于0.5的门限值。

七，训练目标

损失目标函数由置信度和定位损失组成，其中表示第i个default box和第j个GT box匹配且类别为p，取值为0或1表示是否匹配。因此有表示，第i和default box至少要和一个GT box中的某一类匹配（表示正样本）。这里，N表示匹配default box的数量，如果N为0（没有default box匹配上），loss设置为0。定位损失是smooth L1损失（类似faster rcnn），回归的是default box的中心（cx,cy）和它的宽，高。

置信度损失采用softmax loss，进行多分类

权重项alpha设置为1（通过交叉验证得到）。

八，为default box选择aspect ratios 和 scales

为了处理不同尺度的目标，同时采用低层和顶层的特征图进行检测。设计平铺的default box使指定特征图学习目标的特定尺度。假设有m个特征图用来预测，每个特征图的default box的尺度按下面的公式计算：

其中Smin为0.2，Smax为0.9，表示最底层的有一个0.2的尺度，最顶层有一个0.9的尺度。另外对default box引入不同的aspect ratio，定义为ar属于{1,2,3,1/2,1/3}，对第k层特征图的每个default box，宽度的计算为：，高度的计算为：。另外对aspect ratio为 1 的default box，额外增加一个尺度：，所以对每个特征图的位置有 6 个default boxes。每个default box的中心为：，其中表示第k个矩形特征图的size，

九，硬负样本挖掘

匹配过后，大部分的default box是负样本（不包含目标），在这里default box的数量特别大。这样正负样本极度不平衡。不是使用全部的负样本，而是使用每个default box的最高置信度损失对它们进行排序，然后选择顶部的那些default box，使得负样本和正样本之间的比率最多为3：1。这样优化更快训练更加稳定。