目标检测之---SSD算法详解

只爱喝水

于 2024-08-12 14:50:42 发布

阅读量1.2k

点赞数 19

文章标签：算法

本文链接：https://blog.csdn.net/qq_52191127/article/details/141110932

版权

前言

SSD模型在2016年由Wei Liu等人提出，并迅速成为对象检测领域的重要工具。随着深度学习技术的不断发展，SSD在许多应用中被广泛使用，如自动驾驶、视频监控、智能安防等。SSD（Single Shot MultiBox Detector）是一种用于对象检测的深度学习神经网络架构。它主要用于在图像中检测和识别多个对象，同时预测这些对象的类别和位置。SSD在速度和精度之间达到了很好的平衡，使其成为实时应用中非常流行的选择。

一、SSD网络总体架构

精简版：

详解版：

ssd和YOLO一样，也分为三部分：卷积层，目标检测层和NMS筛选层

1.1卷积层

SSD论文采用了VGG16的基础网络并进行了一些修改，其实这也是几乎所有目标检测神经网络的惯用方法。先用一个CNN网络来提取特征，然后再进行后续的目标定位和目标分类识别。

具体修改：

1）分别将VGG16的全连接层FC6和FC7转换成 3x3 的卷积层 Conv6和 1x1 的卷积层Conv7
2）去掉所有的Dropout层和FC8层
3）同时将池化层pool5由原来的 stride=2 的 2x2 变成stride=1的 3x3 （猜想是不想reduce特征图大小）
4）添加了Atrous算法（hole算法），目的获得更加密集的得分映射
5）然后在VGG16的基础上新增了卷积层来获得更多的特征图以用于检测

1.2目标检测层

这一层由5个卷积层和一个平均池化层组成。去掉了最后的全连接层。SSD认为目标检测中的物体，只与周围信息相关，它的感受野不是全局的，故没必要也不应该做全连接。

1.3 筛选层

和yolo的筛选层基本一致，同样先过滤掉类别概率低于阈值的default box，再采用NMS非极大值抑制，筛掉重叠度较高的。只不过SSD综合了各个不同feature map上的目标检测输出的default box。

SSD基本已经可以满足我们手机端上实时物体检测需求了，TensorFlow在Android上的目标检测官方模型ssd_mobilenet_v1_android_export.pb，就是通过SSD算法实现的。它的基础卷积网络采用的是mobileNet，适合在终端上部署和运行。

二、SSD算法详解

2.1多尺度特征预测不同尺度目标

上图左边的方法针对输入的图片获取不同尺度的特征映射，但是在预测阶段仅仅使用了最后一层的特征映射；而SSD（右图）不仅获得不同尺度的特征映射，同时在不同的特征映射上面进行预测，它在增加运算量的同时可能会提高检测的精度，因为它具有更多的可能性。

对于BB（bounding boxes）的生成，Faster-rcnn和SSD有不同的策略，但是都是为了同一个目的，产生不同尺度，不同形状的BB，用来检测物体。对于Faster-rcnn而言，其在特定层的Feature map上面的每一点生成9个预定义好的BB，然后进行回归和分类操作来进行初步检测，然后进行ROI Pooling和检测获得相应的BB；而SSD则在不同的特征层的feature map上的每个点同时获取6个（有的层是4个）不同的BB，然后将这些BB结合起来，最后经过NMS处理获得最后的BB。浅层卷积层对边缘更加感兴趣，可以获得一些细节信息（位置信息），而深层网络对由浅层特征构成的复杂特征更感兴趣，可以获得一些语义信息，对于检测任务而言，一幅图像中的目标有复杂的有简单的，对于简单的patch我们利用浅层网络的特征就可以将其检测出来，对于复杂的patch我们利用深层网络的特征就可以将其检测出来，因此，如果我们同时在不同的feature map上面进行目标检测，理论上面应该会获得更好的检测效果。

2.2Default box 和 Prior box（先验框）

图片被送进网络之后先生成一系列 feature map，传统框架会在 feature map（或者原图）上进行 region proposal 提取出可能有物体的部分然后进行分类，这一步可能非常费时，所以 SSD 就放弃了 region proposal，而选择直接生成一系列 defaul box（筛选出prior boxes投入训练），然后以prior box 为初始bbox，将bboxes回归到正确的GT位置上去，预测出的定位信息实际上是回归后的bboxes和回归前的（prior box）的相对坐标。整个过程通过网络的一次前向传播就可以完成

Default box是指在feature map的每个单元格(cell)上都有一系列固定大小的box。SSD 训练图像中的 groundtruth 需要赋予到那些固定输出的 boxes 上，看下节Prior box概念。如上图所示，每个单元格使用了4个不同的Defalut box（虚线框，仔细看格子的中间有比格子还小的一个box），图片a中猫和狗分别采用最适合它们形状的Defalut box来进行训练。假设每个feature map cell有k个default box，那么对于每个default box都需要预测C（包括背景）个类别score和4个offset，因此如果一个feature map的大小是m*n，那么这个feature map就一共有K*m*n个default box，每个default box需要预测4个坐标相关的值和C（包括背景）个类别概率，则在m*n的特征图上面将会产生（C+4）* K * m * n个输出。这些输出个数的含义是：采用3×3的卷积核对该层的feature map卷积时卷积核的个数，包含两部分，实际code是分别用不同数量的3*3卷积核对该层feature map进行卷积：比如数量为C*K的卷积核对应confidence输出，表示每个default box的confidence，也就是类别的概率；数量为4*K的卷积核对应localization输出，表示每个default box回归后的坐标）。作者的实验也表明default box的shape数量越多，效果越好。

SSD的一个核心是同时采用lower和upper的feature maps做检测。SSD中的Defalut box和Faster-rcnn中的anchor机制很相似。就是预设一些目标预选框，后续通过softmax分类+bounding box regression获得真实目标的位置。对于不同尺度的feature map 上使用不同的Default boxes。如上图所示，我们选取的feature map包括38x38x512、19x19x1024、10x10x512、5x5x256、3x3x256、1x1x256。具体怎么得到的看下面的图。我们总共可以获得8732个box，然后我们将这些box送入NMS模块中，获得最终的检测结果。其中特征图层分别为conv4_3、conv7（fc7）、conv8_2、conv9_2、conv10_2、conv11_2。

Prior box概念：

训练中还有一个东西：Prior box，是指实际中选择的要投入训练过程的Default box（每一个feature map cell 不是k个Default box都取）。
也就是说Default box是一种概念，Prior box则是实际的选取。训练中一张完整的图片送进网络获得各个feature map，对于正样本训练来说，需要先将prior box与ground truth box做匹配，匹配成功说明这个prior box所包含的是个目标，但离完整目标的ground truth box还有段距离，训练的目的是保证default box的分类confidence的同时将prior box尽可能回归到ground truth box。
举个列子：假设一个训练样本中有2个ground truth box，所有的feature map中获取的prior box一共有8732个。那可能分别有10、20个prior box能分别与这2个ground truth box匹配上。

Permute，Flatten And Concat Layers：

对于检测到目标的真实位置，SSD 300是使用包括conv4_3在内的共计6个feature maps一同检测出最终目标的。在网络运行的时候显然不能一个feature map单独计算一次softmax socre+box regression（虽然原理如此，但是不能如此实现）。那么多个feature maps如何协同工作？这时候就要用到Permute，Flatten和Concat这3种层了。

SSD的 XX_conf 和 XX_loc层的输出，是用通道来保存特征向量的，所以这里需要将通道数调整到最后，也就是 permute所做的事情。通过该层后，数据的顺序被换成了 NHWC，再通过 flatten拉成一列。

Feature map合并方法：

现在以conv4_3和fc7为例分析SSD是如何将不同size的feature map组合在一起进行prediction。上图展示了conv4_3和fc7合并在一起的过程中shape变化（其他层类似）。
1）对于conv4_3 feature map，conv4_3_norm_priorbox（priorbox层）设置了每个点共有4个prior box。由于SSD 300共有21个分类，所以conv4_3_norm_mbox_conf的channel值为num_priorbox * num_class = 4 * 21 = 84；而每个prior box都要回归出4个位置变换量[dx，dy，dx，dymax]，所以conv4_3_norm_mbox_loc的channel值为4 * 4 = 16。
2）fc7每个点有6个prior box，其他feature map同理。
3）经过一系列图展示的shape变化后，最后拼接成mbox_conf和mbox_loc。而mbox_conf后接reshape，再进行softmax（为何在softmax前进行reshape，Faster RCNN有提及）。
4）最后这些值输出detection_out_layer，获得检测结果。

三、SSD训练过程

jaccard overlap 计算示意图（其实就是IOU，叫法不同而已）：

训练流程图：

（1）每一个 prior box 经过Jaccard系数计算和真实框的相似度。
（2）阈值只有大于 0.5 的才可以列为候选名单；假设选择出来的是N个匹配度高于百分之五十的框。
（3）我们令 i 表示第 i 个默认框，j 表示第 j 个真实框，p表示第p个类。那么表示第 i 个 prior box 匹配到第 j 个 ground truth box ，并且这个ground truth box的类别是p，若不匹配的话，则=0 。
（4）总的目标损失函数（objective loss function）为 localization loss（loc）与 confidence loss（conf）的加权求和。

损失函数 Loss计算：

类别损失：

定位损失：

Matching strategy（匹配策略）：

在训练时，ground truth boxes 与 default boxe（就是prior boxes）按照如下方式进行配对：

第一个原则：从ground truth box出发，寻找与每一个ground truth box有最大的jaccard overlap的default box，这样就能保证每一个groundtruth box一定与一个default box对应起来（所谓的jaccard overlap就是IOU，如图12）。反之，若一个prior box没有与任何ground truth进行匹配，那么该prior box只能与背景匹配，就是负样本。一个图片中ground truth是非常少的，而default box却很多，如果仅按第一个原则匹配，很多default box会是负样本，正负样本极其不平衡，所以需要第二个原则。
第二个原则：从default box出发，对剩余的还没有配对的default box与任意一个ground truth box尝试配对，只要两者之间的jaccard overlap大于阈值（一般是0.5），那么该default box也与这个ground truth进行匹配。这意味着某个ground truth可能与多个Prior box匹配，这是可以的。但是反过来却不可以，因为一个prior box只能匹配一个ground truth，如果多个ground truth与某个prior box的 IOU 大于阈值，那么default box只与IOU最大的那个Prior box进行匹配。注意：第二个原则一定在第一个原则之后进行，仔细考虑一下这种情况，如果某个ground truth所对应最大 IOU小于阈值，并且所匹配的Prior box却与另外一个ground truth的 IOU大于阈值，那么该Prior box应该匹配谁，答案应该是前者，首先要确保某个ground truth一定有一个Prior box与之匹配。但是，这种情况我觉得基本上是不存在的。由于Prior box很多，某个ground truth的最大 IOU 肯定大于阈值，所以可能只实施第二个原则既可以了。
显然配对到GT的default box就是positive，没有配对到GT的default box就是negative。只有正样本才会参与loss的计算。

Hard negative mining：

值得注意的是，一般情况下negative default boxes数量>>positive default boxes数量，直接训练会导致网络过于重视负样本，从而loss不稳定。为了保证正负样本尽量平衡，SSD在训练时采用了hard negative mining，即依据confidience loss对default box进行排序，挑选其中confidience loss高的box进行训练，将正负样本的比例控制在positive：negative=1:3。显而易见，用来训练网络的负样本为提取的负样本的子集，那么，我们当然选择负样本中容易被分错类的困难负样本来进行网络训练这样会取得更好的效果。有下面一种说法：SSD采用了hard negative mining，就是对负样本进行抽样，抽样时按照置信度误差（预测背景的置信度越小，误差越大）进行降序排列，选取误差的较大的top-k作为训练的负样本，以保证正负样本比例接近1:3。

NMS（非极大值抑制）：

在SSD算法中，NMS至关重要，因为多个feature map 最后会产生大量的BB，然而在这些BB中存在着大量的错误的、重叠的、不准确的BB，这不仅造成了巨大的计算量，如果处理不好会影响算法的性能。仅仅依赖于IOU（即预测的BB和GT的BB之间的重合率）是不现实的，IOU值设置的太大，可能就会丢失一部分检测的目标，即会出现大量的漏检情况；IOU值设置的太小，则会出现大量的重叠检测，会大大影响检测器的性能，因此IOU的选取也是一个经验活，常用的是0.65，建议使用论文中作者使用的IOU值，因为这些值一般都是最优值。即在IOU处理掉大部分的BB之后，仍然会存在大量的错误的、重叠的、不准确的BB，这就需要NMS进行迭代优化。