SSD-学习记录

羊村第一突破手懒羊羊

已于 2023-07-24 15:18:23 修改

阅读量41

点赞数

文章标签：目标跟踪人工智能计算机视觉

于 2023-07-24 10:43:52 首次发布

本文链接：https://blog.csdn.net/lzf767801/article/details/131891310

版权

SSD是一种单阶段的目标检测算法，通过消除提案生成和重采样阶段，实现了更快的检测速度。它在预定义的默认边界框中预测目标类别概率和框偏移，利用多尺度特征层进行检测，尤其适合实时应用。SSD基于VGG16网络，不同层预测不同大小的目标，边界框回归采用特定公式，确保预测精度。

摘要由CSDN通过智能技术生成

引入：本次学习内容基本来自于Wei Liu，Dragomir Anguelov编写的的《SSD: Single Shot MultiBox Detector》，以及部分讲解视频，本学习记录仅为个人学习收获，部分内容存在纰漏烦请各位大佬批评指正。
（一）摘要：SSD是单一的深度神经网络，将一系列不同比例和缩放的边界框放入预先设置好的默认框中，在预测阶段，神经网络会生成每个目标类别的概率在每个默认的边界框中，以及调整边界框到合适的位置。此话，该神经网络还可以对来自不同分辨率的不同特征图进行预测。因为它完全消除了proposal生成阶段和像素和特征重采样阶段，并将所有计算封装到单一网络中。

（二）发表时间：2016

（三）关键词：目标检测，卷积神经网络，单阶段检测

（四）学习记录：

作者提出，虽然现在目标检测领域发展的很不错，例如FasterRCNN在各个大赛上的表现都很好，但是它也中一定的缺陷，即计算过于密集复杂，且即使在高性能设备上也太慢了，很难做到真正的实时检测。

作者提出的SSD神经网络不需要对像素或者特征图进行重采样，以及不需要假设一系列边界框。通过使用一个小的卷积去预测目标类别以及在边界框时的偏执，使用单独的分离器去完成不同横纵比列的检测，并且在网络的后期阶段使用多个滤波器在多尺度上进行检测。最特别的是使用多层进行不同尺度的预测。比以前的尝试大大提高了精确度。

SSD的核心是使用应用于特征地图的小型卷积过滤器来预测一组固定默认边界框的类别分数和框偏移量。

为了实现高检测精度，SSD从不同比例的特征地图中生成不同比例的预测，并通过纵横比明确地分离预测。

SSD方法基于前馈卷积网络，该网络生成一组固定大小的边界框，并为这些边界框中的目标类别实例生成概率分数。接下来，通过非极大值抑制步骤产生最终的检测结果。

SSD的结构前半部分使用的是VGG16的结构，一共截止到VGG的conv5-3阶段。随后再经过自己设计的神经网络。总过会得到六个预测特征层。此后会在这六个特征层中预测目标。实验表明，来自较低层的特征图可以提高语义分割的质量，因为较低的层可以捕获更多的输入对象的细节。因此第一层一般负责预测相对较小的目标，后面再逐渐增大。

关于边界框回归问题，则有特定的公式计算，大致尺寸如图所示。