论文理解：SSD

最新推荐文章于 2024-08-07 21:24:34 发布

龙骑士尹志华

最新推荐文章于 2024-08-07 21:24:34 发布

阅读量1.2k

点赞数

本文链接：https://blog.csdn.net/stezio/article/details/81455785

版权

SSD（Single Shot MultiBox Detector）是为了解决目标检测系统的速度和计算需求问题而提出的。它基于前馈卷积网络，通过在不同尺度的特征图上评估默认框来实现多尺度检测。训练过程中，SSD使用Smooth L1和Softmax损失函数，通过匹配默认框与ground truth box进行学习。在检测阶段，采用非最大化抑制得到最终检测结果。SSD的优势在于其效率和准确性，适合即时应用。

摘要由CSDN通过智能技术生成

作者认为，当前的目标检测系统虽然准确，但是对于嵌入式系统甚至高端硬件来说仍需要大量集中的计算，对于即时应用仍然太慢了。于是在本文中提出了SSD（Single Shot MultiBox Detector）。

SSD架构如下：

如图（a）SSD在训练期间仅需要每个对象的输入图像和对应的ground truth box(真实标签框)。卷积处理时，我们在具有不同尺度（例如（b）和（c）中的8×8和4×4）的若干特征图中的每个位置处评估不同横宽比的小（例如4个）默认框集合。对于每个默认框，我们预测对所有对象类别（（c 1，c2，...，cp））的形状偏移和置信度。在训练时，我们首先将这些默认框匹配到ground truth box。例如，两个默认框匹配到猫和狗，这些框为正，其余视为负。模型损失是位置损失（例如Smooth L1）和置信损失（例如Softmax）之间的加权和。

对于ground truth box解释https://www.zhihu.com/question/22464082

SSD基于前馈卷积网络，其产生固定大小的边界框集合和框中对象类别的分数，接着是非最大化抑制步骤以产生最终检测。网络浅层基于高质量图像分类（在任何分类层之前截断网络）的标准网络，作者称其为“基础网络”。接着在后面添加辅助结构，产生具有以下关键特征的检测：

多尺度特征图检测：将卷积特征层添加到截断的基础网络的末尾。这些层尺寸逐渐减小，得到多个尺度检测的预测值。检测的卷积模型对于每个特征层是不同的（图中选取了VGG-16作为例子，并与YOLO进行了对比）：