作者认为,当前的目标检测系统虽然准确,但是对于嵌入式系统甚至高端硬件来说仍需要大量集中的计算,对于即时应用仍然太慢了。于是在本文中提出了SSD(Single Shot MultiBox Detector)。
SSD架构如下:
如图(a)SSD在训练期间仅需要每个对象的输入图像和对应的ground truth box(真实标签框)。卷积处理时,我们在具有不同尺度(例如(b)和(c)中的8×8和4×4)的若干特征图中的每个位置处评估不同横宽比的小(例如4个)默认框集合。对于每个默认框,我们预测对所有对象类别((c 1,c2,...,cp))的形状偏移和置信度。在训练时,我们首先将这些默认框匹配到ground truth box。例如,两个默认框匹配到猫和狗,这些框为正,其余视为负。模型损失是位置损失(例如Smooth L1)和置信损失(例如Softmax)之间的加权和。
对于ground truth box解释https://www.zhihu.com/question/22464082
SSD基于前馈卷积网络,其产生固定大小的边界框集合和框中对象类别的分数,接着是非最大化抑制步骤以产生最终检测。网络浅层基于高质量图像分类(在任何分类层之前截断网络)的标准网络,作者称其为“基础网络”。接着在后面添加辅助结构,产生具有以下关键特征的检测:
多尺度特征图检测:将卷积特征层添加到截断的基础网络的末尾。这些层尺寸逐渐减小,得到多个尺度检测的预测值。检测的卷积模型对于每个特征层是不同的(图中选取了VGG-16作为例子,并与YOLO进行了对比):