SSD: Single Shot MultiBox Detector

Abstract

  • 我们提出了一种利用单一深度神经网络检测图像中物体的方法。 我们的方法称为ssd,它将边界框的输出空间离散为一组默认框,这些框具有不同的纵横比和每个要素地图位置的比例。在预测时,网络为每个默认框中每个对象类别的存在生成分数,并对框进行调整以更好地匹配对象形状。 
  • 网络将来自具有不同分辨率的多个特征图的预测组合在一起以自然地处理各种尺寸的对象。SSD相对于需要对象提议的方法而言是简单的,因为它完全消除了提议生成和后续像素或特征重采样阶段,并将所有计算封装在单个网络中。这使得SSD易于训练并且可以直接集成到需要检测组件的系统中。

Introduction

  • 当前最先进的物体检测系统是以下方法的变体:假设每个框的边界框,重新采样像素或特征,并应用高质量的分类器。
  • 这些方法的检测速度通常以每帧秒数(SPF)来测量,甚至最快的高精度检测器,更快的R-CNN,仅在7帧持续时间(FPS)下运行。已经有许多尝试通过攻击检测管道的每个阶段来构建更快的检测器,但到目前为止,显着提高速度只是以显着降低检测精度为代价。
  • 本文介绍了一个基于深度网络的物体探测器,该探测器不会对边界框假设重新采样像素或特征,并且与该方法一样准确。速度的根本改进来自限制边界框提议和随后的像素或特征重采样阶段。
  • 我们的改进包括使用小卷积滤波器预测边界框位置中的对象类别和偏移,使用单独的预测器(滤波器)进行不同的宽高比检测,并将这些滤波器应用于网络后期的多个特征图以便执行多尺度检测。通过这些修改 - 特别是使用多个层进行不同尺度的预测 - 我们可以使用相对低分辨率的输入实现高精度,进一步提高检测速度。
  • 我们推出SSD,一种用于多种类别的单次探测器,比单次探测器(YOLO)的先前技术更快,并且显着更准确,实际上与执行显式区域提议的较慢技术一样准确 和汇集(包括更快的R-CNN)。
  • SSD的核心是使用应用于特征映射的小卷积滤波器来预测固定的一组默认边界框的类别得分和盒子偏移。
  • 为了获得高检测精度,我们从不同尺度的特征图产生不同尺度的预测,并通过纵横比明确地分开预测。
  • 即使在低分辨率输入图像上,这些设计特征也可实现简单的端到端训练和高精度,从而进一步提高速度与精度之间的权衡。

The Single Shot Detector

  • SSD方法基于前馈卷积网络,该网络生成固定大小的边界框集合以及在这些框中存在对象类实例的分数,然后是非最大抑制步骤以产生最终检测。
  • 早期的网络层基于用于高质量图像分类的标准体系结构(在任何分类层之前截断),我们将其称为基础网络2。 然后,我们将辅助结构添加到网络中,以生成具有以下主要功能的检测:
  1. 我们将卷积特征层添加到截断的基础网络的末尾。 这些层的尺寸逐渐减小,并允许在多个尺度上预测检测。 用于预测检测的卷积模型对于每个特征层是不同的。
  2. 每个添加的特征层(或可选地来自基础网络的现有特征层)可以使用一组卷积滤波器产生固定的一组检测预测。这些在图2中的SSD网络架构之上表示。对于具有p个通道的大小为m×n的特征层,用于预测潜在检测的参数的基本元素是3×3×p个小内核,其产生类别的分数,或相对于默认框坐标的形状偏移。 在应用内核的m×n个位置中的每一个处,它产生输出值。 相对于每个特征映射位置的默认盒位置测量边界框偏移输出值(参见YOLO [5]的体系结构,该体系结构使用中间完全连接层而不是卷积滤波器用于该步骤)。
  3. 我们将一组默认边界框与每个要素图单元关联,以用于网络顶部的多个特征图。默认框以卷积方式平铺要素图,以便固定每个框相对于其对应单元格的位置。 在每个要素图单元格中,我们预测相对于单元格中默认框形状的偏移量,以及指示每个框中是否存在类实例的每个类别得分。
  • 训练SSD和训练使用区域建议的典型探测器之间的关键区别在于,需要将地面实况信息分配给固定的探测器输出组中的特定输出。
  • 在训练期间,我们需要确定哪些默认框对应于地面实况检测并相应地训练网络。对于每个地面实况框,我们从默认框中选择,这些框在位置,宽高比和比例上有所不同。我们首先将每个地面实况框与具有最佳jaccard重叠的默认框匹配。与MultiBox不同,我们将默认框与jaccard重叠高于阈值(0.5)的任何基础事实匹配。这简化了学习问题,允许网络预测多个重叠默认框的高分,而不是要求它只选择具有最大重叠的框。
  • 为了处理不同的对象尺度,一些方法[4,9]建议以不同的尺寸处理图像并随后组合结果。然而,通过利用来自单个网络中的若干不同层的特征图进行预测,我们可以模仿相同的效果,同时还在所有对象尺度上共享参数。
  • 之前的作品[10,11]已经表明,使用较低层的特征图可以提高语义分割质量,因为较低层捕获输入对象的更多细节。同样,[12]表明从特征图中添加全局上下文可以帮助平滑分割结果。在这些方法的推动下,我们使用下部和上部特征图进行检测。
  • 已知网络中不同级别的特征图具有不同的(经验)接收场尺寸[13]。 幸运的是,在SSD框架内,默认框不一定需要与每层的实际接收字段相对应。我们设计了默认框的平铺,以便特定的特征图学习对特定的对象尺度进行响应。假设我们想要使用m个特征映射进行预测。每个特征图的默认框的比例计算如下:
  • 通过结合来自许多特征图的所有位置的具有不同比例和纵横比的所有默认框的预测,我们具有多种预测,涵盖各种输入对象尺寸和形状。
  • 在匹配步骤之后,大多数默认框都是底片,尤其是当可能的默认框的数量很大时。 这在积极和消极的训练例子之间引入了显着的不平衡。我们不是使用所有的负面例子,而是将每个默认框中的最高信度损失排序,然后选择最高限度,使得负数与正数之间的比例最多为3:1。
  • 为了使模型对各种输入对象大小和形状更加健壮,每个训练图像通过以下选项之一随机采样:
  1. 使用整个原始输入图像。
  2. 对patch进行采样,使最小的jaccard与对象重叠为0.1,0.3,0.5,0.7或0.9。
  3. 随机抽样patch。
  • 每个采样补丁的大小是原始图像大小的[0.1,1],纵横比在1/2和2之间。如果它的中心位于采样补丁中,我们保留groundtruth框的重叠部分。 在上述采样步骤之后,除了应用与[14]中描述的类似的一些光度度失真之外,每个采样的贴片被调整大小以固定大小并且以0.5的概率水平地翻转。

Related Work

  • 在图像中有两种用于物体检测的方法,一种基于滑动窗口,另一种基于区域建议分类。在卷积神经网络出现之前,这两种方法的最新技术 - 可变形零件模型(DPM)和选择性搜索 - 具有可比性。然而,在R-CNN [22]带来的显着改进之后,区域提议对象检测方法变得普遍,后者结合了选择性搜索区域提议和基于卷积网络的后分类。
  • SPPnet [9]显着加速了原始的R-CNN方法。 它引入了一个空间金字塔池层,它对区域大小和比例更加稳健,并允许分类层重用在多个图像分辨率下生成的特征图上计算的特征。
  • 快速R-CNN [6]扩展了SPPnet,因此它可以对所有层进行最终调整,最后通过最小化的方法来保存和保存边界框,这是MultiBox [7]中首次引入的学习对象。
  • 我们的SSD与快速R-CNN中的区域提议网络(RPN)非常相似,我们还使用一组固定的(默认)框进行预测,类似于RPN中的锚。 但是,我们不是使用它们来汇集功能并评估另一个分类器,而是同时为每个框中的每个对象类别生成一个分数。 因此,我们的方法避免了将RPN与快速R-CNN合并的复杂性,并且更容易训练,更快,更直接地集成到其他任务中。
  • 另一组与我们的方法直接相关的方法完全跳过提议步骤,直接预测多个类别的边界框和置信。OverFeat [4]是滑动窗口方法的深层版本,在知道了底层对象类别的置信度后,直接从最顶层要素图的每个位置预测一个边界框。
  • YOLO [5]使用整个最顶层的特征映射来预测多个类别和边界框(这些类别共享)的置信度。 我们的SSD方法属于此类别,因为我们没有提议步骤但使用默认框。如果我们使用整个最顶层的特征图并添加一个完全连接的层来进行预测而不是我们的卷积预测器,并且没有明确考虑多个宽高比,我们可以大致重现YOLO [5]。

Conclusions

  • 本文介绍了SSD,一种用于多种类别的快速单次物体探测器。我们模型的一个关键特性是使用附加到网络顶部的多个特征映射的多尺度卷积边界框输出。这种表示使我们能够有效地模拟可能的盒子形状的空间。与现有方法相比,我们构建的SSD模型至少有一个数量级的盒子预测采样位置,比例和纵横比。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值