OverFeat: Integrated Recognition, Localization and Detection using Convolutional Networks

最新推荐文章于 2021-03-11 10:58:09 发布

铿锵的玫瑰

最新推荐文章于 2021-03-11 10:58:09 发布

阅读量454

点赞数

分类专栏：论文大全

本文链接：https://blog.csdn.net/LYKymy/article/details/97394273

版权

论文大全专栏收录该内容

162 篇文章 9 订阅

订阅专栏

Abstract

我们提出了一个使用卷积网络进行分类，定位和检测的集成框架。我们展示了如何在ConvNet中有效地实现多尺度和滑动窗口方法。我们还引入了一种新的深度学习方法，通过学习预测对象边界来实现本地化。然后累积而不是抑制边界框以增加检测信度。我们表明，使用一个共享网络可以同时学习不同的任务。
该集成框架是ImageNet2013大型视觉识别挑战（ILSVRC2013）本地化任务的赢家，在检测和分类任务方面获得了非常有竞争力的结果。
在赛后工作中，我们为检测任务建立了一种新的技术状态。最后，我们从我们最好的模型overfeat中发布了一个特性提取器。

Introduction

ConvNets对许多此类任务的主要优点是整个系统从原始像素到最终类别进行端到端的训练，从而减轻了手动设计合适的特征提取器的要求。主要的缺点是他们对标记的训练样本的贪婪胃口。本文的主要目的是证明训练卷积网络同时对图像中的目标进行分类、定位和检测，可以提高分类精度和所有任务的检测定位精度。
本文提出了一种新的集成方法，可通过单个ConvNet进行对象检测，识别和本地化。我们还通过累积预测的边界框引入了一种新的定位和检测方法。我们建议通过组合许多定位预测，可以在不对背景样本进行训练的情况下执行检测，并且可以避免耗时且复杂的自举训练通过。不进行背景训练也可以让网络专注于积极的课程，以获得更高的准确性。
虽然来自ImageNet分类数据集的图像主要被选择为包含填充大部分图像的粗略对象，但感兴趣的对象有时在图像中的大小和位置上显着变化。解决这个问题的第一个想法是在图像中的多个位置，以滑动窗口方式和多个尺度应用ConvNet。然而，即便如此，许多观察窗可能包含物体的完全可识别部分（例如，狗的头部），但不包括整个物体，甚至物体的中心。这导致了良好的分类，但定位和检测不佳。因此，第二个想法是训练系统不仅为每个窗口产生类别的分布，而且还产生包含相对于窗口的对象的边界框的位置和大小的预测。第三个想法是在每个位置和大小累积每个类别的证据。
其他作者建议通过基于convnet的分割来实现对象的定位。最简单的方法是训练convnet将其查看窗口的中心像素（或体素）分类为区域之间的边界。但是当必须对区域进行分类时，最好执行语义分割。主要思想是训练ConvNet使用窗口作为决策的上下文，将查看窗口的中心像素与其所属对象的类别进行分类。这种方法的优点是边界轮廓不必是矩形，并且区域不需要是界限良好的对象。缺点是它需要密集的像素级标签进行训练。这种分割前处理或对象建议步骤最近在传统的计算机视觉中得到了广泛的应用，以减少检测的位置、比例和纵横比的搜索空间。此外，表明这些方法通过大幅减少不太可能的对象区域来提高准确性，从而减少潜在的误报。然而，我们的密集滑动窗口方法能够胜过ILSVRC13检测数据集上的对象建议方法。

Vision Tasks

在本文中，我们以不断增加的顺序探索三种计算机视觉任务：（i）分类，（ii）定位，以及（iii）检测。每个任务都是下一个任务的子任务。虽然使用单个框架和共享功能学习库来处理所有任务，但我们将在以下部分中单独描述它们。在整篇论文中，我们报告了2013年ImageNetLarge规模视觉识别挑战（ILSVRC2013）的结果。在该挑战的分类任务中，为每个图像分配与图像中的主要对象相对应的单个标签。允许五个猜测找到正确的答案（这是因为图像也可以包含多个未标记的对象）。
本地化任务类似于每个图像允许5次猜测，但此外，每次猜测都必须返回预测对象的边界框。为了被认为是正确的，预测框必须与地面真实匹配至少50％（使用PASCAL联合交叉标准），以及用正确的类标记（即每个预测是一个相关的标签和边界框）一起。检测任务与定位的不同之处在于每个图像中可以有任意数量的对象（包括零），并且误报通过平均精度（mAP）度量来惩罚。

Classification

我们在ImageNet 2012培训集上训练网络（120万张图像和C = 1000类）。我们的模型使用Krizhevsky等人提出的相同的固定输入尺寸方法。对每个图像进行下采样，使得最小尺寸为256个像素。然后，我们提取大小为221x221像素的5个随机作物（及其水平图像），并以128个小批量的形式将这些作物呈现给网络。网络中的权重随机初始化为（μ，σ）=（0,1×10-2）。然后通过随机梯度下降更新它们，同时动量项为0.6，ℓ2重量衰减为1×10-5。习率最初为5×10-2，并且在（30,50,60,70,80）个时期之后连续减少0.5倍。 DropOut [11]的速率为0.5，用于分类器中的完全连接层（第6和第7层）。
1-5层与Krizhevsky等人相似。 [15]，使用矫正（“relu”）非线性和最大池，但有以下差异：（i）没有使用对比度归一化; （ii）汇集区域不重叠;（iii）我们的模型具有较大的第1层和第2层特征图，感谢较小的步幅（2而不是4）。
在[15]中，多视图投票用于提高性能：固定10个视图（4个角和中心，水平fl ip）的固定组。然而，这种方法可以忽略图像的许多区域，并且当视图重叠时在计算上是冗余的。此外，它仅适用于单一规模，这可能不是ConvNet以最佳信心响应的规模。相反，我们通过在每个位置和多个尺度密集运行网络来探索整个图像。虽然滑动窗口方法对于某些类型的模型可能在计算上是禁止的，但在ConvNets的情况下它本身就是高效的。这种方法可以为投票提供更多的观点，从而提高稳健性，同时保持高效率。将ConvNet卷积在任意大小的图像上的结果是每个尺度的C维向量的空间图。
然而，上述网络中的总二次采样比率是2x3x2x3或36.因此，当密集应用时，该架构只能沿着每个轴在输入维度中每36个像素产生一个分类矢量。与10视图方案相比，这种粗略的输出分布降低了性能，因为网络窗口与图像中的对象没有很好地对齐。网络窗口和对象越好对齐，网络响应的信心最强。为了避免这个问题，我们采取类似于Giusti等人提出的方法。并在每个偏移处应用最后一个子采样操作。这消除了该层的分辨率损失，产生的总二次采样率为x12而不是x36。
这些操作可以被视为通过池化层将分类器的观察窗口移动1个像素而不进行子采样并且在下一层中使用跳过内核（其中邻域中的值是非相邻的）。或者等效地，在每个可能的偏移处应用最终池化层和完全连接的堆栈，并通过交错输出来组合结果。对于每个图像的水平方向版本重复上述过程。然后，我们通过（i）在每个等级和每个等级中获取每个类别的空间最大值来产生最终分类; （ii）对来自不同尺度和平面的所得C维向量进行平均，以及（iii）从平均类向量中取出前1或前5个元素（取决于评估标准）。
与许多一次计算一个输入窗口的整个管道的滑动窗口方法不同，当以滑动方式应用时，convnets固有地效率很高，因为它们自然共享重叠区域的公共计算。当在测试时将我们的网络应用于更大的图像时，我们只需将每个卷积应用于整个图像的范围。这将扩展每个层的输出以覆盖新的图像大小，最终生成输出类预测的映射，为输入的每个“窗口”（视野）提供一个空间位置。

Localization

为了生成对象边界框预测，我们同时在所有位置和比例上运行分类器和回归网络。由于它们共享相同的特征提取层，因此在计算分类网络之后，只需要重新计算最终的回归层。每个位置的类c的最终softmax层的输出提供了在相应的视场中存在类c的对象（但不一定完全包含）的信度分数。因此，我们可以为每个边界框分配一个置信度。回归网络将来自第5层的合并特征映射作为输入。它具有2个完全连接的隐藏层，大小分别为4096和1024个通道。最终输出层有4个单位，用于指定边界框边缘的坐标。与分类一样，整个都有（3x3）个拷贝，由Δx，Δy位移产生。该体系结构如图8所示。
我们从分类网络中找到特征提取层（1-5），并使用每个例子的预测边界框和真实边界框之间的l2损失训练回归网络。最终的回归层是类特定的，有1000个不同的版本，每个类一个。我们使用与第3节中描述的相同的比例集来训练该网络。我们将每个空间位置处的回归网络的预测与地面实况边界框进行比较，将其转换为回归量在卷积内的平移偏移的参照系。（见图8）。但是，我们不会在与输入视场的重叠小于50％的边界框上训练回归量：由于对象大部分位于这些位置之外，因此包含该对象的回归窗口将更好地处理它。
以多尺度方式训练回归量对于跨尺度预测组合是重要的。单一规模的培训将在该规模上表现良好，并且仍然在其他规模上合理地执行。然而，多尺度训练将使得预测在各尺度上正确匹配，并且指数地增加合并预测的置信度。反过来，这使我们只能在几个尺度上表现良好，而不是通常在检测中的许多尺度。行人检测[25]中从一个尺度到另一个尺度的典型比率约为1.05到1.1，但是这里我们使用大约1.4的大比率（这个数字因每个尺度而不同，因为尺寸被调整到恰好是我们网络的步幅）这使我们能够更快地运行我们的系统。

Discussion

我们提出了一种多尺度滑动窗口方法，可用于分类，定位和检测。我们将其应用于ILSVRC 2013数据集，目前在分类中排名第4，在本地化和第1检测中排名第1。本文的第二个重要贡献是解释ConvNets如何有效地用于检测和本地化任务。这些从未在[15]中得到解决，因此我们首先解释如何在ImageNet 2012的背景下完成。我们提出的方案涉及对分类设计的网络的实质性修改，但清楚地证明ConvNets能够满足这些要求。更具挑战性的任务我们的本地化方法赢得了2013年ILSVRC竞赛，并且明显优于2012年和2013年的所有方法。在比赛期间，检测模型是表现最佳的，并且在赛后结果中排名第一。我们提出了一种集成管道，可以执行不同的任务，同时共享一个共同的特征提取基础，完全从像素中学习。
我们的方法可能会在几个方面得到改善。（i）对于本地化，我们目前没有通过整个网络支持; 这样做可能会提高性能。（ii）我们使用ℓ2损失，而不是直接优化测量性能的交叉联合（IOU）标准。如果存在一些重叠，因此IOU仍然是可微分的，因此应该可以将损失交换到此。（iii）边界框的替代参数化可能有助于对输出进行去相关，这将有助于网络训练。