OverFeat: Integrated Recognition, Localization and Detection using Convolutional Networks论文阅读笔记

本文介绍了OverFeat论文,展示如何使用卷积神经网络(CNN)进行分类、定位和检测。文章提出了一种新方法,通过多尺度处理和滑窗技术在同一个CNN中整合多种任务,提高了定位和检测的准确性。此外,通过积累预测的边界框(bbox)来提升检测结果的可信度,同时避免了复杂的训练过程。实验结果显示,OverFeat在ILSVRC2013比赛中取得了优异的成绩,并可用于创建强大的特征提取器。
摘要由CSDN通过智能技术生成

OverFeat: Integrated Recognition, Localization and Detection using Convolutional Networks论文阅读笔记-2014

Abstract

我们提出了一个使用CNN用于分类、定位、检测的集成框架,展示了如何将多尺度以及滑窗方法有效的应用在一个卷积网络中,同时介绍了一种新的基于深度学习的定位方法(通过学习去预测目标的边界)。bbox之后被累积而不是抑制,以便提升检测结果的信度,我们也展示了,**可以同时使用一个shared network学习多个不同任务。**集成网络取得了ILSVRC2013定位任务的冠军,对于检测与分类任务取得很好结果。最后,我们从我们最好的模型中提出一个特征提取器,叫做OverFeat。

1.Introduction

从图片中识别出最主要的目标的类别这一任务一直以来都是一个很重要的任务。CNN在小的数据集比如Caltech-101的准确率尽管不错,但没有达到破纪录的水平。然而,大型数据集的到来使得卷积网络极大地提升了效果,比如ImageNet。

ConvNet在这些任务上的主要优点在于,整个系统是端到端训练的,输入raw pixels,输出最后categories,从而不用人工设计特征提取器。主要的不足在于,它们需要非常非常多的标注数据。

本文主要贡献点在于,展示训练一个CNN网络同时完成分类、定位以及检测,这样可以对这些任务的分类准确率和定位准确率都有所提升。文章**提出了一种新的整合方法,将目标检测、识别、定位整合到一个ConvNet中,提出了一种通过积累预测的box来完成定位和检测的方法。我们认为,通过将许多次定位的预测结果进行组合,探测过程就可以在不在背景样本训练的情况下进行,这样可以避免时间消耗以及复杂的bootstraping过程。**不在背景中训练也是的网络只关心positive classes来取得更高准确率。

虽然ImageNet分类数据集中的图像都包含一个大致位于中间且占据图像大部分的目标,但是我们感兴趣的目标有时在尺寸以及图像中的位置上变化范围很大。解决这个问题的第一个方法是在图像中多个位置使用ConvNet处理,使用滑窗的这种方式,并且多尺度处理。尽管使用这种方式,也可能会出现,滑窗正好包含一个可识别目标的一部分(比如狗的头),**而不是整个目标,也不是目标的中心。这就导致分类结果很好,但是检测和定位结果较差。**因此,第二种想法是训练一个系统,不止对每个窗口进行分类,而且生成包含与这个窗口相关的目标的位置以及bbox预测。第三种想法是在每个位置和尺寸上对每一类目标是否在该位置存在积累证据。

ImageNet在定位和分类任务都取得了很好的效果,但是并没有解释为什么会奏效,我们的文章是第一篇清晰解释为什么ConvNets可以在ImageNet上被用来定位和检测。在本文中,定位与检测这两个术语的意思与ImageNet2013竞赛中的一致,它们的唯一区别在于评估准则的(evaluation criterion)不同,都包含了对图像中每个目标预测bbox

2.Vision Tasks

我们按照难度把CV任务排序:分类、定位、检测,每一个优势后面任务的一个子任务。我们把所有任务集合到一个框架中,共享学习到的feature。接下来将分别介绍。

我们在参加了ILSVRC2013竞赛。

比赛中的分类任务是:每张图片与一个label相连接,标签指出图像中的主要目标,允许5次猜测(top-5 error rate),这是因为图像中可能存在许多小的未标记目标。

比赛中的定位任务是:同样是每张图片5次猜测,对每一个猜测返回一个预测的bbox,IoU>0.5认,同时label为正确类才为正确(每次猜测返回一个label和对应的一个bbox),一般就只有一个目标,对分类的结果的bbox进行预测。

检测任务:与定位任务的主要不同在每张图可能有很多不同的目标(也可能是0)。通过平均准确率均值(mAP)来惩罚假阳性。

下图展示了我们在定位和检测中的一些例子,分类和定位任务share同一个dataset,而检测任务由于可能包含多种目标,需要额外标注。

3.Classification

我们的分类网络结构与AlexNet类似,但是提升了网络设计和inference step。

3.1Model Design and Training

我们在ImageNet2012训练集上进行训练(1.2million,1000类),与AlexNet一样,我们训练时固定输入图像尺寸,多尺度训练在下部分介绍。每张图像下采样到最小维度256像素,随机取5个crop(221 * 221)以及它们的水平翻转,batchsize = 128,网络的权重随机初始化服从分布 ( μ , σ ) = ( 0 , 1 ∗ 1 0 − 2 ) (\mu,\sigma)=(0,1*10^{-2}) (μ,σ)=(0,1102),之后使用SGD进行优化,动量0.6,权值衰减参数1*10-5。学习率初始化为0.05,在(30,50,60,70,80)个epoah之后减半。FC层(6,7层)使用Dropout(0.5)。

在表1和表3中我们详细列出了网络结构,注意到,在训练过程中,==我们的结构输出是非空间的(non-spatial),因为输出是1 * 1 *channels的,与之相反,测试阶段,我们输出是空间的(spatial)。==前五层与AlexNet结构相似,使用了ReLU和最大池化。不同点如下,没使用对比归一化(前者的LRN?),池化层是不重叠的,在前两层我们使用更小的步长2得到了更大的特征图,更大的步长提升了速度但是影响了准确率。

图二中我们展示了前两层卷积层,第一层主要获取了方向边缘、图案样式、斑点。第二层由许多形式,一些扩散了,一些是粗线条结构和边缘。

3.2Feature Extractor

我们与论文一起发布了一个特征提取器“OverFeat”,用来为CV任务提供powerful features,有两个版本,fast/accurate。每种结构都在表1和表3中列出,表4中我们比较了它们的参数量和连接量。accurate模型比fast更准确(14.18%相比于16.39%,表2),但是它需要接近两倍的连接。使用7种accurate模型组合可以达到13.6%分类错误率。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值