OverFeat: Integrated Recognition, Localization and Detection using Convolutional Networks 论文笔记

1、解决什么问题

  • 使用一个卷积网络同时解决三个问题:分类、定位和检测(Recognition、Localization and Detection)。这个合成网络结构是ILSVRC3的winner。并且论文表明,训练一个卷积网络同时实现分类、定位和检测,可以同时提高这三类任务的准确率(定位的功能能够标出物体,将物体与背景分割开,这样有利于检测)
    介绍了一种新颖的定位的检测方法:累加预测边框(by accumulating predicted bounding boxes.)。
  • 展示了在卷积网络中使用多尺度滑动窗口的方法。
  • 提出一个新颖的深度学习方法:通过学习如何预测物体边界从而达到定位的效果。然后累加而不是抑制(supress)这些边框从而增加检测的准确率。
  • 发布了特征提取器:OverFeat。

2、使用什么方法

  • mageNet数据集上的分类图片,物体大致分布在图片中心,但是感兴趣的物体常常在尺寸和位置上有变化,有三个处理步骤:
    1. 尺寸—同一张图采用不同比例缩放;位置—滑动窗口。在图片的多个位置上使用卷积网络;但是这种方法会造成一个问题:边框只包含物体的一部分,有利于classification而不利于localization和detection。
    2. 对每一个窗口,不仅对类别预测一个分布,同时对边框的位置和大小也做预测;
    3. 在每一个位置和大小处,为每一个类别的evidence做累加。
  • 检测任务(detection)中包含很多小物体,而分类和定位任务(classification and localization)中仅包含单个的大物体。
    这里写图片描述
  • classification、localization和detection,每一个任务是后一个任务的子任务,后面分类介绍。
分类(classification)

分类时输入数据的尺寸一样,定位和检测的输入数据尺寸不一样。
原始图像下采样至256像素,然后将图片进行五次随机剪切并翻转(?),得到大小为221*221像素的图片,作为卷积网络的输入值;
网络参数:
mini-batch=128;
权重随机初始化为(µ, σ) = (0, 1 × 10 −2 )
采用随机梯度下降(stochastic gradient descent)训练
momentum = 0.6
l2 weight decay(l2正则化?) = 1 × 10 −5
learning rate 初始化为5 × 10 −2,在(30, 50, 60, 70, 80)epochs后降低0.5倍
全连接层的dropout=0.5
网络结构如下:(大的stride能提高训练速度但是对准确率不利)
这里写图片描述

前两个卷积层的filter如下图所示,第一个用于提取定向的边缘(orientated edges),pattern 和斑点(blob);第二层测filter有各种各样的形式,有一些是分散的(diffuse),有一些有强烈的线性结构或定向边缘。
这里写图片描述

在图片的每个location的多个尺度,都使用了卷积网络,图片与网络卷积的结果是一个c维向量,在每个尺度都有一个这样的向量。
网络窗口和物体对齐的越好,网络的confidence就越好,将子采样率(subsampleing ratio)从36降低到12。
如何实现分辨率增强(resolution augmentation)
3.3 多尺度分类是如何实现的?

卷积网络和滑动窗口的效率:
很多滑动窗口的方法是,一次只计算一张图片的一个window,而卷积网络可以共享重叠区域(覆盖区域)的计算,如下图,自下而上卷积运算,与相邻区域窗口相同的计算只需执行一次。测试的时候将网络后面的全连接层换成1*1的卷积层。
这里写图片描述

定位(localization)

在上个分类网络的基础之上,用一个回归网络替换分类网络的分类层,并训练网络,在每一个空间位置和尺度(spatial location and scale)预测物体的边框。然后将回归预测结果与每个位置的分类结果相结合。
为了生成对象边界框预测,我们同时在所有位置和尺度上运行分类器和回归网络。 由于它们共享相同的特征提取层,因此在计算分类网络之后,只需要重新计算最终的回归层。 每个位置的类c的最终softmax层的输出提供了在相应视野中存在类c的对象(但不一定完全包含)的预测分数。 因此,我们可以为每个边界框分配一个置信值(confidence)。
这里写图片描述

这里写图片描述

检测(detection)

在检测任务中,图像多个位置可能被同时训练,所有位置的参数是共享的,与定位任务的主要不同点是,图片内没有物体的时候,需要预测背景。
在训练的时候使用负面例子,进行negative training。

  • 解释ConvNets如何有效地用于检测和本地化任务。

3、相关工作

  • 从1990年开始就提出了多尺度滑动窗口,用于卷积网络的detection和localization。
  • 直接使用卷积网络预测特征的参数值,如位置、姿态等。
  • 提出基于用卷积网络实现分割,从而实现目标定位。
    判断观察窗口(viewing window)中心像素的类别,实现语义分割(pixcel level),这种方法的好处是边框轮廓不必是矩形的,观察对象也不必是边界清晰的物体。缺点是需要像素级别的label。这属于分割预处理或者对象提议方法(segmentation pre-processing or object proposal step),这些方法是通过减少不太可能的对象区域(unlikely object regions),从而降低潜在的误报(false positive)。本论文提出的密集移动窗口方法在ILSVRC13中比这些object proposal methods好。
  • krizhevsky等人使用大的卷积网络在分类任务上取得了好成绩。他们并赢得了ImageNet 2012分类和定位的比赛,但是他们没有发表具体使用的方法,所以这篇论文是第一篇,清晰的解释了卷积网络如何用于imagenet数据的定位和检测任务。

4、效果

同时分类、定位和检测,应用于ILSVRC 2013数据集,目前在分类中排名第4,在本地化中排名第1,在检测中排名第1。

5、还存在什么问题

提出一种多尺度滑动窗口的方法,用于同时分类、定位和检测。
会在几个方面需要改善。
(i)在定位实验中,没有整个网络进行反向传播训练。
(ii)使用ℓ2损失,而不是直接优化测量性能的交叉联合(IOU)标准。如果存在一些重叠,因此IOU仍然是可微分的,因此应该可以将损失交换到此。
(iii)边界框的替代参数化可能有助于对输出进行去相关,这将有助于网络训练。

6、论文相关知识点

  • 卷积网络的崛起
    在首写字母识别、交通标志等小数据集中,卷积网络虽然效果不错,但是并没有很显眼的成绩,知道类似于1000个类别的ImageNet这样的大数据集的出现,使得卷积网络取得了the-state-of-the-art的好成绩。
  • 端到端的学习(end-to-end)
    不用预处理、特征提取等步骤,直接由未经处理的pixel得到所属的类别。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值