overfeat论文待续

从文章题目来看,Integrated recognition,localization and detection using convolutional network,就是将分类、定位、检测通过卷积网络整合在一起。

本文作者展示了:

1、在卷积网络中使用多尺度的滑动窗

2、介绍了通过训练深度网络来预测物体的定位框

3、可以使用一个网络同时进行多项任务

首先来理一理这分类,定位,检测的关系。

分类就是猜五个可能的类别,那就联系上常说的top5 error了。

定位就是猜五个类别的基础上加上每个类别可能的bounding box,iou>0.5才算正确。

检测任务和定位任务不同,因为可能出现任何数量的物体,通过mAP平均精度来衡量。

接下来讲分类任务:总体来讲分类任务使用的网络和alxnet相似,(这篇论文图表放置位置有点。。草率。。)

下表是fast版本的网络

clipboard

下表是accurcy版本的网络

clipboard

两个版本从层结构上来看相差不大,主要的区别在于卷积、池化核的大小和步长。总的来讲,核越小,步长越小,总体的精度就比较高。

下图就是fast版本第一层和第二层卷积核的可视化结果。

clipboard

多尺度池化:scales + offset pooling

test时候,在alexnet使用了crop的小技巧,从图片中提取224x224块,四个角落加上中间,再进行水平翻转,一共得到十个图像,然后通过十个图像结果投票。

在overfeat中放弃这种方法,原因:

1、忽略很多区域

2、很多重复的计算,造成浪费

3、只适用于单一的尺度

因此作者采用了多尺度+偏置池化的方法,其中多尺度来自于在原图片上剪裁出不同大小的6张图片。如下表:

clipboard

很明显由于输入的图片大小不一,所以卷积部分的输出特征数量是不一样的。

就像下图中,由于从输入14x14变成16x16,通过相同的卷积网络输出的特征图大小不一样。那作者又是如何连接卷积部分和fc部分呢?作者并没有将不同分辨率图片输出相同大小的feature map,而是使用了6个不同的分类器。如上图所示。

clipboard

下图是单一尺度的偏置池化的例子:

clipboard

offset设置为0,1,2,也就是初始池化的位置,也就是偏置offset,推广到二维空间中,也就是有9个初始池化的位置,然后对每个池化的结果都进行分类,这样就实现了offset pooling。而对于多尺度,只需要设置多个大小的池化核即可。

下面来看定位问题:

用回归层替换之前已经训练完的分类网络的分类层,并且训练网络使其在所有的位置和尺度上预测bbox,然后将两个回归结合在一起。

待续。。。。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值