OverFeat论文笔记


1. Background

OverFeat是一种特征提取器,具有以下创新之处:
(1)Bounding Box位置框回归采用累积的方法而不是非极大值抑制以增大检测置信度
(2)运用多尺度和滑动窗口的方法
(3)特征提取层输出的特征可以供多个任务共享(分类,定位,检测)
(4)输入图片大小不受限制
文章中涵盖诸多细节,我们分别从分类和定位进行阐述。

2. Classification

2.1 使用AlexNet预训练模型

因为“OverFeat”是基于AlexNet模型,所以我们先回顾AlexNet模型。
在这里插入图片描述
Training:
每张训练图片下采样为256×256,随机裁剪出224×224大小的图片(+数据增强)作为输入进行训练。
Testing:
将图片下采样为256×256,随机裁剪大小为221×221像素的五个图像以及水平翻转图像(共十个)。
10张图片预测值取均值。
不足:
(1)会忽略掉图片的很多区域,且有大量的重复计算
(2)只使用单一尺度,但这个尺度不一定能让模型给出最高置信度

2.2 Multi-scale classification(OverFeat 使用)

在这里插入图片描述
同一张图片使用6种输入尺度(可以加上图片水平翻转的6个尺度),不同尺度的输入在Conv5得到不同的分辨率特征图。

offset max-pooling
在这里插入图片描述
对于pooling size=3的操作,我们有三种池化方式,起点分别在∆=0,∆=1,∆=2处
二维池化操作,则有∆x×∆y=3×3(九种池化方式)
将九种池化结果分别送入后续的网络层,最后的图片分类输出结果种每个类别有九种概率值,对每个类别的9种概率值取最大值,作为此类别的预测概率值。

2.3 FCN的思想

OverFeat模型中,layer15为特征提取层,layer6output为分类层。
在这里插入图片描述
传统的CNN模型:输入14×14的图片数据,进行5×5的conv和2×2的pooling操作后,得到5×5的特征图,展平为1维的向量数据输入全连接层(不可以输入任意尺寸的图片数据)
FCN模型“卷积层—>全连接层”看作为对全局图像的卷积,“全连接层—>全连接层”看作为1×1的卷积核进行卷积操作。
在这里插入图片描述
FCN:若输入16×16的图片数据,网络最后输出为2×2的数据,与输入尺寸相关,对输出取均值即为结果
(用卷积网络计算滑动窗口非常的高效,重叠的区域可以共享计算数据)
对特征层直接进行sliding windows与Alexnet在网络之初对图像部分进行选取是一样的。

2.4 Training & Testing

Training:
与Alexnet类似,每张训练图片下采样为256×256,随机裁剪出221×221大小的图片作为输入进行训练。
Testing:
a. 使用6种尺度输入,网络向前传导至layer 5,得到不同大小的特征图
b. layer5-pre-pool 通过(3×3)offset进行池化,每一张特征图得到9副池化结果图
c. layer5-post-pool采用(5×5)卷积操作,并在特征图内的每个位置产生C维输出向量(C为类别数目)分类器以滑动窗口sliding windows的方式应用于池化的特征图,产生C维输出图。
d. 最终得到C×N维预测值矩阵,求取每一列的最大值作为本尺度的每个类别(C类)的概率值。
e. 六种不同尺度预测结果做平均值作为最后的结果

3 Localization

将上述网络的分类层替换为回归网络层,在每个空间位置和尺度上进行训练。
将回归预测和每个位置的分类结果结合在一起,模型最后输出class prediction + bounding box prediction
在这里插入图片描述
以281×317的图片输入为例,layer5 post-pool输出(6×7)×(3×3)的特征,经过Regression layer1-3输出2×3×3×3×C×4个(比分类多出一维:bounding box的四个坐标),损失函数采用L2 Loss function。
只采用和ground truth重合度IoU大于50%的区域进行训练。
(1)在六个尺度上运行分类网络,每个尺度选取top-k个类别。(选择置信度最高的)
(2)在六个尺度上运行bounding box网络,产生每个类别对应的bounding box集合Bs。
(3)将多个尺度的Bs融合为大集合B。
(4)重复上述步骤直到融合完成。
(5)取B中match_score最小的两个bounding box,成为b1和b2。(match_score是两个图片的距离)
(6)如果b1和b2的match_score>t(阈值),说明bounding box选取完成,算法结束
(7)否则,将B中的b1和b2去掉,加入box_merge(b1, b2),回到步骤5.(box_merge计算两个图片边界的均值)
合并具有高置信度的边界框来得到最终预测,淘汰低置信度以及低连续的类别。

总结

本文中很重要的贡献是将FCN和offset-pooling相结合,在CNN特征提取和迁移学习上起到的显著效果。并在一个卷积网络框架中通过Multi-scale和sliding windows的方式同时进行多个任务。证明多视野训练和多尺度测试的有效性。不足是对标签信息的依赖比较大,且滑动窗口法的边界框预测可能不够准确。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值