论文阅读007-OverFeat-OverFeat: Integrated Recognition, Localization and Detection using Convolutional Ne

最新推荐文章于 2022-01-18 16:50:52 发布

半夜萤火虫

最新推荐文章于 2022-01-18 16:50:52 发布

阅读量228

点赞数

分类专栏：计算机视觉文章标签： overfeat 计算机视觉卷积神经网络 CV 目标识别

本文链接：https://blog.csdn.net/OTime77/article/details/96580580

版权

计算机视觉专栏收录该内容

15 篇文章 0 订阅

订阅专栏

写在前面

overfeat（2014）是在AlexNet（2012）基础上进行改进的。
overfeat与R-CNN的发布时间很相近，但是overfeat名气好像比较小，关键应该在于，R-CNN的创新点在于把Region Proposal Algorithms与CNN结合，而overfeat只是使用CNN设计了一种特征提取器。从可扩展性角度来看，后来的模型更受到R-CNN的影响。

本文重点

将卷积层-》全连接层以及全连接层-》全连接层在测试时都以卷积层-》卷积层来理解。
提出了overfeat这种特征提取器，并且设计了基于overfeat的fast和accurate两种模型。
提出了multi-scale classification多尺度分类和multi-scale input多尺度输入。
以一种框架模型完成图片分类、定位和识别。

模型由【特征提取部分+物体分类部分 & 边界框回归部分】构成，图片送入模型后，先进行特征提取，然后同时进行分类识别，在图片中框出识别到的物体。

模型设计

图片分类

步骤一：特征提取（1-5层）

参照AlexNet设计，5层卷积层（部分层后面跟有池化层）+2层全连接层+1000-way分类层。

上下图分别是fast model和accurate model，模型整体结构相差不大，主要是参数设置的改变。

前4层由如图卷积层+池化层组成
第5层由卷积层+池化+pixel offsets操作组成【本文创新点】测试时使用✔️

pixel offsets的设计思路来自于AlexNet中的扩大训练规模操作，即把图像进行10-crop后送入训练，这样做加大训练量且进行重复计算，最重要的是剪裁操作会忽略图片部分信息。因此，作者提出了一种可以更好地捕获图片完整特征的pixel offsets方法。

上图是pixel offsets的一维表示， $\Delta$ {0, 1, 2}代表三种池化，以二维来考虑，就有3x3共9种池化操作，扩宽分类尺度规模。但这种方法在之后论文中并未怎么出现，效果不显著。
注：具体解析可看 https://blog.csdn.net/App_12062011/article/details/60956357