OverFeat: Integrated Recognition, Localization and Detection using Convolutional Networks 论文笔记

最新推荐文章于 2021-08-30 19:50:33 发布

cherry_yu08

最新推荐文章于 2021-08-30 19:50:33 发布

阅读量411

点赞数

分类专栏：深度学习与计算机视觉文章标签： CNN 计算机视觉

本文链接：https://blog.csdn.net/cherry_yu08/article/details/81072619

版权

深度学习与计算机视觉专栏收录该内容

30 篇文章 19 订阅

订阅专栏

1、解决什么问题

使用一个卷积网络同时解决三个问题：分类、定位和检测（Recognition、Localization and Detection）。这个合成网络结构是ILSVRC3的winner。并且论文表明，训练一个卷积网络同时实现分类、定位和检测，可以同时提高这三类任务的准确率（定位的功能能够标出物体，将物体与背景分割开，这样有利于检测）
介绍了一种新颖的定位的检测方法：累加预测边框（by accumulating predicted bounding boxes.）。
展示了在卷积网络中使用多尺度滑动窗口的方法。
提出一个新颖的深度学习方法：通过学习如何预测物体边界从而达到定位的效果。然后累加而不是抑制（supress）这些边框从而增加检测的准确率。
发布了特征提取器：OverFeat。

2、使用什么方法

mageNet数据集上的分类图片，物体大致分布在图片中心,但是感兴趣的物体常常在尺寸和位置上有变化，有三个处理步骤：
1. 尺寸—同一张图采用不同比例缩放；位置—滑动窗口。在图片的多个位置上使用卷积网络；但是这种方法会造成一个问题：边框只包含物体的一部分，有利于classification而不利于localization和detection。
2. 对每一个窗口，不仅对类别预测一个分布，同时对边框的位置和大小也做预测；
3. 在每一个位置和大小处，为每一个类别的evidence做累加。
检测任务（detection）中包含很多小物体，而分类和定位任务（classification and localization）中仅包含单个的大物体。
classification、localization和detection，每一个任务是后一个任务的子任务，后面分类介绍。

前两个卷积层的filter如下图所示，第一个用于提取定向的边缘（orientated edges），pattern 和斑点（blob）；第二层测filter有各种各样的形式，有一些是分散的（diffuse），有一些有强烈的线性结构或定向边缘。
这里写图片描述

在图片的每个location的多个尺度，都使用了卷积网络，图片与网络卷积的结果是一个c维向量，在每个尺度都有一个这样的向量。
网络窗口和物体对齐的越好，网络的confidence就越好，将子采样率（subsampleing ratio）从36降低到12。
如何实现分辨率增强（resolution augmentation）
3.3 多尺度分类是如何实现的？

卷积网络和滑动窗口的效率：
很多滑动窗口的方法是，一次只计算一张图片的一个window，而卷积网络可以共享重叠区域（覆盖区域）的计算，如下图，自下而上卷积运算，与相邻区域窗口相同的计算只需执行一次。测试的时候将网络后面的全连接层换成1*1的卷积层。
这里写图片描述

定位（localization）

在上个分类网络的基础之上，用一个回归网络替换分类网络的分类层，并训练网络，在每一个空间位置和尺度（spatial location and scale）预测物体的边框。然后将回归预测结果与每个位置的分类结果相结合。
为了生成对象边界框预测，我们同时在所有位置和尺度上运行分类器和回归网络。由于它们共享相同的特征提取层，因此在计算分类网络之后，只需要重新计算最终的回归层。每个位置的类c的最终softmax层的输出提供了在相应视野中存在类c的对象（但不一定完全包含）的预测分数。因此，我们可以为每个边界框分配一个置信值（confidence）。
这里写图片描述

这里写图片描述

检测（detection）

在检测任务中，图像多个位置可能被同时训练，所有位置的参数是共享的，与定位任务的主要不同点是，图片内没有物体的时候，需要预测背景。
在训练的时候使用负面例子，进行negative training。

解释ConvNets如何有效地用于检测和本地化任务。

3、相关工作

从1990年开始就提出了多尺度滑动窗口，用于卷积网络的detection和localization。
直接使用卷积网络预测特征的参数值，如位置、姿态等。
提出基于用卷积网络实现分割，从而实现目标定位。
判断观察窗口（viewing window）中心像素的类别，实现语义分割（pixcel level），这种方法的好处是边框轮廓不必是矩形的，观察对象也不必是边界清晰的物体。缺点是需要像素级别的label。这属于分割预处理或者对象提议方法（segmentation pre-processing or object proposal step），这些方法是通过减少不太可能的对象区域（unlikely object regions），从而降低潜在的误报（false positive）。本论文提出的密集移动窗口方法在ILSVRC13中比这些object proposal methods好。
krizhevsky等人使用大的卷积网络在分类任务上取得了好成绩。他们并赢得了ImageNet 2012分类和定位的比赛，但是他们没有发表具体使用的方法，所以这篇论文是第一篇，清晰的解释了卷积网络如何用于imagenet数据的定位和检测任务。

4、效果

同时分类、定位和检测，应用于ILSVRC 2013数据集，目前在分类中排名第4，在本地化中排名第1，在检测中排名第1。

5、还存在什么问题

提出一种多尺度滑动窗口的方法，用于同时分类、定位和检测。
会在几个方面需要改善。
（i）在定位实验中，没有整个网络进行反向传播训练。
（ii）使用ℓ2损失，而不是直接优化测量性能的交叉联合（IOU）标准。如果存在一些重叠，因此IOU仍然是可微分的，因此应该可以将损失交换到此。
（iii）边界框的替代参数化可能有助于对输出进行去相关，这将有助于网络训练。

6、论文相关知识点

卷积网络的崛起
在首写字母识别、交通标志等小数据集中，卷积网络虽然效果不错，但是并没有很显眼的成绩，知道类似于1000个类别的ImageNet这样的大数据集的出现，使得卷积网络取得了the-state-of-the-art的好成绩。
端到端的学习（end-to-end）
不用预处理、特征提取等步骤，直接由未经处理的pixel得到所属的类别。