CNN Features off-the-shelf: an Astounding Baseline for Recognition 论文笔记

本文探讨了OverFeat网络提取的卷积神经网络(CNN)特征在图像分类、场景识别、细粒度分类、属性检测和实例检索等任务上的表现。实验表明,即使未经微调,这些特征也能取得接近最先进的结果,证明了深度学习特征的通用性和有效性。
摘要由CSDN通过智能技术生成

0 摘要

    最近的结果表明,卷积神经网络提取的通用描述符非常强大。本文添加了许多证据,证明确实如此。我们针对不同识别任务进行了一系列实验,这些实验使用了OverFeat网络,经过训练后可以在ILSVRC13上进行图像分类。我们使用从OverFeat网络提取的特征作为通用图像表示来处理图像分类,场景识别,细粒度识别,属性检测和图像检索等多种识别任务。令人惊讶的是,与各种数据集上所有视觉分类任务中的最先进系统相比,我们得出了几乎一致的优异结果。结果表明,从卷积网深度学习获得的特征应该是大多数视觉识别任务的主要选择。

1 介绍

“你认为深度学习解决计算机视觉的问题奏效吗?“这个问题很可能是在你们小组的咖啡厅里提出的。对此,有人用它取得了的成功,有人提出怀疑。你可能有点沮丧地想,“需要GPU编程技巧和大量的标记数据来训练我自己的网络,可惜我没有这个时间”。最新提出的OverFeat网络开源后,我们可以进行一些实验了。我们想知道,是否不需要专门为特定的任务训练一个深度网络,而是从一个已有的深度网络中提取特征(这个特征是在ImageNet数据集上仔细训练并用于图像分类)可以用于多种视觉任务。我们现在陈述我们的讨论和一些发现,因为作为计算机视觉研究人员,您可能有同样的问题
老师:首先有其他人调查过这个问题?
学生:ZFNet等认为通用特征可以从大型CNN中提取,它们提供了一些证据来支持这种说法。 但他们只考虑了少量的视觉识别任务。 更彻底地研究这些CNN特征有多强大是很有趣的。那么我们应该如何开始?
老师:我们可以尝试的最简单的方法是从OverFeat网络中提取图像特征向量,并将其与简单的线性分类器组合起来。 图像作为输入,特征向量是来自网络最后一层的响应。 你们认为的哪一个视觉任务可以有效地应用这个方法?
学生:当然是图像分类。许多视觉小组已经在Pascal VOC数据集上取得了重大突破,相比传统的方法提升了性能。微调网络对于提升性能是必要的吗?我将在Pascal VOC数据集上进行尝试,然后在MIT场景识别数据集上遇到一点困难。
解答:OverFeat是一个很好的网络,甚至不需要经过微调。(3.2节叙述)
老师:OverFeat特征可以很好地解决一些问题,这些问题恰好就是我们训练他们要达到的目的。
ImageNet或多或少是Pascal VOC的父集。有没有OverFeat特征不能解决的问题呢?
学生:我知道的是关于细粒度的分类。 这里我们想区分一个类别的不同子类,比如不同种类的花。 你认为通用的OverFeat特性是否具有足够的代表性能力来提取非常相似的类之间潜在的细微差别?.
解答:它在标准的鸟和花数据库上运行得非常好。 它最简单的形式并没有打败最新的表现最好的方法,但它是一个更加干净的解决方案,有很大的改进余地。 实际上,采用一组简单的数据增强技术(仍然与线性SVM结合)可以胜过性能最佳的方法。令人印象深刻!(3.4节叙述)
老师:下一个挑战属性检测? 让我们来看看OverFeat特征是否对人物和对象的语义属性进行了编码。
学生:你是否认为从人的边界框中提取的全局CNN特征可以处理H3D数据集中存在的遮挡? 所有最好的方法都是在分类和训练之前进行某种部件对齐。
解答:令人惊讶的是, 它们在对象属性数据集上也工作得非常好。 也许这些OverFeat特征确实可以编码属性信息?(3.5节叙述)
老师:我们可以进一步推动其他领域吗? 与更成熟的计算机视觉系统相比,OverFeat特征会有什么难以解决的问题吗? 也许是实例检索。 这项任务促使了SIFT和VLAD描述符的发展以及后来迅速采用的视觉词袋方法。 这些高度优化的特征向量和中等水平的特征是否会胜过通用特征?
学生:如果我们开始比较包含3D几何约束的方法,我不认为CNN特征会有机会。 让我们专注于描述符的表现吧。新派的描述符是否击败了旧派的描述符?
解答:非常正确。 忽略3D几何约束的系统,CNN特征非常具有竞争力(第4节)。 此外,与标准实例检索特征处理(即PCA,白化)相比,它在所有检索基准上表现出优越的性能。
老师:SIFT和HOG描述符十年前产生了巨大的性能提升,现在深度卷积特征在识别领域提供了类似的突破。 无论如何,如果您为识别任务开发任何新算法,则必须将其与通用深度特征+简单分类器的强基线进行比较。

2 背景和大纲

    本文,我们使用公开的CNN网络OverFeat。该网络的结构遵循AlexNet的结构。卷积层每个包含96到1024个大小为3×3到7×7的卷积核。ReLU作为非线性激活。大小为3×3和5×5的最大池化用于不同层以增加对类内变形的鲁棒性。我们使用OverFeat网络的“大”版本。它需要输入尺寸为221×221的彩色图像。OverFeat针对ImageNet ILSVRC 2013的图像分类任务进行了训练,并在2013年挑战的分类任务获得了非常有竞争力的结果。 ILSVRC13包含120万个图像,手动标记1000个类别。
    我们列举了一系列针对不同识别任务进行的实验的结果。这些任务和数据集的选择所执行的任务和OverFeat网络解决的图像分类任务不一样。 第三节介绍视觉分类任务,第四节介绍视觉实例检索任务。所使用的CNN特征仅使用ImageNet数据进行训练,线性分类器使用特定于任务的数据集图像进行训练。 最后,我们必须指出,如果有足够的计算资源,为特定任务/数据集优化CNN特征可能会进一步提升系统的性能。

3 视觉分类

3.1 方法

    对于所有的实验,除非另有说明,我们使用网络的第一个完全连接层响应(第22层)作为特征向量。最大池化层和ReLU在OverFeat中被视为一个单独的层,与AlexNet不同。对于所有的实验,我们将整个图像(或裁剪的子窗口)的大小调整为221×221。 最后输出了一个4096维的向量。 我们有两个设置:
1.对于所有实验,特征向量被进一步使用L2正则化进行归一化。 我们使用4096维特征向量与支持向量机(SVM)结合来解决不同的分类任务(CNN-SVM)
2.我们进一步对训练集进行数据增强。通过裁剪和旋转图像。在结果中记为:CNNaug + SVM
    对于训练数据集

  • 3
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值