论文阅读(1)-分类之ZFNet

leu_mon

已于 2022-11-13 15:59:22 修改

阅读量427

点赞数

分类专栏：论文阅读分类文章标签：分类深度学习 cnn

于 2022-07-02 10:34:21 首次发布

论文阅读同时被 2 个专栏收录

3 篇文章 0 订阅

订阅专栏

分类

3 篇文章 0 订阅

订阅专栏

ZFNet

作者：Matthew D. Zeiler and Rob Fergus

单位：New York University

时间：ECCV，ILSVRC 2013冠军

题目：Visualizing and understanding convolutional networks

摘要

大型卷积网络模型最近在 ImageNet 基准测试上表现出了良好的分类性能 Krizhevsky 等（alexnet）。然而，人们还没有明确的理解他们为什么表现如此之好，或者如何改进它们。在本文中，我们将探讨这两个问题。我们介绍了一种新的可视化技术，可以深入了解中间特征层的功能和分类器的操作。作为诊断的手段，这些可视化技术使我们能够找到优于Krizhevsky等人在ImageNet分类基准的模型架构。我们还进行了消融研究，以发现不同模型层的在模型性能上的贡献。我们的研究表明我们的 ImageNet 模型能很好地泛化到其他数据集：当 softmax 分类器被重新训练时，它击败了 Caltech-101 和Caltech-256 数据集上当前最先进的结果。

背景

AlexNet在ImageNet上取得了第一的成绩，并远超第二名，但对其内部操作和行为，以及他们如何实现如此良好的性能知之甚少。因此提出来一个可视化技术，采用多层反卷积网络，将特征激活投影回像素空间，并通过遮挡输入图片的部分来对分类器输出的灵敏度分析，从而发现图片的哪些部分对分类是重要的。

模型

在这里插入图片描述

上图是特征图可视化的全过程，左边为反卷积的过程，右边是卷积过程，整个过程有卷积层，激活函数层，以及最大池化层，由于最大池化时不可逆的，中间的Switch连接记录最大池化时的位置信息用来最大程度上复原图片，具体过程如图中下半部分所示。

实验&结果

在这里插入图片描述

训练完成后得到，整个训练过程中的特征图，每个特征图抽取前九张，然后通过上面提到的方法，将特征图映射到像素空间，即每张图的左边部分，右边是对应的原图中的块，其中特别的是第五层第一行第二列，找到的特征不是前景，而是背景中的草。

在这里插入图片描述

上图中a和c是Alexnet的第一层和第二层的特征图的可视化，发现第一层滤波器是极低频和极高频信息的混合，几乎没有涵盖中频信息，第二层的可视化由于使用大步幅引起混叠，为了解决这个问题，将第一层滤波器尺寸从11*11缩小到7*7，并且将卷积的步幅从4变为2，为了让后续feature map的尺寸保持一致，第2个卷积层的stride从1变为2，b和d为更改后得到特征图可视化第一、二层结果，第一层中的特征更丰富，第二层也没有混叠。

在这里插入图片描述