【精读人工智能论文】02. ZFNet

最新推荐文章于 2024-05-25 01:37:30 发布

Cziii

最新推荐文章于 2024-05-25 01:37:30 发布

阅读量81

点赞数

文章标签： opencv 人工智能计算机视觉

本文链接：https://blog.csdn.net/Cziii/article/details/134073981

版权

Visualizing and Understanding Convolution Networks

Abstract

大型卷积神经网络的可解释性很差，如同一个黑箱，我既不知道它为什么能干得这么好，也不知道如何去改进它，本文通过可视化中间层解决了这个问题。同时本文通过消融对比实验来探究不同层提取的特征对网络的贡献程度。最后，本文展示了这个模型拥有很好的泛化性，数据迁移的效果非常好。

1. Introduction

在很早就已经有神经网络领域的运用和探究了，知道2012年AlexNet使用卷积神经网络取得了重大突破，而能让其取得如此重大突破的三驾马车为：大规模结构化数据集、硬件算力以及Dropout等模型正则化方法。

虽然AlexNet很好，但是CNN的可解释性很差，我们对其内部运作一无所知，所有的改进都变成了单纯的试错碰运气。在本文中，我们提出了可视化中间feature map输出的方法，它可以帮助我们在训练过程中监控学习到的特征，这种方法我们称为deconvnet（反卷积）。此外，我们还进行了局部遮挡敏感性分析和局部遮挡相关性分析，来分析分类器是对图层中的哪一部分重点关注。

在ImageNet上训练的模型可以很好地在其他数据集上迁移泛化性能。

1.1 Related Work

传统方法无法对高层CNN特征进行可视化，也无法探索CNN的平移、缩放以及旋转不变性。

我们的方法是一种无参数的方法，它展示了训练集中的哪些特征能激活特定的feature map、它是一种从后往前的、把feature map中的特征重构回原始输入像素空间的投影，能够揭示feature map更关注哪些特征的方法。

2. Approach

ZFNet的正向神经网络架构为：输入——卷积——ReLU激活——（Max Pooling）——（归一化）——全连接层——……——softmax分类

我们使用N个带标签的数据训练网络，使用多分类交叉熵损失函数训练，次函数能比较网络预测结果和真实结果之间的差距。我们通过反向传播和梯度下降，求得损失函数相对于网络中可训练参数（卷积核的权重、全连接层的权重）的偏导，然后根据偏导来调整网络参数。

2.1 Visualization with a Deconvnet

理解卷积操作就需要对中间层的特征活动进行解释。因此我们提出了一种方法，将feature map映射回输入图像的像素空间，把他可视化。Deconvolutional Net-work，实际上是正向网络的反向操作。（上采样Up-Sampling，反卷积，转置卷积Transposed Conv），（反卷积包括：转置卷积，反激活，反池化）

首先选择你要可视化的卷积层，正向计算feature map得到结果后，除指定层的某个feature map不为0，其它全部设为0，然后把这个feature map反向传回输入像素空间。

反池化：最大池化是不可逆的，但我们可以储存下来最大像素的位置**（Switch操作）**，用于反池化时的还原，虽然不可避免的会丢失非极大值像素的信息。

反激活：正向feature map因为ReLU的使用均为正值，反向卷积时也用ReLU确保都为正值。

反卷积：使用转置后的卷积核
所以在整个Deconvnet的过程中是没有任何参数需要学习的，是无监督的。

虽然池化时会丢失一部分的信息，但是重构得到的图像和原始输入图像依然相似。亮暗轮廓体现出特定feature map反映的特征。

3. Training Details

ZFNet训练的模型和过程与AlexNet相类似，也是采用ImageNet数据集进行训练，但不再采用双GPUs的稀疏型连接，而是密集型连接。

ImageNet2012是一个拥有130万张图像、1000余个不同分类的数据集。每一张RGB图像都将短边缩放至256像素，再对其进行裁剪，变为256 x 256，然后每个像素减去训练集中对应像素的均值。数据预处理完成之后，对其进行数据增强，取图像四个角和中心点5个大小为224 x 224的图像再将其水平翻转，得到10张不同的图像。

在可视化第一层的卷积核时，会发现部分卷积核的值过大，对这部分卷积核我们会进行裁剪。

4. Convnet Visualization

提取内容：

底层网络：边缘、颜色
中层网络：形状
高层网络：物体

特化、高级、不变性
底层————————————》高层

**总结结论：

网络越深，所提取到的特征越特化和高级
网络越深，所提取到的特征越具有不变性，可以从不同的物体中提取到相同的语义**

训练过程中不同层的特征演化：底层快、高层慢。若发生突变则表示能使改filter激活的最大原图变了。

特征不变性：对图像进行平移、旋转、缩放变换，发现对底层影响显著，对高层影响较小；网络对平移、缩放较不敏感，对旋转较敏感。（除非为旋转对称位置）

4.1 Architecture Selection

对AlexNet的第一层卷积核进行可视化后，可以发现存在一些非常高或者非常低频率的信息，称之为无效信息，对其第二层可视化发现由于步长原因会出现一些混淆的人工的网格特征，同样也是无效的。（改进为11 x 11 ——》7 x 7、步长：4 ——》2）

4.2 Occlusion Sensitivity

局部遮挡敏感性分析

我们在意网络使用关键局部分类，还是用周围元素（整体）分类。通过灰色方框遮挡实验，可以得知网络使用的是关键局部分类。

（a）：原图
（d）：遮挡不同部位时，网络识别出正确类别的概率
（e）：遮挡不同部位时，网络识别出的类别
（c）：黑框：原图输入网络，layer5激活最大的feature map的反卷积 | 其他：数据集中其他3张能使该feature map激活最大的反卷积
（b）：方块在不同位置遮挡，对应（c）feature map的叠加求和