论文翻译Visualizing and UnderstandingConvolutional Networks

最新推荐文章于 2024-07-10 20:03:11 发布

编程副本

最新推荐文章于 2024-07-10 20:03:11 发布

阅读量1.9k

点赞数

文章标签：深度学习计算机视觉神经网络

本文链接：https://blog.csdn.net/qq_41027003/article/details/121833004

版权

1 Introduction

自20世纪90年代初LeCun等人引入卷积网络（convnets）以来，卷积网络（convnets）在手写数字分类和人脸检测等任务中表现出了优异的性能。在过去的18个月中，有几篇论文表明，它们还可以在更具挑战性的视觉分类任务中提供出色的性能。Ciresan等人[4]展示了NORB和CIFAR-10数据集的最新性能。最值得注意的是，Krizhevskyet等人[18]在ImageNet 2012分类基准上的表现打破了记录，他们的convnet模型实现了16.4%的错误率，而第二名的结果为26.1%。继这项工作之后，Girshick等人[10]在PASCAL VOC数据集上显示了领先的检测性能。有几个因素导致了绩效的显著提高：（i）更大的培训集的可用性，以及数百万标记的示例；（ii）强大的GPU实现，使大型模型的培训变得切实可行，（iii）更好的模型规范化策略，如辍学[14]。尽管取得了令人鼓舞的进展，但对于这些复杂模型的内部操作和行为，或者它们如何实现如此良好的性能，仍然缺乏深入的了解。从科学的角度来看，这是非常不令人满意的。如果不清楚它们是如何工作的以及为什么工作的，那么开发更好的模型就只能进行反复试验。在本文中，我们介绍了一种可视化技术，它揭示了在模型中任何一层激发个体特征映射的输入刺激。它还允许我们在训练期间观察特征的演变，并诊断模型的潜在问题。我们提出的可视化技术使用Zeiler等人[29]提出的多层反褶积网络（deconvnet），将特征激活投射回输入像素空间。我们还通过遮挡输入图像的部分，对clas sifier输出进行灵敏度分析，揭示场景的哪些部分对分类很重要。使用这些工具，我们从Krizhevsky等人[18]的体系结构开始，探索不同的体系结构，发现比ImageNet上的结果更好的体系结构。然后，我们探索该模型对其他数据集的泛化能力，只需在顶部重新训练softmax分类器。因此，这是一种有监督的预培训形式，与Hinton等人[13]和其他人[1,26]推广的无监督预培训方法形成对比。

1.1 Related Work

可视化：可视化特征以获得对网络的直觉是常见的做法，但主要限于第一层，在该层中可以投影到像素空间。在更高层，必须使用替代方法。[8] 通过在图像空间中执行梯度下降，找到每个单位的最佳刺激，以最大化单位的激活。这需要仔细初始化，并且不会给出任何有关单位不变性的信息。受后者的短期影响，[19]（扩展了[2]中的一个想法）展示了如何围绕最佳响应以数字方式计算给定值的Hessian，从而对不变性有了一些见解。问题是，对于更高的层，不变性非常复杂，因此用简单的二次近似很难捕捉到。相比之下，我们的方法提供了一个不变性的非参数视图，显示了从训练集中激活特征映射的模式。我们的方法类似于Simonyan等人[23]的当代工作，他们展示了如何通过从网络的完全连接层投射回来，而不是我们使用的卷积特征，从convnet获得显著性图。Girshick等人[10]展示了识别数据集中补丁的可视化，这些补丁负责在模型的更高层进行强烈激活。我们的视觉模拟的不同之处在于，它们不仅仅是输入图像的作物，而是揭示每个斑块内刺激特定特征图的结构的上下投影。特征泛化：Donahue等人[7]和Girshick等人[10]在并行工作中也探讨了我们对网络特征泛化能力的演示。在前一种情况下，他们使用convnet功能获取Caltech-101和Sun scenes数据集的最新性能，在后一种情况下获取PASCAL VOC数据集的目标检测。

2 Approach

正如LeCun等人[20]和Krizhevsky等人[18]所定义的那样，我们在论文中使用标准的全监督convnet模型。这些模型通过一系列图层将一个COLL2D输入图像XI映射到席夫类上的概率向量yI。每一层包括（i）前一层输出（或，在第一层的情况下，输入图像）与一组学习滤波器的卷积；（ii）通过校正线性函数传递响应（relu（x）=max（x，0））；（iii）[可选]局部邻域上的最大池和（iv）[可选]局部对比度操作，用于规范化特征地图上的响应。有关这些操作的更多详细信息，请参见[18]和[16]。网络的前几层是传统的全连接网络，最后一层是softmaxclassifier。图3显示了我们许多实验中使用的模型。我们使用一大组NL标记的图像{x，y}来训练这些模型，其中labelyi是一个表示真实类的离散变量。采用适合于图像分类的交叉熵损失函数对ˆyi和yi进行比较。网络的参数（卷积层中的滤波器、完全连接层中的权重矩阵和偏差）通过反向传播网络中关于参数的损失导数进行训练，并通过随机梯度下降更新参数。培训详情见第3节。

原文https://link.springer.com/content/pdf/10.1007/978-3-319-10590-1_53.pdf

编程副本

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
论文翻译Visualizing and UnderstandingConvolutional Networks

1 Introduction自20世纪90年代初LeCun等人引入卷积网络（convnets）以来，卷积网络（convnets）在手写数字分类和人脸检测等任务中表现出了优异的性能。在过去的18个月中，有几篇论文表明，它们还可以在更具挑战性的视觉分类任务中提供出色的性能。Ciresan等人[4]展示了NORB和CIFAR-10数据集的最新性能。最值得注意的是，Krizhevskyet等人[18]在ImageNet 2012分类基准上的表现打破了记录，他们的convnet模型实现了16.4%的错误率，而第二
复制链接

扫一扫