CNN 究竟“看”到了什么？曲线检测器是否为可解释性带来了出路？

最新推荐文章于 2023-11-07 14:57:06 发布

智云研

最新推荐文章于 2023-11-07 14:57:06 发布

阅读量368

点赞数 1

分类专栏： AI资讯文章标签：可视化神经网络计算机视觉机器学习人工智能

本文链接：https://blog.csdn.net/aizhushou/article/details/107458203

版权

这篇论文深入探讨了卷积神经网络（CNN）中的曲线检测器，揭示了CNN如何识别和处理曲线的机制。通过对InceptionV1的分析，研究者发现神经元对不同方向和曲率的曲线具有高度敏感性，并通过特征可视化、数据集分析和归因可视化等方法证实了曲线检测器的存在和意义。尽管神经元的激活稀疏，但它们在特定刺激下显示出强大的选择性。文章还讨论了曲线检测器的潜在应用，如曲线提取和图像分割，以及一种被称为「梳毛现象」的有趣特征。这项研究为理解和提升深度学习模型的可解释性提供了新的视角。

摘要由CSDN通过智能技术生成

随着深度学习研究步入深水区，人们逐渐从简单地应用 CNN 转向对其内在视觉机理与可解释性的探究。本文是一篇来自 OpenAI 研究团队的实验性论文，从数据、可视化、归因分析等方面全面分析了 CNN 神经元中的曲线检测机制，是一篇利用神经科学原理研究深度学习技术的精彩范例。

图 1：上图中径向辐射的调谐曲线可视化了 InceptionV1 的四类曲线中的曲线神经元如何激活不同方向上的人工合成渲染的曲线。

早在 2013 年，Zeiler 和 Fergus 的论文「Visualizing and understanding convolutional networks」就已经提出了视觉模型中的曲线检测器。在神经科学领域中，研究人员也对相似的神经元进行了深入的研究。

本文作者认为，解释性机器学习研究社区存在疑虑的问题包括：神经网络表征是否由有意义的特征组成，即是否可以追踪到可以清晰地表征的图像特征？一方面，许多论文展示了一些看似有意义的特征，如眼睛探测器、头部探测器、汽车单侧器等等。然而也有许多人怀疑这些成果只在文献中才部分成立。与此同时，也有人担心看似十分有意义的特征实际上可能并不是它们在论文中表现出来的那样。

一些论文指出，神经网络的强大之处主要是检测纹理或不易察觉的模式，而不是前面所描述的那些「有意义」的特征。并且，即使存在一些有意义的特征，它们也有可能在网络中并没有扮演特别重要的角色。比如说一个人观察到一个看起来像狗头探测器的东西，那么它实际上可能只是一个探测与狗头相关的特殊纹理的探测器。

这种分歧真的很重要。如果每个神经元都是有意义的，并且它们的连接形成了有意义的回路，我们相信这将开辟一条通往完全的逆向工程和可解释性神经网络的道路。当然，大家都知道并不是所有的神经元都是有意义的，但是我们已经看到了走通这条道路的曙光。

作者认为，可以借助曲线检测器在这一问题上取得很好的进展。曲线检测器似乎是从边缘检测 Gabor 滤波器（研究社区普遍认为它形成了第一个卷积层的结果）又适当地前进了一步。此外，我们可以用它很容易地生成人为合成的曲线，这为严谨的研究提供了许多可能性。

该模型实现的曲线检测底层算法相当复杂。如果本文能够说服怀疑论者至少相信曲线检测器存在的合理性，那么这似乎是向前迈进了一大步。同样地，如果本文能呈现一个更精确的分歧点，也可以促进社区之间的对话。

1 曲线神经元简介

在介绍详细的实验之前，我们先从宏观上来看看3b 层中的 10 个神经元是如何工作的（注：3b 为神经层的编号，下文中的3a、4a 都为神经层的编号）：

图 2：通过特征可视化技术创建的每个神经元的理想曲线，我们使用优化方法来寻找超强的刺激。

每个曲线检测器都实现了相同算法的一个变体：它响应各种各样的曲线，优先响应方向特定的曲线，并随着方向的变化逐渐降低激活程度。曲线神经元对亮度、纹理、和颜色等表面特性具有不变性。

图 3：神经元的最大激活归一化结果。

曲线探测器的激活是很稀疏的，它们只对 ImageNet 上 10% 的空间位置有反应。当它们的激活值很大时，它们响应的是具有相似方向和曲率的曲线，进而可视化它们的特征。

图 4：数据集中激活3b层中 379 号神经元（以下统用 3b:379指代）的图像都包含与理想曲线相似的曲线。

曲线探测器这种看似有意义的特征是存在的，这十分值得我们回顾和反思。神经网络并没有使用显式的刺激来形成有意义的神经元。也就是说，我们并没有将这些神经元优化成曲线探测器！相反，我们训练 InceptionV1 将图像分类。在这个过程中，许多有关曲线的抽象的层被移除掉了，曲线探测器在梯度下降过程中被破坏。

此外，在经典的计算机视觉领域中，在各种各样的自然图像中检测曲线是一个有待解决的问题。InceptionV1 似乎学到了一种灵活而通用的解决方案，它使用 5 个卷积层来实现这种方案。

我们认为，之所以会存在「神经元是否检测到了特定的刺激」这样的分歧，部分原因是由于正在进行各种各样的论证。根据实证经验，我们很容易证明：当曲线探测器被强烈激活时，刺激结果是一条明显的曲线。不过，其它的一些观点可能更具争议：

因果关系：曲线探测器真正探测到的是曲线的特征，而不是另一种与曲线相关的刺激。我们相信我们的特征可视化和可视化归因实验建立了一种因果关系，因为「逆向运行」网络可以产生一条曲线。
泛化能力：曲线探测器对各种曲线刺激作出响应。它们可以应对很大范围内的半径变化，并且对颜色、亮度、纹理等属性具有很强的不变性。我们相信，我们显式地测试了对这些合成刺激的不变性，这是最令人信服的证据。
纯度：曲线检测器的意义是单一的，它们没有有意义的次要功能。导致曲线探测器激活较弱的图像（如边缘或夹角），是 InceptionV1 用来实现曲线检测的算法的自然扩展。我们相信，我们将数据集中的样本分类为不同的激活值量级并可视化其归因的实验表明：我们很少需要曲线检测器的次要功能。
曲线族：曲线神经元会协同工作，共同涵盖各个方向的曲线。

2 特征可视化

特征可视化技术通过优化找出一个最大化给定目标的神经网络。特征可视化技术之所以强大，原因之一是它能够向我们揭示因果关系。由于我们首先接收随机噪声作为输入，然后再优化像素而不是优化生成式的先验，我们可以确信，结果图像中的任何属性对目标都有贡献。

图 5：通过特征可视化技术创建的每个神经元的理想曲线，我们使用优化方法来寻找超强的刺激。

在观察特征可视化结果时，最重要的是忽略曲线的形状。你可能注意到了，在上图中，曲线的每一侧都有明亮的、色调相反的颜色，这反应了曲线探测器的一种偏好：在曲线的边界处会出现颜色变化。最后，如果你仔细观察，你会发现一些垂直于曲线边界的小线条。我们将曲线检测器对这种小垂直线的弱偏好称为「梳毛」（Combing）。

特征可视化可以帮助我们找到最大限度激活神经元的图像，但是这些超强刺激是否能代表神经元的行为呢？

当我们看到一个特征可视化结果时，我们经常会想象神经元对于与其性质相似的刺激产生强烈的响应，并且随着表现这些视觉特征的刺激减弱而逐渐变弱。但我们可以想象在非极端激活的情况下神经元的行为是完全不同的，或者在这种情况下，神经元对杂乱的极端刺激反应微弱ÿ