深度概览卷积神经网络全景图

   深度卷积神经网络是这一波 AI 浪潮背后的大功臣。虽然很多人可能都已经听说过 这个名词,但是对于这个领域的相关从业者或者科研学者来说,浅显的了解并不足够。 近日,约克大学电气工程与计算机科学系的 Isma Hadji 和 Richard P. Wildes 发表 了一篇《我们该如何理解卷积神经网络?》的论文:

 第一章回顾了理解卷积神经网络的动机;

 第二章阐述了几种多层神经网络,并介绍当前计算机视觉领域应用中最成功的卷积结 构;

 第三章具体介绍了标准卷积神经网络中的各构成组件,并从生物学和理论两个角度分 析不同组件的设计方案;

 第四章讨论了当前卷积神经网络设计的趋势及可视化理解卷积神经网络的相关研究工 作,还重点阐述了当前结构仍存在的一些关键问题。

通过这篇文章,我们希望帮助大家加深对卷积神经网络的理解,并对这个重要概念有 一个全面的认知。

第一章

引言

本文动机

过去几年,计算机视觉研究主要集中在卷积神经网络上(通常简称为 ConvNet 或 CNN),在大量诸如分类和回归任务上已经实现了目前为止最佳的表现。尽管这些方 法的历史可以追溯到多年前,但相对而言,对这些方法的理论理解及对结果的解释还 比较浅薄。

实际上,计算机视觉领域的很多成果都把 CNN 当作了一种黑箱,这种方式虽然有效 的,但对结果的解释却是模糊不清的,这也无法满足科学研究的需求。尤其是当这两 个问题是互补关系时:

(1)学习的方面(比如卷积核),它到底学习到的是什么?

(2)模型结构设计方面(比如卷积层数量、卷积核数量、池化策略、非线性函数的 选择),为什么某些组合会优于其他组合呢?求解这些问题的答案,不仅有利于我们 更好地理解卷积神经网络,而且还能进一步提升它的工程实用性。

此外,当前 CNN 的实现方法都需要大量训练数据,而且模型的设计方案对最终的结 果有很大的影响。而更深层的理论理解应该减轻模型对数据的依赖性。尽管大量的研 究已经集中在卷积神经网络的实现方式,但目前为止,这些研究结果很大程度上还只 局限在对卷积操作内部处理的可视化上,目的是为了理解卷积神经网络中不同层的变 化情况。

本文目标

针对以上问题,本文将综述几种当前最优秀的多层卷积结构模型。更重要的是,本文 还将通过不同方法来总结标准卷积神经网络的各种组件,并介绍它们所基于的生物学 或合理的理论基础。此外,本文还将介绍如何通过可视化方法及实例研究来尝试理解 卷积神经网络内部的变化情况。我们的最终目标是向读者详细展示卷积神经网络中所 涉及到的每一个卷积层操作,着重强调当前最先进的卷积神经网络模型并说明未来仍 需解决的问题。

第二章

多层网络结构

近年来,在深度学习或深层神经网络取得成功前,计算机视觉识别系统最先进的方法 主要由两个步骤组成,这两个步骤各自分离但又互补:首先,我们需要通过人工设计 操作(如卷积、局部或全局编码方法)将输入数据转换成合适的形式。这种输入的变 换形式,通常是为了得到输入数据的一种紧凑或抽象的表征,同时还要根据当前任务 的需要手动设计一些不变量。通过这种转换,我们能够将输入数据表征成一种更容易 分离或识别的形式,这有助于后续的识别分类。其次,转换后的数据通常作为分类器 (如支持向量机)训练的输入信号。通常而言,任何分类器的表现都会受到变换后的 数据质量及所使用的变换方法的影响。

多层神经网络结构的出现为解决这一问题带来了新的方式,这种多层结构不仅能够训 练目标分类器,还能从输入数据中直接学习所需的变换操作。这种学习方式通常称为 表征学习,当将其应用在深度或多层神经网络结构中时,我们称之为深度学习。

多层神经网络定义为是一种从输入数据的层次抽象表征中提取有用信息的计算模型。 一般而言,设计多层网络结构的目标是为了在高层凸显输入数据的重要信息,同时能 让那些不太不重要的信息变化更具鲁棒性。

近年来,研究者已经提出了很多不同类型的多层架构,而大多数的多层神经网络都是 以堆叠的方式,将一些线性和非线性函数模块组合形成多层结构。本章将会覆盖计算 机视觉应用中最先进的多层神经网络结构。其中,人工神经网络是我们需要的关注重 点,因为这种网络结构的表现非常突出。为了方便起见,在下文我们会直接将这类网 络称为神经网络。

神经网络 标准的神经网络结构通常由输入层 x,输出层 y 和多个隐藏层 h 堆叠而成,其中 每个层还由多个单元组成,如下图所示。通常,每个隐藏单元 hj 接受上一层所有单 元的输入,并将其加权组合,其非线性组合的数学形式如下:

wij 是权重值,用于控制输入单位和隐藏单位之间连接的强度,bj 是隐藏单位的偏 置,F 是非线性函数,如 Sigmoid 函数。

深度神经网络可以被视为是 Rosenblatt 感知器及多层感知器的实例。 尽管神经网 络模型已经存在多年(即自 1960 年代以来),但它们并未被广泛使用。造成这种的 原因有很多,最主要的原因是感知器无法模拟像 XOR 这样的简单操作而被外界否 定,这也进一步阻碍了研究人员对感知器的研究。

直到最近,一些研究人员将简单感知器扩展到多层神经网络模型。 此外,缺乏适当 的训练算法也会延缓感知度的训练进度,而反向传播算法的提出也使得神经网络模型 得以普及。更重要的是,多层神经网络结构依赖于大量的参数,这就意味着我们需要 大量的训练数据和计算资源来支持模型训练及学习参数过程。

 受限波尔茨曼机(RBM)的提出是深层神经网络领域的一大重要贡献。受限玻耳兹曼 机可以看作是两层的神经网络,只允许网络以前馈连接的方式堆叠。而神经网络可以 看作是使用受限波尔茨曼机进行分层无监督预训练的一种模型,在图像识别任务中, 这种无监督学习方法主要包括三个步骤:首先,对于图像中的每个像素,对 xi 及初 始化的 wij、偏置 bj、隐藏层状态 hj,其概率可以被定义为:

 

其中,σ(y)= 1 /(1 + exp(-y))。

其次,如上式所示,一旦所有的隐藏状态都被随机设定,我们可以根据概率

将每个像素设定为 1,并以此重建图像。

然后,隐藏单元将通过重建的权重和偏差来更新校正单位的误差:

其中,α 是学习率,(xihj)表示隐藏单元 hj 中像素 xi 出现的次数。整个训练过 程将重复 N 次或直到误差下降到预设的阈值 τ。训练完一层后,使用它的输出作为 下一层的输入,然后接着重复上述过程训练下一层。通常,网络中的所有层经过预训 练后,它们还将通过梯度下降的方式,反向传播误差来进一步微调标记数据。使用这 种分层无监督预训练的方式可以不需大量标记数据的情况下,训练深层神经网络结构。 因为利用受限波尔茨曼机进行无监督预训练,能够为模型参数的初始化提供了一种有 效途径。受限波尔茨曼机的第一个成功应用案例是用于人脸识别的降维,它们被当作 是一种自编码器。

自动编码器主要是通过引入不同的正则化方法来防止模型学习一些无关紧要的数据 特征。目前一些比较优秀的编码器包括稀疏自编码器、去噪自编码器(DAE)和压缩 自编码器(CAE)等。稀疏自编码器允许中间编码表示的大小(即由输入生成编码器) 大于输入的大小,同时通过稀疏表示来正则化负相的输出。相反,去噪自编码器改变 了编码重建本身的目标,试图重建一个干净、不带噪声的输入版本,得到一个更加强 大的表示。类似地,压缩自编码器是通过惩罚噪声中最敏感的单位来实现类似去噪自 编码器的过程。

循环神经网络

循环神经网络是处理序列数据相关任务最成功的多层神经网络模型(RNN)。 RNN, 其结构示意图如下图所示,它可以看作是神经网络的一种特殊类型,隐藏单元的输入 由当前时间步所观察到的数据中获取输入以及它在前一个时间步的状态组合而成。 循环神经网络的输出定义如下:

其中 σ 表示一些非线性函数,wi 和ui 是网络参数,用于控制当前和过去信息的相 对重要性。

 

每个循环单元的输入将由当前时刻的输入 xt 及上一时刻 ht-1 组成,新的输出表示 可通过上式计算得到,并传递给循环神经网络中的其他层。

虽然循环神经网络是一类强大的多层神经网络模型,但其的主要问题是模型对时间的 长期依赖性,由于梯度爆炸或梯度消失,这种限制将导致模型训练过程在网络回传过 程中误差的不平稳变化。为了纠正这个困难,引入了长短期记忆网络(LSTM)。

长短期记忆网络(LSTM)的结构示意图下图所示,拥有存储单元或记忆单元,随着 时间的推移存储记忆信息。LSTM 的存储单元是通过门控机制从中读取信息或写入 信息。 值得注意的是,LSTM 还包含遗忘门,即网络能够删除一些不必要的信息。 总的来说, LSTM 的结构主要包含有:三个控制不同的门(输入门、遗忘门及输出 门),以及存储单元状态。 输入门由当前输入 xt 和前一个状态 ht-1 控制,它的定 义如下:

其中,wi,ui,bi 表示权重和偏差项,用于控制与输入门相关的权重,σ 通常是一个

Sigmoid 函数。类似地,遗忘门定义如下:

相应地,权重和偏差项由 wf,uf,bf 控制。 可以说,LSTM 最重要的一点是它可以应 对梯度消失或梯度爆炸时网络中误差传播不平稳的挑战。这种能力的实现是通过遗忘 门和输入门的状态进行加法结合来确定存储单元的状态。

 

每个循环单元的输入将由当前时刻的输入 xt 及上一时刻 ht-1 组成,网络的返回值 将馈送到下一时刻 ht。LSTM 最终的输出由输入门 it,遗忘门 ft 及输出门 ot 和 记忆单元状态 ct 共同决定。

卷积神经网络

卷积网络(ConvNets)是一种特殊的神经网络类型,其特别适合计算机视觉应用,因 为它们对于局部操作有很强的抽象表征能力。推动卷积神经网络结构在计算机视觉中 成功应用的两个关键性的因素:

第一,卷积神经网络能够利用图像的 2D 结构和图像相邻像素之间的高度相关性, 从而避免在所有像素单元之间使用一对一连接(即如同大多数全连接的神经网络), 这有利于使用分组的局部连接。此外,卷积神经网络结构依赖于特征共享原则,正如 下图所示,每个通道的输出(或输出的特征映射)都是通过所有位置的相同滤波器的 卷积生成。相比于标准的神经网络结构,卷积神经网络的这个重要特性依赖于很少的 模型参数。

第二,卷积神经网络还引入一个池化步骤,在一定程度上保证了图像的平移不变性, 这使得模型不受位置变化的影响。还值得注意的是,池化操作使得网络拥有更大的感 受野,从而能够接受更大的输入。感受野的增大,将允许网络在更深层学习到更加抽 象的特征表征。例如,对于目标识别任务,卷积网络中的浅层将学习到图像的一些边、 角特征,而在更深层能够学习到整个目标的特征。

卷积神经网络的结构最早是受生物视觉机制启发而设计的,正如 Hube 在其开创性 的研究中所描述的人类视觉皮层的工作原理。随后,Fukushima 提出的神经感知器 (Neocognitron)是卷积神经网络的前身,它依赖局部连接的方式,由 K 层神经网 络层级联而成,每层神经网络由 S-cell 单元,U sl 及复杂的单元相间分布而成,这 种交替分布的形式是模仿生物简单细胞中的处理机制而设计的,其结构示意图如下图 所示。

此外,在卷积操作后都会跟随一个非线性变化单元,常见的非线性函数是修正线形单 元 ReLu,其数学表达式如下:

 

在非线性变换后,通常会引入池化单元。平均池化操作是常用的池化操作之一,通过 平均化感受野中的像素值,来综合考虑周围像素的特征。而最大池化则是用来提取相 邻像素间最重要的特征信息,避免模型学习到一些无关紧要的特征。经典的卷积网络 由四个基本处理层组成: 卷积层、非线性变换层、归一化层及池化层。

近年来,在计算机视觉领域中所应用的卷积神经网络结构,大多是基于 Lecun 在 1998 年提出的用于手写字母识别的 LeNet 卷积模型结构。LeNet 的一个关键是加 入反向传播过程来更有效地学习卷积参数。与全连接神经网络相比,虽然卷积神经网 络有其独特的优势,但其对于标签数据的严重依赖性,也是其未被广泛使用的主要原 因之一。直到 2012 年,随着大型 ImageNet 数据集的发布及计算能力的提高,人 们重新恢复对卷积神经网络的研究兴趣。

生成对抗网络

生成对抗网络是 2014 年首次引入的一种新型多层神经网络模型,这种模型结构充 分体现了多层网络架构的强大性。虽然生成对抗网络并没有多种不同的网络构建模块, 但这种网络结构具有一些特殊性,最关键的是引入了无监督学习方式,使得模型的训 练学习不再依赖大量的标记数据。

一个标准的生成对抗模型主要由两部分子网络组成:生成网络 G 和判别网络 D,如 下图所示,两个子网络都是预先定义好的多层网络结构(最初提出的模型中二者都是 多层全连接网络)。经过交替对抗训练,判别网络的目标是鉴别生成网络的生成数据 标签与真实数据标签之间的真伪,而生成网络的目标是生成更加优化的数据,以 “欺 骗”判别网络,训练的最终结果是使得生成的数据达到以假乱真的目的。

 

生成对抗网络自提出以来,因其强大的多层网络结构及独特的无监督学习方式,得到 了广泛的关注和研究。GAN 的成功应用包括:文本到图像合成(其中网络的输入是 要呈现图像的文字描述);超分辨率图像的生成,即用较低分辨率的输入生成逼真的 高分辨率图像;图像修复,即用 GAN 来生成来自输入图像中的缺失信息;纹理合成, 即从输入噪声中生成逼真的纹理特征。

多层网络的训练

如前所述,当前各种多层神经网络结构所取得的成功,在很大程度上取决于网络训练 学习过程的进步。通常,神经网络的训练首先需要进行多层无监督预训练,随后,将 预训练好的模型进行有监督训练,训练过程都是基于梯度下降的反向传播原则,通过 反向传播网络误差,来更正修正模型的参数值,从而优化网络结构及输出结果。

迁移学习

多层神经网络结构的一大益处是在跨数据集甚至跨不同任务中,模型所学得的特征具 有通用的适用性。在多层网络结构中,随着层次的增加,所学得的特征表征通常也是 从简单到复杂、从局部到全局发展。因此,在低层次提取的特征往往适用于多种不同 任务,这使得多层结构更容易进行迁移学习。

空间卷积神经网络

理论上,卷积神经网络可以应用于任意维度的数据,特别适用于二维的图像数据,因 此卷积结构在计算机视觉领域受到了相当关注。随着可用的大规模数据集和强大的计 算机能力的发展,卷积神经网络在计算机视觉领域的应用也日益增长。本节我们将介 绍几种最突出的卷积神经网络结构,包括

AlexNet,VGGNet,GoogleNet,ResNet,DenseNet 等,其结构示意图依次如下,这些 体系结构都是基于原始的 LeNet 发展起来的。

 

卷积神经网络的不变形

使用卷积神经网络的一大挑战是需要非常大的数据集来训练并学习模型的所有基本 参数。但即便是当前大规模的数据集,如 ImageNet 拥有超过一百万张图像数据的 数据集,仍然无法满足深层卷积结构训练的需要。通常,在模型训练前,我们会通过 数据增强操作来处理数据集:即通过随机翻转、旋转等操作来改变图像,从而增加数 据样本的数量。

这些数据增强操作的主要优点是使得网络对于各种图像转换更加鲁棒,这项技术也是 AlexNet 取得成功的主要原因之一。因此,除了上述改变网络架构以简化训练的方法 之外,其他的研究工作旨在引入新颖的模块结构来更好的训练模型。处理不变性最大 化的一种优秀结构是空间变换网络(STN)。具体的说,这种网络结构使用了一个新 颖的学习模块,增加了模型对不重要空间变换的不变性,例如, 在物体识别过程中
那些由不同视点引起的变换。该模型结构由三个子模块组成:一个定位模块,一个网 格生成模块和一个采样模块,如下图所示。

卷积神经网络中的目标定位问题

除了简单的目标识别分类任务,近年来卷积结构在目标精准定位的任务中同样表现出 色,如目标检测、语义分割任务等。全卷积网络(FCN)是其中最成功的卷积结构之 一,主要用于图像语义分割。顾名思义,FCN 并未使用全连接层,而是将它们转换 为卷积层,其感受野范围覆盖整个卷积层的底层特征图。更重要的是,网络通过学习 一个上采样或者去卷积滤波器,可以恢复最后一层图像的全分辨率,其结构示意图如 下图所示。

FCN 中,语义分割问题被转化成一个密集的逐像素分类问题,通过投射来实现。 换句话说,每个像素都与 softmax 层关联,通过像素逐类分组来实现图像的语义分 割。更值得注意的是,在这项工作中对较低结构层的特征适用上采样操作,起着至关 重要作用。由于较低层特征更倾向于捕捉更精细化的细节,因此上采样操作允许模型 进行更精确的分割。此外,反卷积滤波器的一种替代方案是使用扩张卷积,即上采样 稀疏滤波器,这有助于在保持参数数量的同时,模型能够学习到更高分辨率的特征图。

R-CNN 是最早用于目标检测任务的卷积结构,这是一种带区域建议的卷积神经网络 (RPN),在最初的目标检测任务中取得了最先进的检测结果,特别是使用区域建议 的选择性搜索算法来检测可能包含目标的潜在区域,并将这些建议区域做一些变换以 便匹配卷积结构的输入大小,经卷积神经网络中特征提取后,最终送入 SVM 中进行 分类,并通过非极大值抑制后处理步骤中优化模型的表现。

随后,Fast R-CNN,Faster R-CNN,Mask R-CNN 等目标检测模型的提出都是基于最 初的 R-CNN 结构。可以说,卷积神经网络在目标检测方面的应用是围绕 R-CNN 结 构展开。

时域卷积神经网络

如上所述,卷积神经网络在计算机视觉二维空间的应用中所取得的显着性能,引发了 人们对 3D 时空应用的研究。许多文献中提出的时域卷积结构通常只是试图从空间 域(x,y)扩展到时间域(x,y,t)的二维卷积结构。而时域神经网络结构有三种不 同的形式:基于 LSTM 的时域卷积网络、3D 卷积神经网络和双流卷积神经网络, 其模型结构示意图如下图。

 

总结

相比于手动设计的特征或浅层的特征表示,多层卷积结构是当前计算机视觉领域最先 进、最具吸引力的结构之一。总体而言,大多数模型结构都是基于四个共同的构件块, 即卷积、非线性单元、归一化和池化操作。虽然这些优秀的卷积模型在大多数计算机 视觉任务中取得了最优性能,但它们共同的缺点仍然是对卷积内部操作、特征表征的 理解相当有限,依赖于大规模的数据集和模型训练过程,缺乏精确的性能界限和超参 数选择的清晰度。这些超参数包括滤波器的大小、非线性函数、池化操作参数以及模 型层数的选择。接下来我们将进一步讨论卷积神经网络设计过程中这些超参数的选择。

第三章

理解卷积神经网络的构建模块

考虑到卷积神经网络领域还存在大量未解决的问题,在本章我们将探讨一些典型案例 中卷积网络的每一层处理操作的作用及意义,尤其我们将从理论和生物学角度给出合 理解释。

卷积层

卷积神经网络的核心层是卷积层,这是模型最重要的一步。总的来说,卷积是一种线 性的、具有平移不变性的运算,它是通过局部加权输入信号来实现的。权重集合是根 据点扩散函数(point spread function)来确定的,不同的权重函数能够反映出输入 信号的不同性质。

在频率域中,与点扩散函数相关联的是调制函数,这表明了输入的频率组分可以通过 缩放和相移来进行调制。因此,选择合适的卷积核,将有助于模型获取输入信号中最 显著、最重要的特征信息。

非线性单元

多层神经网络通常是高度的非线性模型,而修正单元(rectification)通常将引入一个 非线性函数(也被称为激活函数),即将非线性函数应用到卷积层输出中。引入修正 单元的目的,一方面是为了最好的、最合适的模型解释;另一方面是为了让模型能更 快和更好地学习。常用的非线性函数主要包括 Logistic 函数、tanh 函数、Sigmoid 函数、ReLU 及其变体 LReLU,SReLU,EReLU 等,其函数图像如下图所示。

归一化

如上所述,由于这些多层网络中存在级联的非线性运算,因此多层神经网络都是高度 的非线性模型。除了上面讨论的修正非线性单元外,归一化(normalization)同样是 卷积神经网络结构中重要的非线性处理模块。最广泛使用的归一化形式即所谓的局部 响应归一化操作(LRN,Local Response Normalization)。此外,还有诸如批归一化 (batch normalization),分裂归一化(divisive normalization)等。

池化操作

几乎所有的卷积神经网络,都包含池化操作。池化操作是为了提取特征在不同位置和 规模上的变化,同时聚合不同特征映射的响应。正如卷积结构中前三个组份,池化操 作也是受到生物学启发和理论支持而提出的。 平均池化和最大池化是两个最广泛使 用的池化操作,其池化效果依次如下图所示。

第四章

当前研究状态

对卷积神经网络结构中各组作用的阐述凸显了卷积模块的重要性,这个模块主要用于 捕获最抽象的特征信息。相对而言,我们对卷积模块操作的理解却很模糊,对其中繁 琐的计算过程的理解并不透彻。本章我们将尝试理解卷积网络中不同层所学习的内容 及不同的可视化方法。同时,我们还将重点展望这些方面仍待解决的问题。

当前趋势 尽管各种优秀的卷积模型在多种计算机视觉应用中取得了最优表现,但在理解这些模 型结构的工作方式及探索这些结构的有效性方面的研究进展仍相当缓慢。如今,这个 问题已经引起了众多研究者的兴趣,为此很多研究提出用于理解卷积结构的方法。

总的来说,这些方法可以分成三个方向:对所学习到的过滤器和提取的特征图进行可 视化分析、受生物视觉皮层理解方法所启发的消融学习(ablation study)、以及通过 引入主成分分析法设计并分析网络最小化学习过程,我们将简要概述这三种方法。

卷积的可视化分析

卷积可视化的第一种方法是以数据集为中心的方法,因为卷积操作依靠从数据集输入 来探测网络在网络中找到最大响应单元。这种方法的第一个应用是反卷积 (DeConvNet)。其中可视化是分两步实现:首先,一个卷积结构接收来自数据集 a 的几个图像并记录数据集中输入的特征映射最大响应;其次,这些特征地图使用反卷 积结构,通过反转卷积操作模块,将卷积操作中学习到的滤波器特征进行转置来执行 “解卷积”操作,从而实现卷积的可视化分析。反卷积操作的示意图如下图所示:

卷积可视化的第二种方法称为以网络为中心的方法,因为它仅使用网络参数而不需要 任何用于可视化的数据。这种方法首次应用于深层置信网络的可视化分析中,后来才 应用于卷积网络结构中。具体地说,这种卷积可视化是通过合成图像来实现的,该图 像将最大化某些神经元(或过滤器)的响应。

卷积的消融学习

另一种流行的可视化方法是使用所谓的网络消融研究。实际上,许多著名的卷积结构 都包括模型消融研究实验部分,其目的是隔离卷积结构的不同部分组成网络,来查看 删除或添加某些模块如何模拟整体的性能。消融研究能够指导研究者设计出性能更优 的网络结构。

卷积结构的控制设计

理解卷积结构的另一种方法是在网络设计时添加先验知识,从而最大限度地减少所需 学习的模型参数。例如,一些方法是减少每层卷积层所需学习的过滤器数量,并用转 换后的版本在每一层中学习的滤波器来模拟旋转不变性。 其他方法依赖于用基础集 合代替过滤器的学习过程,而不是学习过滤器参数,它们的目标是学习如何组合基础 集合,以便在每一层形成有效的过滤器。此外,还有一些方法,是通过完全手工设计 卷积网络,并针对特定的任务在网络设计阶段加入特定的先验知识,如此设计出可解 释的网络。

待解决问题

通过上述内容,我们总结了卷积模型一些关键技术以及如何更好地理解卷积结构的方 法。下面,我们将进一步讨论在卷积模型领域仍待解决的一些问题。

基于卷积可视化的研究方法仍待解决的几个关键问题:

  首先,开发更加客观的可视化评价方法是非常重要的,可以通过引入评价指标来评估所

生成的可视化图像质量或含义来实现。

  此外,尽管看起来以网络为中心的卷积可视化方法更有前景(因为它们在生成可视化结

果过程中不依赖模型结构自身),但也缺乏一套标准化的评估流程。一种可能的解决方 案是使用一个评估基准来评价同样条件下生成的网络可视化结果。这样的标准化方法 反过来也能实现基于指标的评估方法,而不是当前的解释性分析。

另一个可视化分析的发展方向是同时可视化网络的多个单元,以更好地理解模型中特 征表征的分布情况,甚至还能遵循一种控制方法。

基于 ablation study 的研究方法仍待解决的几个关键问题:

使用共同的、系统性组织的数据集。我们不仅要解决计算机视觉领域常见的不同挑战 (比如视角和光照变化),还必须要应对复杂度更大的类别问题(如图像纹理、部件和

目标复杂度等)。近年来,已经出现了一些这样的数据集。在这样的数据集上,使用 ablation study,辅以混淆矩阵分析,可以确定卷积结构中出错的模块,以便实现更好 的理解卷积。

此外,分析多个协同的 ablation 对模型表现的影响方式,是一个很受关注的研究方向。 这样的研究也能有助于我们理解独立单元的工作方式。

相比于完全基于学习的方法,还有一些受控方法能让我们对这些结构的运算和表征有 更深入的理解,因而具有很大的研究前景。这些有趣的研究方向包括:

逐层固定网络参数及分析对网络行为的影响。例如,基于当前特定任务的先验知识,一 次固定一层的卷积核参数,以分析每一卷积层中卷积核的适用性。这个逐层渐进式的学 习方式有助于揭示卷积学习的作用,还可用作最小化训练时间的初始化方法。

 类似地,可以通过分析输入的特征来研究网络结构的设计(如层的数量或每层中过滤器 数量的选择方案),这种方法有助于设计出最适合模型结构。

最后,将受控方法应用于网络的同时,可以对卷积神经网络的其它方面的作用进行系统 性的研究。通常,我们重点关注的是模型所学习的参数,所以对这方面得到的关注较少。 例如,我们可以在固定大多数参数的情况下,研究各种池化策略和残差连接的作用。

 

 

 

 

 

 

 

 

    

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值