《深度学习》花书 - 第九章 卷积网络

9 卷积网络

9.1 卷积运算
9.2 动机
9.3 池化
9.4 卷积与池化作为一种无限强的先验
9.5 基本卷积函数的变体
9.6 结构化输出
9.7 数据类型
9.8 高效的卷积算法

9.9 随机或无监督的特征

目的:减少训练卷积核的计算量

通常, 卷积网络训练中最昂贵的部分是学习特征。输出层的计算代价通常相对不高,因为在通过若干层池化之后作为该层输入的特征的数量较少。当使用梯度下降执行监督训练时,每步梯度计算需要完整地运行整个网络的前向传播和反向传播。减少卷积网络训练成本的一种方式是使用那些不是由监督方式训练得到的特征。

有三种基本策略可以不通过监督训练而得到卷积核

  • 其中一种是简单地随机初始化它们。
  • 另一种是手动设计它们,例如设置每个核在一个特定的方向或尺度来检测边缘。
  • 最后,可以使用无监督的标准来学习核。例如, Coates et al. 2011) 将 k 均值聚类算法应用于小图像块,然后使用每个学得的中心作为卷积核。第三部分描述了更多的无监督学习方法。使用无监督的标准来学习特征,允许这些特征的确定与位于网络结构顶层的分类层相分离。然后只需提取一次全部训练集的特征,构造用于最后一层的新训练集。假设最后一层类似逻辑回归或者 SVM,那么学习最后一层通常是凸优化问题。

随机过滤方法 - 适用于选择网络结构

随机过滤器经常在卷积网络中表现得出乎意料得好,由卷积和随后的池化组成的层,当赋予随机权重时,自然地变得具有频率选择性和平移不变性。这提供了一种廉价的方法来选择卷积网络的结构:首先通过仅训练最后一层来评估几个卷积网络结构的性能,然后选择最好的结构并使用更昂贵的方法来训练整个网络。

无监督预训练方法 - 不使用卷积训练卷积网络

学习特征,但是使用不需要在每个梯度计算步骤中都进行完整的前向和反向传播的方法。

多层感知机的使用贪心逐层预训练:单独训练第一层,然后一次性地从第一层提取所有特征,之后用那些特征单独训练第二层,以此类推。

卷积模型的贪心逐层预训练的经典模型是卷积深度信念网络(Lee et al., 2009)。 卷积网络为我们提供了相对于多层感知机更进一步采用预训练策略的机会。并非一次训练整个卷积层,我们可以训练一小块模型,就像 Coates et al. (2011) 使用 k 均值做的那样。然后,我们可以用小块模型的参数来定义卷积核。这意味着使用无监督学习来训练卷积网络可以在训练的过程中完全不使用卷积。

使用这种方法,我们可以训练非常大的模型,并且只在推断期间产生高计算成本。这种方法大约在 2007 到 2013 年间流行,当时标记的数据集很小,并且计算能力有限。如今,大多数卷积网络以纯粹监督的方式训练,在每次训练迭代中使用通过整个网络的完整的前向和反向传播。

与其他无监督预训练的方法一样,使用这种方法的一些好处仍然难以说清。无监督预训练可以提供一些相对于监督训练的正则化,或者它可以简单地允许我们训练更大的结构,因为它降低了计算成本。

9.10 卷积网络的神经科学基础

卷积网络也许是生物学启发人工智能的最为成功的案例。卷积网络的一些关键设计原则来自于神经科学。

《从视网膜到视皮层——视觉系统知多少》——中国科学院
http://www.sibs.cas.cn/kp/kptw/201606/t20160620_4623663.html

卷积网络的历史始于神经科学实验,远早于相关计算模型的发展。为了确定关于哺乳动物视觉系统如何工作的许多最基本的事实,神经生理学家 David Hubel 和Torsten Wiesel (获得了诺贝尔奖)记录猫的单个神经元的活动,他们的发现对当代深度学习模型有最大影响。他们观察了猫的脑内神经元如何响应投影在猫前面屏幕上精确位置的图像。他们发现,处于视觉系统较为前面的神经元对非常特定的光模式(例如精确定向的条纹)反应最强烈,但对其他模式几乎完全没有反应。

他们的工作有助于表征大脑功能的许多方面,这些方面超出了本书的范围。从深度学习的角度来看,我们可以专注于简化的、草图形式的大脑功能视图。

初级视觉皮层V1

在这个简化的视图中,我们关注被称为 V1 的大脑的一部分,也称为 初级视觉皮层( primary visual cortex)。 V1 是大脑对视觉输入开始执行显著高级处理的第一个区域。在该草图视图中,图像是由光到达眼睛并刺激视网膜(眼睛后部的光敏组织)形成的。视网膜中的神经元对图像执行一些简单的预处理,但是基本不改变它被表示的方式。然后图像通过视神经和称为外侧膝状核的脑部区域。这些解剖区域的主要作用是仅仅将信号从眼睛传递到位于头后部的 V1。

卷积网络层被设计为描述 V1 的三个性质:

  • V1 可以进行空间映射。它实际上具有二维结构来反映视网膜中的图像结构。例如,到达视网膜下半部的光仅影响 V1 相应的一半。 卷积网络通过用二维映射定义特征的方式来描述该特性。
  • V1 包含许多 简单细胞( simple cell)。简单细胞的活动在某种程度上可以概括为在一个小的空间位置感受野内的图像的线性函数。 卷积网络的检测器单元被设计为模拟简单细胞的这些性质(滑动窗口)。
  • V1 还包括许多 复杂细胞( complex cell)。这些细胞响应类似于由简单细胞检测的那些特征,但是复杂细胞对于特征的位置微小偏移具有不变性。这启发了卷积网络的池化单元。复杂细胞对于照明中的一些变化也是不变的,不能简单地通过在空间位置上池化来刻画。这些不变性激发了卷积网络中的一些跨通道池化策略,例如 maxout 单元 (Goodfellow et al., 2013b)。

祖母细胞

虽然我们最了解 V1,但是一般认为相同的基本原理也适用于视觉系统的其他区域。在我们视觉系统的草图视图中,当我们逐渐深入大脑时,遵循池化的基本探测策略被反复执行。当我们穿过大脑的多个解剖层时,我们最终找到了响应一些特定概念的细胞,并且这些细胞对输入的很多种变换都具有不变性。这些细胞被昵称为‘‘祖母细胞’’——这个想法是一个人可能有一个神经元,当看到他祖母的照片时该神经元被激活,无论祖母是出现在照片的左边或右边,无论照片是她的脸部的特写镜头还是她的全身照,也无论她处在光亮还是黑暗中,等等。

这些祖母细胞已经被证明确实存在于人脑中,在一个被称为内侧颞叶的区域(Quiroga et al., 2005)。研究人员测试了单个神经元是否会响应名人的照片。他们发现了后来被称为 “Halle Berry 神经元’’ 的神经元:由 Halle Berry 的概念激活的单个神经元。当一个人看到 Halle Berry 的照片, Halle Berry 的图画,甚至包含单词“Halle Berry’’ 的文本时,这个神经元会触发。当然,这与 Halle Berry 本人无关;其他神经元会对 Bill Clinton, Jennifer Aniston 等的出现做出响应。

这些内侧颞叶神经元比现代卷积网络更通用一些,这些网络在读取名称时不会自动联想到识别人或对象。与卷积网络的最后一层在特征上最接近的类比是称为颞下皮质( IT)的脑区。当查看一个对象时,信息从视网膜经 LGN 流到 V1,然后到V2, V4,之后是 IT。这发生在瞥见对象的前 100ms 内。如果允许一个人继续观察对象更多的时间,那么信息将开始回流,因为大脑使用自上而下的反馈来更新较低级脑区中的激活。然而,如果我们打断人的注视,并且只观察前 100ms 内的大多数前向激活导致的放电率,那么 IT 被证明与卷积网络非常相似。 卷积网络可以预测 IT放电率,并且在执行对象识别任务时与人类(时间有限的情况)非常类似 (DiCarlo,2013)。

卷积网络模拟哺乳动物视觉系统尚未解决的问题

卷积网络和哺乳动物的视觉系统之间还是有许多区别。这些区别有一些是计算神经科学家所熟知的,但超出了本书的范围。还有一些区别尚未知晓,因为关于哺乳动物视觉系统如何工作的许多基本问题仍未得到回答。

  • attention机制。人眼大部分是非常低的分辨率,除了一个被称为 中央凹( fovea)的小块。中央凹仅观察在手臂长度距离内一块拇指大小的区域。虽然我们觉得我们可以看到高分辨率的整个场景,但这是由我们的大脑的潜意识部分创建的错觉,因为它缝合了我们瞥见的若干个小区域。大多数卷积网络实际上接收大的全分辨率的照片作为输入。人类大脑控制几次眼动,称为 扫视( saccade),以瞥见场景中最显眼的或任务相关的部分。将类似的注意力机制融入深度学习模型是一个活跃的研究方向。在深度学习的背景下, 注意力机制对于自然语言处理是最成功的,参考第 12.4.5.1 节。研究者已经研发了几种具有视觉机制的视觉模型,但到目前为止还没有成为主导方法 (Larochelle and Hinton, 2010; Denil et al.,2012)。
  • 人类视觉系统集成了许多其他感觉,例如听觉,以及像我们的心情和想法一样的因素。 卷积网络迄今为止纯粹是视觉的。
  • 人类视觉系统不仅仅用于识别对象。它能够理解整个场景,包括许多对象和对象之间的关系,以及处理我们的身体与世界交互所需的丰富的三维几何信息。卷积网络已经应用于这些问题中的一些,但是这些应用还处于起步阶段。
  • 即使像 V1 这样简单的大脑区域也受到来自较高级别的反馈的严重影响。反馈已经在神经网络模型中被广泛地探索,但还没有被证明提供了引人注目的改进。
  • 虽然前馈 IT 放电频率刻画了与卷积网络特征很多相同的信息,但是仍不清楚中间计算的相似程度。大脑可能使用非常不同的激活和池化函数。单个神经元的激活可能不能用单个线性过滤器的响应来很好地表征。最近的 V1 模型涉及对每个神经元的多个二次过滤器 (Rust et al., 2005)。事实上,我们的 ‘‘简单细胞’’ 和 ‘‘复杂细胞’’ 的草图图片可能并没有区别;简单细胞和复杂细胞可能是相同种类的细胞,但是它们的 ‘‘参数’’ 使得它们能够实现从我们所说的 ‘‘简单’’到 ‘‘复杂’’ 的连续的行为。

神经科学能给训练网络启发吗

值得一提的是,神经科学几乎没有提到如何训练卷积网络。最早的具有跨多个空间位置的参数共享的模型结构,应该追溯到1976年的关于视觉的“联结主义模型”,但是他们没有使用现代的BP和梯度下降等。1988年Lang and Hinton引入BP来训练 时延神经网络( time delay neural network, TDNN),它是一种1维卷积网络。用到的反向传播并不是受到任何神经科学的启发提出的,还被一些人认为是生物不可信的。TDNN 成功之后, LeCun et al. (1989) 通过将相同的训练算法应用于图像的 2 维卷积,发展了现代卷积网络。

单个简单细胞是如何导致神经元激活的

  • 如何查看生物神经元的权重

在深度非线性网络中,可能难以理解单个细胞的功能。第一层中的简单细胞相对更容易分析,因为它们的响应由线性函数驱动。在人工神经网络中,我们可以直接显示卷积核的图像,来查看卷积层的相应通道是如何响应的。在生物神经网络中,我们不能访问权重本身。相反,我们在神经元自身中放置一个电极,在动物视网膜前显示几个白噪声图像样本,并记录这些样本中的每一个是如何导致神经元激活的。然后,我们可以对这些响应拟合线性模型,以获得近似的神经元权重。这种方法被称为 反向相关( reverse correlation) (Ringach and Shapley, 2004)。

  • 简单细胞对图像的相应

反向相关向我们表明,大多数的 V1 细胞具有由 Gabor 函数( Gabor function)所描述的权重。 Gabor 函数描述在图像中的 2 维点处的权重。我们可以认为图像是2 维坐标 I(x; y) 的函数。类似地,我们可以认为简单细胞是在图像中的一组位置采样,这组位置由一组 x 坐标 X 和一组 y 坐标 Y 来定义,并且使用的权重 w(x; y) 也是位置的函数。从这个观点来看,简单细胞对于图像的响应由下式给出
s ( I ) = ∑ x ∈ X ∑ y ∈ Y w ( x , y

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值