卷积神经网络 - 从全连接层到卷积

从全连接层到卷积

我们之前讨论的多层感知机⼗分适合处理表格数据,其中⾏对应样本,列对应特征。对于表格数据,我们寻找的模式可能涉及特征之间的交互,但是我们不能预先假设任何与特征交互相关的先验结构。此时,多层感知机可能是最好的选择,然⽽对于⾼维感知数据,这种缺少结构的⽹络可能会变得不实⽤

例如,在之前猫狗分类的例⼦中:假设我们有⼀个⾜够充分的照⽚数据集,数据集中是拥有标注的照⽚,每张照⽚具有百万级像素,这意味着⽹络的每次输⼊都有⼀百万个维度。即使将隐藏层维度降低到1000,这个连接层也将有 1 0 6 × 1 0 3 = 1 0 9 10^6 × 10^3 = 10^9 106×103=109个参数。想要训练这个模型将不可实现,因为需要有⼤量的GPU、分布式优化训练的经验和超乎常⼈的耐⼼

有些读者可能会反对这个观点,认为要求百万像素的分辨率可能不是必要的。然⽽,即使分辨率减⼩为⼗万像素,使⽤1000个隐藏单元的隐藏层也可能不⾜以学习到良好的图像特征,在真实的系统中我们仍然需要数⼗亿个参数。此外,拟合如此多的参数还需要收集⼤量的数据。然⽽,如今⼈类和机器都能很好地区分猫和狗:这是因为图像中本就拥有丰富的结构,⽽这些结构可以被⼈类和机器学习模型使⽤。卷积神经⽹络(convolutional neural networks,CNN)是机器学习利⽤⾃然图像中⼀些已知结构的创造性⽅法

1 - 不变性

想象⼀下,假设你想从⼀张图⽚中找到某个物体。合理的假设是:⽆论哪种⽅法找到这个物体,都应该和物体的位置⽆关。理想情况下,我们的系统应该能够利⽤常识:猪通常不在天上⻜,⻜机通常不在⽔⾥游泳。但是,如果⼀只猪出现在图⽚顶部,我们还是应该认出它。我们可以从⼉童游戏”沃尔多在哪⾥”(图6.1.1)中得到灵感:在这个游戏中包含了许多充斥着活动的混乱场景,⽽沃尔多通常潜伏在⼀些不太可能的位置,读者的⽬标就是找出他。尽管沃尔多的装扮很有特点,但是在眼花缭乱的场景中找到他也如⼤海捞针。然⽽沃尔多的样⼦并不取决于他潜藏的地⽅,因此我们可以使⽤⼀个“沃尔多检测器”扫描图像。该检测器将图像分割成多个区域,并为每个区域包含沃尔多的可能性打分。卷积神经⽹络正是将空间不变性(spatial invariance)的这⼀概念系统化,从⽽基于这个模型使⽤较少的参数来学习有⽤的表⽰

现在,我们将上述想法总结一下,从而帮助我们涉及适合于计算机视觉的神经网络架构:

  1. 平移不变性(translation invariance):不管检测对象出现在图像中的哪个位置,神经网络的前面几层应该对相同的图像区域具有相似的反应,即为“平移不变性”
  2. 局部性(locality):神经网络的前面几层应该只探索输入图像中的局部区域,而不过度在意图像中相隔较远区域的关系,这就是“局部性”原则。最终,可以聚合这些局部特征,以在整个图像级别进行预测

2 - 多层感知机的限制

平移不变性

局部性

3 - 卷积


这看起来类似于 (6.1.3),但有⼀个主要区别:这⾥不是使⽤(i + a, j + b),⽽是使⽤差值。然⽽,这种区别是表⾯的,因为我们总是可以匹配 (6.1.3)和 (6.1.6)之间的符号。我们在 (6.1.3)中的原始定义更正确地描述了互相关(cross-correlation),这个问题将在下⼀节中讨论

4 - “沃尔多在哪里”回顾

通道


然而,仍有许多问题待解决。例如,图像中是否到处都有存在沃尔多的可能?如何有效地计算输出层?如何选择适当的激活函数?为了训练有效的网络,如何做出合理的网络设计选择?

5 - 小结

  • 图像的平移不变性使我们以相同的方式处理局部图像,而不在乎它的位置
  • 局部性意味着计算相应的隐藏表示只需一小部分局部图像像素
  • 在图像处理中,卷积层通常比全连接层需要更少的参数,但依旧获得高效用的模型
  • 卷积神经网络(CNN)是一类特殊的神经网络,它可以包含多个卷积层
  • 多个输入和输出通道使模型在每个空间位置可以获取图像的多方面特征
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值