卷积神经网络 - 从全连接层到卷积

最新推荐文章于 2024-08-19 17:28:40 发布

未来影子

最新推荐文章于 2024-08-19 17:28:40 发布

阅读量926

点赞数

分类专栏：深度学习文章标签： cnn 计算机视觉深度学习

本文链接：https://blog.csdn.net/mynameisgt/article/details/126908959

版权

深度学习专栏收录该内容

71 篇文章 32 订阅

订阅专栏

文章目录

从全连接层到卷积

从全连接层到卷积

我们之前讨论的多层感知机⼗分适合处理表格数据，其中⾏对应样本，列对应特征。对于表格数据，我们寻找的模式可能涉及特征之间的交互，但是我们不能预先假设任何与特征交互相关的先验结构。此时，多层感知机可能是最好的选择，然⽽对于⾼维感知数据，这种缺少结构的⽹络可能会变得不实⽤

例如，在之前猫狗分类的例⼦中：假设我们有⼀个⾜够充分的照⽚数据集，数据集中是拥有标注的照⽚，每张照⽚具有百万级像素，这意味着⽹络的每次输⼊都有⼀百万个维度。即使将隐藏层维度降低到1000，这个连接层也将有 $10^6 × 10^3 = 10^9$ 个参数。想要训练这个模型将不可实现，因为需要有⼤量的GPU、分布式优化训练的经验和超乎常⼈的耐⼼

有些读者可能会反对这个观点，认为要求百万像素的分辨率可能不是必要的。然⽽，即使分辨率减⼩为⼗万像素，使⽤1000个隐藏单元的隐藏层也可能不⾜以学习到良好的图像特征，在真实的系统中我们仍然需要数⼗亿个参数。此外，拟合如此多的参数还需要收集⼤量的数据。然⽽，如今⼈类和机器都能很好地区分猫和狗：这是因为图像中本就拥有丰富的结构，⽽这些结构可以被⼈类和机器学习模型使⽤。卷积神经⽹络（convolutional neural networks，CNN）是机器学习利⽤⾃然图像中⼀些已知结构的创造性⽅法

1 - 不变性

想象⼀下，假设你想从⼀张图⽚中找到某个物体。合理的假设是：⽆论哪种⽅法找到这个物体，都应该和物体的位置⽆关。理想情况下，我们的系统应该能够利⽤常识：猪通常不在天上⻜，⻜机通常不在⽔⾥游泳。但是，如果⼀只猪出现在图⽚顶部，我们还是应该认出它。我们可以从⼉童游戏”沃尔多在哪⾥”（图6.1.1）中得到灵感：在这个游戏中包含了许多充斥着活动的混乱场景，⽽沃尔多通常潜伏在⼀些不太可能的位置，读者的⽬标就是找出他。尽管沃尔多的装扮很有特点，但是在眼花缭乱的场景中找到他也如⼤海捞针。然⽽沃尔多的样⼦并不取决于他潜藏的地⽅，因此我们可以使⽤⼀个“沃尔多检测器”扫描图像。该检测器将图像分割成多个区域，并为每个区域包含沃尔多的可能性打分。卷积神经⽹络正是将空间不变性（spatial invariance）的这⼀概念系统化，从⽽基于这个模型使⽤较少的参数来学习有⽤的表⽰

现在，我们将上述想法总结一下，从而帮助我们涉及适合于计算机视觉的神经网络架构：

平移不变性（translation invariance）：不管检测对象出现在图像中的哪个位置，神经网络的前面几层应该对相同的图像区域具有相似的反应，即为“平移不变性”
局部性（locality）：神经网络的前面几层应该只探索输入图像中的局部区域，而不过度在意图像中相隔较远区域的关系，这就是“局部性”原则。最终，可以聚合这些局部特征，以在整个图像级别进行预测

2 - 多层感知机的限制

平移不变性

局部性

3 - 卷积

这看起来类似于 (6.1.3)，但有⼀个主要区别：这⾥不是使⽤(i + a, j + b)，⽽是使⽤差值。然⽽，这种区别是表⾯的，因为我们总是可以匹配 (6.1.3)和 (6.1.6)之间的符号。我们在 (6.1.3)中的原始定义更正确地描述了互相关（cross-correlation），这个问题将在下⼀节中讨论