吴恩达第二周深度卷积网络：实例探究 2.2 经典网络（Classic networks ）

最新推荐文章于 2022-06-23 17:11:02 发布

Clark-dj

最新推荐文章于 2022-06-23 17:11:02 发布

阅读量261

点赞数

分类专栏：人工智能杂七杂八

本文链接：https://blog.csdn.net/dujuancao11/article/details/105382976

版权

人工智能杂七杂八专栏收录该内容

111 篇文章 25 订阅

订阅专栏

2.2 经典网络（Classic networks ）

学习几个经典的神经网络结构，分别是 LeNet-5、AlexNet 和 VGGNet

看看 LeNet-5 的网络结构，假设你有一张 32×32×1 的图片，LeNet-5 可以识别图中

的手写数字，比如像这样手写数字 7。LeNet-5 是针对灰度图片训练的，所以图片的大小只

有 32×32×1，使用 6 个 5×5的过滤器，步幅为 1。由于使用了 6 个过滤器，步幅为 1，padding 为 0，输出结果为 28×28×6，图像尺寸从 32×32 缩小到 28×28。然后进行池化操作，在这篇论文写成的那个年代，人们更喜欢使用平均池化，而现在我们可能用最大池化更多一些。在这个例子中，我们进行平均池，过滤器的宽度为 2，步幅为 2，图像的尺寸，高度和宽度都缩小了 2 倍，输出结果是一个 14×14×6 的图像。我觉得这张图片应该不是完全按照比例绘制的，如果严格按照比例绘制，新图像的尺寸应该刚好是原图像的一半。

接下来是卷积层，我们用一组 16 个 5×5 的过滤器，新的输出结果有 16 个通道。LeNet-5 的论文是在 1998 年撰写的，当时人们并不使用 padding，或者总是使用 valid 卷积，这就是为什么每进行一次卷积，图像的高度和宽度都会缩小，所以这个图像从 14 到 14 缩小到了10×10。然后又是池化层，高度和宽度再缩小一半，输出一个 5×5×16 的图像。将所有数字相乘，乘积是 400。

下一层是全连接层，在全连接层中，有 400 个节点，每个节点有 120 个神经元，这里已经有了一个全连接层。但有时还会从这 400 个节点中抽取一部分节点构建另一个全连接层，就像这样，有 2 个全连接层。

最后一步就是利用这 84 个特征得到最后的输出，我们还可以在这里再加一个节点用来预测y 的值，y有 10 个可能的值，对应识别 0-9 这 10 个数字。在现在的版本中则使用 softmax函数输出十种分类结果，而在当时，LeNet-5 网络在输出层使用了另外一种，现在已经很少用到的分类器。

相比现代版本，这里得到的神经网络会小一些，只有约 6 万个参数。而现在，我们经常看到含有一千万到一亿个参数的神经网络，比这大 1000 倍的神经网络也不在少数。不管怎样，如果我们从左往右看，随着网络越来越深，图像的高度和宽度在缩小，从最初的 32×32 缩小到 28×28，再到 14×14、10×10，最后只有 5×5。与此同时，随着网络层次的加深，通道数量一直在增加，从 1 增加到 6 个，再到 16 个。