经典网络：LeNet-5

最新推荐文章于 2024-01-27 20:35:13 发布

双木的木

最新推荐文章于 2024-01-27 20:35:13 发布

阅读量547

点赞数

分类专栏：吴恩达深度学习笔记深度学习知识点储备笔记文章标签：神经网络网络卷积神经网络人工智能深度学习

本文链接：https://blog.csdn.net/csdn_xmj/article/details/116546572

版权

笔记同时被 3 个专栏收录

164 篇文章 49 订阅

订阅专栏

吴恩达深度学习笔记

91 篇文章 174 订阅

订阅专栏

深度学习知识点储备

68 篇文章 4 订阅

订阅专栏

来源：Coursera吴恩达深度学习课程

Andrew对几个经典的神经网络结构（classic neural network architectures）论文的阅读建议为首先是AlexNet，然后是VGGNet，最后是LeNet-5。虽然有些晦涩难懂，但对于了解这些网络结构很有帮助。

上图是LeNet-5的网络结构，假设有一张32×32×1的图片（输入），LeNet-5可以识别图中的手写数字，比如像这样手写数字7。LeNet-5是针对灰度图片训练的，所以图片的大小只有32×32×1。实际上LeNet-5的结构和我们上周讲的最后一个范例非常相似，使用6个5×5的过滤器，步幅为1。由于使用了6个过滤器，步幅为1，padding为0，输出结果为28×28×6，图像尺寸从32×32缩小到28×28。然后进行池化（pooling）操作，在这篇论文发波的那个年代，人们更喜欢使用平均池化，而现在我们可能用最大池化更多一些。在这个例子中，我们进行平均池化，过滤器的宽度为2，步幅为2，图像的尺寸，高度和宽度都缩小了2倍，输出结果是一个14×14×6的图像。这张图片应该不是完全按照比例绘制的，如果严格按照比例绘制，新图像的尺寸应该刚好是原图像的一半。

接下来是卷积层，用一组16个5×5的过滤器，新的输出结果有16个通道。LeNet-5的论文是在1998年撰写的，当时人们并不使用padding，或者总是使用valid卷积，这就是为什么每进行一次卷积，图像的高度和宽度都会缩小，所以这个图像从14到14缩小到了10×10。然后又是池化层，高度和宽度再缩小一半，输出一个5×5×16的图像。将所有数字相乘，乘积是400。

下一层是全连接层，在全连接层中，有400个节点，每个节点有120个神经元，这里已经有了一个全连接层。但有时还会从这400个节点中抽取一部分节点构建另一个全连接层，就像这样，有2个全连接层。

最后一步就是利用这84个特征得到最后的输出，我们还可以在这里再加一个节点用来预测y帽的值，y帽有10个可能的值（对应识别0-9这10个数字）。在现在的版本中则使用softmax函数输出十种分类结果，而在当时，LeNet-5网络在输出层使用了另外一种，现在已经很少用到的分类器。

相比现代版本，这里得到的神经网络会小一些，只有约6万个参数。而现在经常看到含有一千万（10 million）到一亿（100 million）个参数的神经网络，比这大1000倍的神经网络也不在少数。

不管怎样，如果我们从左往右看，随着网络越来越深，图像的高度和宽度在缩小，从最初的32×32缩小到28×28，再到14×14、10×10，最后只有5×5。与此同时，随着网络层次的加深，通道数量一直在增加，从1增加到6个，再到16个。

这个神经网络中还有一种模式（other pattern）至今仍然经常用到，就是一个或多个卷积层后面跟着一个池化层，然后又是若干个卷积层再接一个池化层，然后是全连接层，最后是输出，这种排列方式很常用。

对于那些想尝试阅读经典论文的同学，Andrew再补充几点，会更加深入。这些内容你完全可以跳过，算是对神经网络历史的一种回顾吧，听不懂也不要紧。

①读到这篇经典论文时，你会发现，过去人们使用sigmoid函数和tanh函数，而不是ReLu函数，这篇论文中使用的正是sigmoid函数和tanh函数。这种网络结构的特别之处还在于，各网络层之间是有关联的，这在今天看来显得很有趣。

②经典的LeNet-5网络使用了非常复杂的计算方式，每个过滤器都采用和输入模块一样的通道数量。论文中提到的这些复杂细节，现在一般都不用了。

③Andrew认为当时所进行的最后一步其实到现在也还没有真正完成，就是经典的LeNet-5网络在池化后进行了非线性函数处理，在这个例子中，池化层之后使用了sigmoid函数。如果你真的去读这篇论文，这会是最难理解的部分之一，我们会在后面的课程中讲到。

总的来说，上图要讲的网络结构简单一些，来自于原文的第二段（section two）和第三段，原文的后几段介绍了另外一种思路。文中提到的这种图形变形网络如今并没有得到广泛应用，所以在读这篇论文的时候，Andrew建议精读第二段，这段重点介绍了这种网络结构。泛读第三段，这里面主要是一些有趣的实验结果（experimental results）。

说明：记录学习笔记，如果错误欢迎指正！转载请联系我。

双木的木

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
2
评论
经典网络：LeNet-5

来源：Coursera吴恩达深度学习课程Andrew对几个经典的神经网络结构（classic neural network architectures）的建议阅读顺序为AlexNet、LeNet-5和VGGNet。上图是LeNet-5的网络结构，假设有一张32×32×1的图片（输入），LeNet-5可以识别图中的手写数字，比如像这样手写数字7。LeNet-5是针对灰度图片训练的，所以图片的大小只有32×32×1。实际上LeNet-5的结构和我们上周讲的最后一个范例非常相似，使用6个5×5的过滤器
复制链接

扫一扫

专栏目录