吴恩达深度学习：简单卷积网络

最新推荐文章于 2024-10-12 15:10:49 发布

原创最新推荐文章于 2024-10-12 15:10:49 发布 · 875 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#卷积 #神经网络

深度学习专栏收录该内容

38 篇文章

订阅专栏

本文介绍了卷积神经网络（CNN）的构建过程，包括卷积层的设置，如过滤器大小、步幅和填充，并通过一个示例展示了图像从39×39×3输入经过多层卷积后的特征提取。讨论了网络深度增加时图像尺寸的变化和通道数的增长。文章强调了正确选择超参数的重要性，并预告了接下来将探讨池化层和全连接层的构建。

考研人信息库

此公众号会发表计算机考研（初复试信息）、夏令营等资料，方便考研人对信息的获取，节约自身查找资料的时间，回复408，可获得数据结构、操作系统、计算机网络、计算机组成原理全科资料

简单卷积网络示例 (A Simple Convolution Network Example)

上节课，我们讲了如何为卷积网络构建一个卷积层。今天我们看一个深度卷积神经网络的具体示例，顺便练习一下我们上节课所学的标记法。

假设你有一张图片，你想做图片分类或图片识别，把这张图片输入定义为 x x x ，然后辨别图片中有没有猫，用0或1表示，这是一个分类问题，我们来构建适用于这项任务的卷积神经网络。针对这个示例，我用了一张比较小的图片，大小是39×39×3，这样设定可以使其中一些数字效果更好。所以 n H [ 0 ] = n W [ 0 ] n_H^{[0]}=n_W^{[0]} nH[0]=nW[0] ，即高度和宽度都等于39， n c [ 0 ] = 3 n_c^{[0]}=3 nc[0]=3 ，即0层的通道数为3。

在这里插入图片描述
假设第一层我们用一个3×3的过滤器来提取特征，那么 f [ 1 ] = 3 f^{[1]}=3 f[1]=3 ，因为过滤器时3×3的矩阵。 s [ 1 ] = 1 ， p [ 1 ] = 0 s^{[1]}=1，p^{[1]}=0 s[1]=1，p[1]=0 ，所以高度和宽度使用valid卷积。如果有10个过滤器，神经网络下一层的激活值为37×37×10，写10是因为我们用了10个过滤器，37是公式 n + 2 p − f s + 1 \frac{n+2p-f}{s}+1 sn+2p−f+1 的计算结果，也就是 39 + 0 − 3 1 + 1 = 37 \frac{39+0-3}{1}+1=37 139+0−3+1=37 ，所以输出是37×37，它是一个vaild卷积，这是输出结果的大小。第一层标记为 n H [ 1 ] = n W [ 1 ] = 37 ， n c [ 1 ] = 10 n_H^{[1]}=n_W^{[1]}=37，n_c^{[1]}=10 nH[1]=nW[1]=37，nc[1]=10 ， n c [ 1 ] n_c^{[1]} nc[1] 等于第一层中过滤器的个数，这（37×37×10）是第一层激活值的维度。

在这里插入图片描述
假设还有另外一个卷积层，这次我们采用的过滤器是5×5的矩阵。在标记法中，神经网络下一层的 f = 5 f=5 f=5 ，即步幅 f [ 2 ] = 5 f^{[2]}=5 f[2]=5 为2，即 s [ 2 ] = 2 s^{[2]}=2 s[2]=2 。padding为0，即 p [ 2 ] = 0 p^{[2]}=0 p[2]=0 ，且有20个过滤器。所以其输出结果会是一张新图像，这次的输出结果为17×17×20，因为步幅是2，维度缩小得很快，大小从37×37减小到17×17，减小了一半还多，过滤器是20个，所以通道数也是20，17×17×20即激活值 a [ 2 ] a^{[2]} a[2] 的维度。因此 n H [ 2 ] = n W [ 2 ] = 17 ， n c [ 2 ] = 20 n_H^{[2]}=n_W^{[2]}=17，n_c^{[2]}=20 nH[2]=nW[2]=17，nc[2]=20 。

在这里插入图片描述
我们来构建最后一个卷积层，假设过滤器还是5×5，步幅为2，即 f [ 2 ] = 5 ， s [ 3 ] = 2 f^{[2]}=5，s^{[3]}=2 f[2]=5，s[3]=2 ，计算过程我跳过了，最后输出为7×7×40，假设使用了40个过滤器。padding为0，40个过滤器，最后结果为7×7×40。

在这里插入图片描述
到此，这张39×39×3的输入图像就处理完毕了，为图片提取了7×7×40个特征，计算出来就是1960个特征。然后对该卷积进行处理，可以将其平滑或展开成1960个单元。平滑处理后可以输出一个向量，其填充内容是logistic回归单元还是softmax回归单元，完全取决于我们是想识图片上有没有猫，还是想识别 K K K 种不同对象中的一种，用 y ^ \hat{y} y^ 表示最终神经网络的预测输出。明确一点，最后这一步是处理所有数字，即全部的1960个数字，把它们展开成一个很长的向量。为了预测最终的输出结果，我们把这个长向量填充到softmax回归函数中。

这是卷积神经网络的一个典型范例，设计卷积神经网络时，确定这些超参数比较费工夫。要决定过滤器的大小、步幅、padding以及使用多少个过滤器。这周和下周，我会针对选择参数的问题提供一些建议和指导。

在这里插入图片描述
而这节课你要掌握的一点是，随着神经网络计算深度不断加深，通常开始时的图像也要更大一些，初始值为39×39，高度和宽度会在一段时间内保持一致，然后随着网络深度的加深而逐渐减小，从39到37，再到17，最后到7。而通道数量在增加，从3到10，再到20，最后到40。在许多其它卷积神经网络中，你也可以看到这种趋势。关于如何确定这些参数，后面课上我会更详细讲解，这是我们讲的第一个卷积神经网络示例。

一个典型的卷积神经网络通常有三层，一个是卷积层，我们常常用Conv来标注。上一个例子，我用的就是CONV。还有两种常见类型的层，我们留在后两节课讲。一个是池化层，我们称之为POOL。最后一个是全连接层，用FC表示。虽然仅用卷积层也有可能构建出很好的神经网络，但大部分神经望楼架构师依然会添加池化层和全连接层。幸运的是，池化层和全连接层比卷积层更容易设计。后两节课我们会快速讲解这两个概念以便你更好的了解神经网络中最常用的这几种层，你就可以利用它们构建更强大的网络了。

在这里插入图片描述
再次恭喜你已经掌握了第一个卷积神经网络，本周后几节课，我们会学习如何训练这些卷积神经网络。不过在这之前，我还要简单介绍一下池化层和全连接层。然后再训练这些网络，到时我会用到大家熟悉的反向传播训练方法。那么下节课，我们就先来了解如何构建神经网络的池化层。