吴恩达深度学习课程笔记（二）—— 深度卷积模型：案例研究

最新推荐文章于 2024-05-30 19:32:25 发布

Echo_`

最新推荐文章于 2024-05-30 19:32:25 发布

阅读量2.3k

点赞数 1

分类专栏：吴恩达深度学习笔记文章标签： cnn 深度学习神经网络

本文链接：https://blog.csdn.net/m0_53257476/article/details/122265304

版权

2 篇文章 0 订阅

订阅专栏

1、经典神经网络

1.假设输入图像的大小是32×32×1，我们用6个大小为5×5的过滤器，步幅为1，padding为0，对其进行一次卷积操作，输出图像的尺寸为28×28×6。
2.使用平均池化层，过滤器宽度为2，步幅为2，将图像缩小一半，故为14×14×6，使用16个大小为 5×5的过滤器，步幅为1，padding为0，对其进行一次卷积操作，输出图像的尺寸为10×10×16。
3.使用平均池化层，步幅为2，将图像的尺寸缩小为5×5×16。
4.将5×5×16的图像展开，得到包含400个节点，每个节点有120个神经元的全连接层，在400个节点中抽取一些节点构成2个全连接层，最后利用84个特征得到最后输出。

1.假设输入图像的大小为227×227×3，使用96个大小为11×11的过滤器，步幅为4，padding为0，对其进行卷积操作，输出图像尺寸为55×55×96。
2.使用最大池化层，过滤器大小为3×3，步幅为2，将图像的尺寸缩小为27×27×96。
3.使用256个大小为5×5的过滤器，对其进行same卷积操作，输出图像的尺寸为27×27×256。
4.使用最大池化层，过滤器宽度为3，步幅为2，将图像的尺寸缩小为13×13×256。
5.使用384个3×3的过滤器，对其连续执行两次same卷积操作，输出图像的尺寸为13×13×384。
6.使用256个3×3的过滤器，对其执行一次same卷积，输出图像的尺寸为13×13×256。
7.使用最大池化层，过滤器大小为3×3，步幅为2，将图像的尺寸缩小为6×6×256。
8.将6×6×256的图像展开，得到包含9216个单元，最后进行全连接层，使用softmax函数输出，看1000个可能的对象究竟是哪一个。

其CONV layer和POOL layer设置如下：

CONV = 3x3 filters, s = 1, same

MAX-POOL = 2x2, s = 2

1.假设输入图像的大小为224×224×3，使用64个大小为3×3的过滤器，步幅为1，对其进行same卷积操作且连续进行两次，输出图像的尺寸为224×224×64。
2.使用最大池化将输入图像压缩到112×112×64。
3.使用128个过滤器，对其进行same卷积操作且连续进行两次，输出图像的尺寸为112×112×128。
4.使用最大池化将图像压缩到56×56×128。
5.使用256个过滤器，对其进行same卷积操作且连续进行三次，输出图像的尺寸为56×56×256。
6.使用最大池化将图像压缩到28×28×128。
7.使用512个过滤器，对其进行same卷积操作且连续进行三次，输出图像的尺寸为28×28×512。
8.使用最大池化将图像压缩到14×14×512。
9.使用512个过滤器，对其进行same卷积操作且连续进行三次，输出图像的尺寸为14×14×512。
10.使用最大池化将图像压缩到7×7×512。
11.将7×7×512的图像进行两次全连接操作，使用两个具有4096个单元的全连接层，最后进行softmax激活，得到1000个输出的预测结果。

从 $a^{[l]}$ 开始进行线性激活，根据公式 $z^{[l+1]}=W^{[l+1]}a^{l}+b^{[l+1]}$ 计算 $z^{[l+1]}$ 的值。
然后通过ReLU非线性激活函数 $a^{[l+1]}=g(z^{[l+1]})$ 得到 $a^{[l+1]}$ 。
接着再次进行线性激活，根据公式 $z^{[l+2]}=W^{[l+2]}a^{[l+1]}+b^{[l+2]}$ 计算得到 $z^{[l+2]}$ 。
最后根据公式 $a^{[l+2]}=g(z^{[l+2]})$ 再次进行ReLU非线性激活。