深度学习课堂总结——2023,03,26

卷积神经网络结构

引言

        我们为什么引入卷积神经网络?我们知道,在处理图片(大型数组)时,MLP存在严重的参数爆炸:如果我们选则全连接层,假设我们输入1200万像素的图片,选则Batch_Size为8,第一个隐藏层神经元数量为128,综合上面条件,我们需要计算第一层w的数量可以达到10亿以上!

         可以使用卷积神经网络来解决这个问题。

卷积层

        下图给出了一个简单的卷积示例,在卷积神经网络这里,我们不区分卷积和相关计算:

         对这个简单的3*3矩阵利用2*2卷积核进行卷积得到的结果的计算过程如下所示:

        其中的卷积核就是我们需要利用深度学习得到参数的部分,包括卷积核的参数w以及偏置b。此外我们需要手动确定的常见超参数包括卷积核的尺寸、步幅、填充以及输入输出通道数。

        在这里我们想理解卷积层可以回忆之前在图像处理时学习的利用卷积窗口如何对图像处理,下面的图像中就是利用模板操作处理图像的实例,就是利用卷积操作实现的。

步幅和填充

        上图可以很清地反映步幅和步幅和填充处理对输出形状的影响,简单而言步幅是卷积核每次移动的距离大小,填充是对图像的外侧加入0值像素框,左下的一图加入两侧为1的填充,步幅大小为垂直步幅为3,水平步幅为2的卷积结果。一般设置卷积层步幅设置为1,此时仅有填充影响就,仅加入填充的结果如下图所示:

输入输出通道数

        上图显而易见的给出了输入输出通道数对输出情况的影响,卷积核的数量同样由输入输出的通道数确定。

 池化层(汇聚层)

         汇聚层分为平均汇聚层和最大汇聚层,对于汇聚层它的步幅和填充通常有一些通用的设置,最常用的就是2*2的卷积核,设置步幅为2。这样可以保证核在移动时可以不发生重合。它的输入输出通道数一致,输出通道数由上一层输出通道数确定,不发生维度变化。因为这种特性,加入汇聚层不需要学习新的参数,不会增大模型的学习量。

 LeNet

在本周课程最后我们学习了LeNet,它是最早发布的卷积神经网络之一,因其在计算机视觉任务中的高效性能而受到广泛关注。LeNet被广泛用于自动取款机(ATM)机中,帮助识别处理支票的数字。 时至今日,一些自动取款机仍在运行这种代码!下面一张图可以反映LeNet的结构特征:

它处理手写数字的示意图如下图所示:

 这种传统的LeNet与现在网络的区别在于:

1.卷积时不进行填充;

2.池化层选择了平均池化层而不是最大池化层;

3.激活函数选则了Sigmoid而不是tanh或是RelU;

4.层数较浅,参数的数量较少。

        本文为CNN卷积神经网络结构简述,同时简单的给出了LeNet——最原始的卷积神经网络的具体结构以及与现代神经网咯的区别,这些区别同时给出了我们优化LeNet的思路。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值