卷积神经网络(CNN)


自己整理了一下有关CNN的资料,大多参考别的博主的,博主的链接已在文中附上,有些可能写的急,未标明,如有需要,请联系我。

经典卷积神经网络(CNN)

LeNet-5模型:第一个成功应用于数字数字识别的卷积神经网络模型
AlexNet 模型:2012 ILSVRC比赛远超第2名的CNN,比LeNet更深,用多层小卷积层叠加替换单大卷积层。
GoogleNet 模型
VGGNet 模型:2014 ILSVRC比赛中的模型,图像识别略差于GoogLeNet,但是在很多图像转化学习问题(比如object detection)上效果奇好
ResNet模型
在这里插入图片描述

卷积神经网络结构

从神经网络到卷积神经网络(CNN)

传统神经网络

参考:参考博客
全连接神经网络中,每相邻两层之间的每个神经元之间都是有边相连的。当输入层的特征维度变得很高时,这时全连接网络需要训练的参数就会增大很多,计算速度就会变得很慢,例如一张黑白的的手写数字图片,输入层的神经元就有784个,如下图所示:
图一
若在中间只使用一层隐藏层,参数就有好多,所以传统的神经网络处理图像有参数过多问题。

CNN

卷积神经网络(Convolutional Neural Network,CNN)中,卷积层的神经元只与前一层的部分神经元节点相连,即它的神经元间的连接是非全连接的,且同一层中某些神经元之间的连接的权重和偏移是共享的(即相同的),这样大量地减少了需要训练参数的数量。

CNN结构

卷积神经网络CNN的结构一般包含这几个层:
输入层:用于数据的输入
卷积层:使用卷积核进行特征提取和特征映射
激励层:由于卷积也是一种线性运算,因此需要增加非线性映射
池化层:进行下采样,对特征图稀疏处理,减少数据运算量。
全连接层:通常在CNN的尾部进行重新拟合,减少特征信息的损失
输出层:用于输出结果
当然中间还可以使用一些其他的功能层:
归一化层(Batch Normalization):在CNN中对特征的归一化
切分层:对某些(图片)数据的进行分区域的单独学习
融合层:对独立进行特征学习的分支进行融合

输入层

对于黑白的的图片,CNN的输入是一个二维神经元,如下图所示:
在这里插入图片描述
而对于RGB格式的图片,CNN的输入则是一个 的三维神经元(RGB中的每一个颜色通道都有一个的矩阵),如下图所示:
在这里插入图片描述
该层要做的处理主要是对原始图像数据进行预处理,其中包括:
  • 去均值:把输入数据各个维度都中心化为0,如下图所示,其目的就是把样本的中心拉回到坐标系原点上。
  • 归一化:幅度归一化到同样的范围,如下所示,即减少各维度数据取值范围的差异而带来的干扰,比如,我们有两个维度的特征A和B,A范围是0到10,而B范围是0到10000,如果直接使用这两个特征是有问题的,好的做法就是归一化,即A和B的数据都变为0到1的范围。
  • PCA/白化:用PCA降维;白化是对数据各个特征轴上的幅度归一化
去均值与归一化效果图:
在这里插入图片描述
去相关与白化效果图:
在这里插入图片描述

卷积层

在卷积层中有几个重要的概念:

  • local receptive fields(感受视野)
  • shared weights(共享权值)
    假设输入的是一个的的二维神经元,我们定义一个 local receptive fields(感受视野),即隐藏层的神经元与输入层的个神经元相连,这个 5 ∗ 5 5*5 55的区域就称之为Local Receptive Fields,如下图所示:
    在这里插入图片描述
    在这里插入图片描述
    具体计算如下:
    在这里插入图片描述
    矩阵称为卷积核 ;将感受视野对输入的扫描间隔称为步长(stride);当步长比较大时(stride>1),为了扫描到边缘的一些特征,感受视野可能会“出界”,这时需要对边界扩充(pad),步长和边界扩充值的大小由用户来定义。
    卷积核的大小由用户来定义,即定义的感受视野的大小;卷积核的权重矩阵的值,便是卷积神经网络的参数,为了有一个偏移项 ,卷积核可附带一个偏移项,它们的初值可以随机来生成,可通过训练进行变化。
    扫描生成的下一层神经元矩阵称为 一个feature map (特征映射图),同一个 feature map 上的神经元使用的卷积核是相同的,因此这些神经元 shared weights(权值共享),共享卷积核中的权值和附带的偏移。
    一个 feature map 对应 一个卷积核,若我们使用 3 个不同的卷积核,可以输出3个feature map:
    在这里插入图片描述
    另外附一张多个卷积核的计算:
    在这里插入图片描述
    附一个卷积核个数:参考链接
    有多少个卷积核,经过卷积就会产生多少个feature map,(下图红线标出部分)
    如果上一层输出64个featuremap ,下一层的filter 的channel 就会变为64(必须这样),一个filter做卷积的话将会在64个featuremap组成的64channel上做,如果有128个filter,将再次生成128个featuremap,而不是128*64
    在这里插入图片描述
    附:Dropout
    Dropout可以比较有效的缓解过拟合的发生,在一定程度上达到正则化的效果。
    假设我们要训练这样一个神经网络:
    在这里插入图片描述
    输入是x输出是y,正常的流程是:我们首先把x通过网络前向传播,然后把误差反向传播以决定如何更新参数让网络进行学习。使用Dropout之后,过程变成如下:
    (1)首先随机(临时)删掉网络中一半的隐藏神经元,输入输出神经元保持不变(图3中虚线为部分临时被删除的神经元)
    在这里插入图片描述
    (2) 然后把输入x通过修改后的网络前向传播,然后把得到的损失结果通过修改的网络反向传播。一小批训练样本执行完这个过程后,在没有被删除的神经元上按照随机梯度下降法更新对应的参数(w,b)。
    (3)然后继续重复这一过程:. 恢复被删掉的神经元(此时被删除的神经元保持原样,而没有被删除的神经元已经有所更新). 从隐藏层神经元中随机选择一个一半大小的子集临时删除掉(备份被删除神经元的参数)。. 对一小批训练样本,先前向传播然后反向传播损失并根据随机梯度下降法更新参数(w,b) (没有被删除的那一部分参数得到更新,删除的神经元参数保持被删除前的结果)。不断重复这一过程。
    注意只在训练阶段。

激励层

激励层主要对卷积层的输出进行一个非线性映射,因为卷积层的计算还是一种线性计算。使用的激励函数一般为ReLu函数:
在这里插入图片描述
卷积层和激励层通常合并在一起称为“卷积层”。
(别人)激励层的实践经验:
  ①不要用sigmoid!不要用sigmoid!不要用sigmoid!
  ② 首先试RELU,因为快,但要小心点
  ③ 如果2失效,请用Leaky ReLU或者Maxout
  ④ 某些情况下tanh倒是有不错的结果,但是很少

池化层

当输入经过卷积层时,若感受视野比较小,步长stride比较小,得到的feature map (特征图)还是比较大,可以通过池化层来对每一个 feature map 进行降维操作,输出的深度还是不变的,依然为 feature map 的个数。
池化层也有一个“池化视野(filter)”来对feature map矩阵进行扫描,对“池化视野”中的矩阵值进行计算,一般有两种计算方式:

  • Max pooling:取“池化视野”矩阵中的最大值
  • Average pooling:取“池化视野”矩阵中的平均值
    下图采用的是最大值:
    在这里插入图片描述
    如果有三个特征图,则:
    在这里插入图片描述
    池化层夹在连续的卷积层中间, 用于压缩数据和参数的量,减小过拟合。简而言之,如果输入是图像的话,那么池化层的最主要作用就是压缩图像。

全连接层

两层之间所有神经元都有权重连接,通常全连接层在卷积神经网络尾部。也就是跟传统的神经网络神经元的连接方式是一样的:
在这里插入图片描述
附:卷积层到全连接层的转换
参考:参考链接
例如经过卷积,relu后得到3x3x5的输出。那它是怎么样把3x3x5的输出,转换成1x4096的形式?
在这里插入图片描述
可以看做是在中间做了一个卷积,如下图:
在这里插入图片描述
3x3x5的filter 去卷积激活函数的输出,得到的结果就是一个fully connected layer 的一个神经元的输出,这个输出就是一个值。因为我们有4096个神经元。我们实际就是用一个3x3x5x4096的卷积层去卷积激活函数的输出。
以VGG-16再举个例子吧,对224x224x3的输入,最后一层卷积可得输出为7x7x512,如后层是一层含4096个神经元的FC,则可用卷积核为7x7x512x4096的全局卷积来实现这一全连接运算过程。它把特征representation整合到一起,输出为一个值。

LeNet-5模型

在这里插入图片描述
LeNet-5共有7层,不包含输入,每层都包含可训练参数;每个层有多个Feature Map,每个FeatureMap通过一种卷积滤波器提取输入的一种特征,然后每个FeatureMap有多个神经元。

INPUT层-输入层

首先是数据 INPUT 层,输入图像的尺寸统一归一化为32*32。
注意:本层不算LeNet-5的网络结构,传统上,不将输入层视为网络层次结构之一。

C1层-卷积层

输入图片: 32 ∗ 32 32*32 3232
卷积核大小: 5 ∗ 5 5*5 55
卷积核种类:6
输出featuremap大小: 28 ∗ 28 ( 32 − 5 + 1 ) = 28 28*28 (32-5+1)=28 2828325+1=28
神经元数量: 28 ∗ 28 ∗ 6 28*28*6 28286
可训练参数: ( 5 ∗ 5 + 1 ) ∗ 6 (5*5+1) * 6 55+1)6(每个滤波器 5 ∗ 5 = 25 5*5=25 55=25个unit参数和一个bias参数,一共6个滤波器)
连接数: ( 5 ∗ 5 + 1 ) ∗ 6 ∗ 28 ∗ 28 = 122304 (5*5+1)*6*28*28=122304 55+1

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值