CNN卷积神经网络

最新推荐文章于 2024-07-22 13:42:36 发布

learn deep learning

最新推荐文章于 2024-07-22 13:42:36 发布

阅读量8.6k

点赞数 1

分类专栏： Deep Learning 机器学习统计学习方法

机器学习同时被 3 个专栏收录

75 篇文章 2 订阅

订阅专栏

统计学习方法

40 篇文章 0 订阅

订阅专栏

Deep Learning

6 篇文章 0 订阅

订阅专栏

转自：http://blog.csdn.net/u014568921/article/details/45222623

CNN卷积神经网络

分类：卷积神经网络CNN 2015-04-23 15:44 75人阅读评论(1) 收藏举报

cnn

目录(?)[+]

CNN是一种多层神经网络，基于人工神经网络，在人工神经网络前，用滤波器进行特征抽取，使用卷积核作为特征抽取器，自动训练特征抽取器，就是说卷积核以及阈值参数这些都需要由网络去学习。

图像可以直接作为网络的输入，避免了传统识别算法中复杂的特征提取和数据重建过程。

一般卷积神经网络的结构：

前面feature extraction部分体现了CNN的特点，feature extraction部分最后的输出可以作为分类器的输入。这个分类器你可以用softmax或RBF等等。

局部感受野与权值共享

权值共享指每一个map都由一个卷积核去做卷积得到。

权值共享减少了权值数量，降低了网络复杂度。

Conv layer

第一个卷积层对原输入图像进行卷积，后面的是对前一个卷积-采样层的S层的输出map进行卷积。

假设层为s层特征图像X_i^l-1（pooling层），l层为卷积C层，卷积结果为X_j^l

参数kij为两层间卷积核（滤波器，kernals），由于s层有m个特征，c层有n个特征，所以一共有m*n个卷积核。bj为卷基层每个结果特征对应的一个偏置项bias，f为非线性变换函数sigmoid函数；Mj为选择s层特征输入的个数，即选择多少个s层的图像特征作为输入；由于选择s层的特征个数方法不同，主要分为三种卷积选择方式

1、全部选择：

s层的全部特征都作为输入， Mj=m。如上图所示。

2、自动稀疏选择：

在卷积计算前加入稀疏稀疏aij，通过稀疏规则限制（论文后面），使算法自动选取部分s层特征作为输入，具体个数不确定。

3、部分选择：

按照一定的规则，固定的选取2个或者3个作为输入。

Subsampling layer

下采样降低feature map的空间分辨率，从而实现一定程度的shift 和 distortion invariance。利用图像局部相关性的原理，对图像进行子抽样，可以减少数据处理量同时保留有用信息。这个过程也被称为pooling，常用pooling 有两种：

mean-pooling、max-pooling。

down(X_j^l-1)表示下采样操作，就是对一个小区域进行pooling操作，使数据降维。

有的算法还会对mean-pooling、max-pooling后的输出进行非线性映射

f可以是sigmoid函数。

输出层

最后一个卷积-采样层的输出可作为输出层的输入，输出层是全连接层，可采用svm、bp算法、softmax等分类算法。

以LeNet5为例，其结构如下：

C1,C3,C5 : Convolutional layer.
5 × 5 Convolution matrix.
S2 , S4 : Subsampling layer.
Subsampling by factor 2.
F6 : Fully connected layer

OUTPUT : RBF

C层和S层成对出现，C承担特征抽取，S承担抗变形。C元中涉及两个重要参数，即感受野与阈值参数，前者确定输入连接的数目，后者则控制对特征子模式的反应程度。

C1层是一个卷积层（通过卷积运算，可以增强图像的某种特征，并且降低噪音），由6个特征图Feature Map构成。Feature Map中每个神经元与输入中5*5的邻域相连。特征图的大小为28*28。C1有156个可训练参数（每个滤波器5*5=25个unit参数和一个bias参数，一共6个滤波器，共(5*5+1)*6=156个参数），共156*(28*28)=122,304个连接。

S2层是一个下采样层，有6个14*14的特征图。特征图中的每个单元与C1中相对应特征图的2*2邻域相连接。S2层每个单元的4个输入相加，乘以一个可训练参数，再加上一个可训练偏置。结果通过sigmoid函数计算。可训练系数和偏置控制着sigmoid函数的非线性程度。如果系数比较小，那么运算近似于线性运算，亚采样相当于模糊图像。如果系数比较大，根据偏置的大小亚采样可以被看成是有噪声的“或”运算或者有噪声的“与”运算。每个单元的2*2感受野并不重叠，因此S2中每个特征图的大小是C1中特征图大小的1/4（行和列各1/2）。S2层有12个可训练参数和5880个连接。

C3层也是一个卷积层，它同样通过5x5的卷积核去卷积层S2，然后得到的特征map就只有10x10个神经元，但是它有16种不同的卷积核，所以就存在16个特征map了。这里需要注意的一点是：C3中的每个特征map是连接到S2中的所有6个或者几个特征map的，表示本层的特征map是上一层提取到的特征map的不同组合。

S4层是一个下采样层，由16个5*5大小的特征图构成。特征图中的每个单元与C3中相应特征图的2*2邻域相连接，跟C1和S2之间的连接一样。S4层有32个可训练参数（每个特征图1个因子和一个偏置）和2000个连接。

C5层是一个卷积层，有120个特征图。每个单元与S4层的全部16个单元的5*5邻域相连。由于S4层特征图的大小也为5*5（同滤波器一样），故C5特征图的大小为1*1：这构成了S4和C5之间的全连接。之所以仍将C5标示为卷积层而非全相联层，是因为如果LeNet-5的输入变大，而其他的保持不变，那么此时特征图的维数就会比1*1大。C5层有48120个可训练连接。
F6层有84个单元（之所以选这个数字的原因来自于输出层的设计），与C5层全相连。有10164个可训练参数。如同经典神经网络，F6层计算输入向量和权重向量之间的点积，再加上一个偏置。然后将其传递给sigmoid函数产生单元i的一个状态。
最后，输出层由欧式径向基函数（Euclidean Radial Basis Function）单元组成，每类一个单元，每个有84个输入。换句话说，每个输出RBF单元计算输入向量和参数向量之间的欧式距离。输入离参数向量越远，RBF输出的越大。一个RBF输出可以被理解为衡量输入模式和与RBF相关联类的一个模型的匹配程度的惩罚项。用概率术语来说，RBF输出可以被理解为F6层配置空间的高斯分布的负log-likelihood。给定一个输入模式，损失函数应能使得F6的配置与RBF参数向量（即模式的期望分类）足够接近。这些单元的参数是人工选取并保持固定的（至少初始时候如此）。这些参数向量的成分被设为-1或1。虽然这些参数可以以-1和1等概率的方式任选，或者构成一个纠错码，但是被设计成一个相应字符类的7*12大小（即84）的格式化图片。