学习一下：卷积神经网络

最新推荐文章于 2023-02-20 17:15:39 发布

Escape the bug

最新推荐文章于 2023-02-20 17:15:39 发布

阅读量797

点赞数 1

分类专栏：神经网络文章标签：卷积神经网络卷积深度学习神经网络

本文链接：https://blog.csdn.net/jnbfknasf113/article/details/109754116

版权

神经网络专栏收录该内容

5 篇文章 0 订阅

订阅专栏

卷积神经网络

神经网络(neual networks)是人工智能研究领域的一部分，当前最流行的神经网络是深度卷积神经网络(deep convolutional neural networks, CNNs)，虽然卷积网络也存在浅层结构，但是因为准确度和表现力等原因很少使用。目前提到CNNs和卷积神经网络，学术界和工业界不再进行特意区分，一般都指深层结构的卷积神经网络，层数从”几层“到”几十上百“不定。

CNNs目前在很多很多研究领域取得了巨大的成功，例如: 语音识别，图像识别，图像分割，自然语言处理等。虽然这些领域中解决的问题并不相同，但是这些应用方法都可以被归纳为:

CNNs可以自动从(通常是大规模)数据中学习特征，并把结果向同类型未知数据泛化。

- 背景

半个世纪以前，图像识别就已经是一个火热的研究课题。

1950年中-1960年初，感知机吸引了机器学习学者的广泛关注。这是因为当时数学证明表明，如果输入数据线性可分，感知机可以在有限迭代次数内收敛[1]。感知机的解是超平面参数集，这个超平面可以用作数据分类。然而，感知机却在实际应用中遇到了很大困难，因为1)多层感知机暂时没有有效训练方法，导致层数无法加深，2)由于采用线性激活函数，导致无法处理线性不可分问题，比如“与或”。

这些问题随着后向传播(back propagation，BP)算法和非线性激活函数的提出得到解决。1989年，BP算法被首次用于CNN中处理2-D信号(图像)。

2012年，ImageNet挑战赛中CNN证明了它的实力，从此在图像识别和其他应用中被广泛采纳。

通过机器进行模式识别，通常可以被认为有四个阶段:

数据获取: 比如数字化图像
预处理: 比如图像去噪和图像几何修正
特征提取：寻找一些计算机识别的属性，这些属性用以描述当前图像与其它图像的不同之处
数据分类：把输入图像划分给某一特定类别
CNN是目前图像领域特征提取最好的方式，也因此大幅度提升了数据分类精度。

- 网络结构

在这里插入图片描述
如上图所示，卷积神经网络架构与常规人工神经网络架构非常相似，特别是在网络的最后一层，即全连接。此外，还注意到卷积神经网络能够接受多个特征图作为输入，而不是向量。

基础的CNN由卷积(convolution), 激活(activation), and 池化(pooling)三种结构组成。CNN输出的结果是每幅图像的特定特征空间。当处理图像分类任务时，我们会把CNN输出的特征空间作为全连接层或全连接神经网络(fully connected neural network, FCN)的输入，用全连接层来完成从输入图像到标签集的映射，即分类。当然，整个过程最重要的工作就是如何通过训练数据迭代调整网络权重，也就是后向传播算法。目前主流的卷积神经网络(CNNs)，比如VGG, ResNet都是由简单的CNN调整，组合而来。接下来加入数据输入Input layer和全连接层FC layer全方面讲解神经网络：

数据输入层/ Input layer

该层要做的处理主要是对原始图像数据进行预处理，其中包括：

去均值：把输入数据各个维度都中心化为0，如下图所示，其目的就是把样本的中心拉回到坐标系原点上。
归一化：幅度归一化到同样的范围，如下所示，即减少各维度数据取值范围的差异而带来的干扰，比如，我们有两个维度的特征A和B，A范围是0到10，而B范围是0到10000，如果直接使用这两个特征是有问题的，好的做法就是归一化，即A和B的数据都变为0到1的范围。
PCA/白化：用PCA降维；白化是对数据各个特征轴上的幅度归一化
去均值与归一化效果图：

该层要做的处理主要是对原始图像数据进行预处理，其中包括：

卷积计算层/ CONV layer

CNN的名字由来就是因为其使用了卷积运算的缘故。卷积的目的主要是为了提取图片的特征。卷积运算可以保持像素之间的空间关系。

每张图片可以当做是一个包含每个像素值的矩阵，像素值的范围是0~255,0表示黑色，255是白色。下面是一个5 × 5 大小的矩阵例子，它的值是0或者1。

在这里插入图片描述

接下来是另一个3 × 3 矩阵：

在这里插入图片描述

上述两个矩阵通过卷积，可以得到如下图右侧粉色的矩阵结果。

在这里插入图片描述

黄色的矩阵在绿色的矩阵上从左到右，从上到下，每次滑动的步进值是1个像素，所以得到一个3 × 3 的矩阵。

在CNN中，黄色的矩阵被叫做滤波器(filter)或者核(kernel)或者是特征提取器，而通过卷积得到的矩阵则是称为**“特征图(Feature Map)”或者“Activation Map”**。
整体来说：
在这里插入图片描述

另外，使用不同的滤波器矩阵是可以得到不同的 Feature Map ，例子如下图所示：
在这里插入图片描述

上图通过滤波器矩阵，实现了不同的操作，比如边缘检测，锐化以及模糊操作等。

在实际应用中，CNN是可以在其训练过程中学习到这些滤波器的值，不过我们需要首先指定好滤波器的大小，数量以及网络的结构。使用越多的滤波器，可以提取到更多的图像特征，网络也就能够有更好的性能。

Feature Map的尺寸是由以下三个参数来决定的：

深度(Depth)：深度等于滤波器的数量。
步进(Stride): 步进值是在使用滤波器在输入矩阵上滑动的时候，每次滑动的距离。步进值越大，得到的Feature Map的尺寸越小。
Zero-padding: 有时候可以在输入矩阵的边界填补0，这样就可以将滤波器应用到边缘的像素点上，一个好的Zero-padding是能让我们可以控制好特征图的尺寸的。使用该方法的卷积称为wide convolution，没有使用的则是narrow convolution

填充值 Zero-padding:是什么呢？以下图为例子，比如有这么一个5 * 5的图片（一个格子一个像素），我们滑动窗口取2*2，步长取2，那么我们发现还剩下1个像素没法滑完，那怎么办呢？

在这里插入图片描述

那我们在原先的矩阵加了一层填充值，使得变成6*6的矩阵，那么窗口就可以刚好把所有像素遍历完。这就是填充值的作用。

在这里插入图片描述

卷积的计算（注意，下面蓝色矩阵周围有一圈灰色的框，那些就是上面所说到的填充值）

下面是动态图帮助理解卷积过程：
在这里插入图片描述

ReLU激励层 / ReLU layer

非线性修正函数ReLU(Rectified Linear Unit)
如下图所示：
在这里插入图片描述
激活函数是用来加入非线性因素的，因为线性模型的表达力不够
这句话字面的意思很容易理解，但是在具体处理图像的时候是什么情况呢？我们知道在神经网络中，对于图像，我们主要采用了卷积的方式来处理，也就是对每个像素点赋予一个权值，这个操作显然就是线性的。但是对于我们样本来说，不一定是线性可分的，为了解决这个问题，我们可以进行线性变化，或者我们引入非线性因素，解决线性模型所不能解决的问题。

这里插一句，来比较一下那些激活函数，因为神经网络的数学基础是处处可微的，所以选取的激活函数要能保证数据输入与输出也是可微的，运算特征是不断进行循环计算，所以在每代循环过程中，每个神经元的值也是在不断变化的。

这就导致了tanh特征相差明显时的效果会很好，在循环过程中会不断扩大特征效果显示出来，但有是，在特征相差比较复杂或是相差不是特别大时，需要更细微的分类判断的时候，sigmoid效果就好了。
还有一个东西要注意，sigmoid 和 tanh作为激活函数的话，一定要注意一定要对 input 进行归一话，否则激活后的值都会进入平坦区，使隐层的输出全部趋同，但是 ReLU 并不需要输入归一化来防止它们达到饱和。

构建稀疏矩阵，也就是稀疏性，这个特性可以去除数据中的冗余，最大可能保留数据的特征，也就是大多数为0的稀疏矩阵来表示。其实这个特性主要是对于Relu，它就是取的max(0,x)，因为神经网络是不断反复计算，实际上变成了它在尝试不断试探如何用一个大多数为0的矩阵来尝试表达数据特征，结果因为稀疏特性的存在，反而这种方法变得运算得又快效果又好了。所以我们可以看到目前大部分的卷积神经网络中，基本上都是采用了ReLU 函数。

池化层 / Pooling layer

池化层夹在连续的卷积层中间，用于压缩数据和参数的量，减小过拟合。
简而言之，如果输入是图像的话，那么池化层的最主要作用就是压缩图像。

这里再展开叙述池化层的具体作用。

特征不变性，也就是我们在图像处理中经常提到的特征的尺度不变性，池化操作就是图像的resize，平时一张狗的图像被缩小了一倍我们还能认出这是一张狗的照片，这说明这张图像中仍保留着狗最重要的特征，我们一看就能判断图像中画的是一只狗，图像压缩时去掉的信息只是一些无关紧要的信息，而留下的信息则是具有尺度不变性的特征，是最能表达图像的特征。
特征降维，我们知道一幅图像含有的信息是很大的，特征也很多，但是有些信息对于我们做图像任务时没有太多用途或者有重复，我们可以把这类冗余信息去除，把最重要的特征抽取出来，这也是池化操作的一大作用。
在一定程度上防止过拟合，更方便优化。

在这里插入图片描述

池化层用的方法有Max pooling 和 average pooling，而实际用的较多的是Max pooling。
这里就说一下Max pooling，其实思想非常简单。

在这里插入图片描述

对于每个2 * 2的窗口选出最大的数作为输出矩阵的相应元素的值，比如输入矩阵第一个2 * 2窗口中最大的数是6，那么输出矩阵的第一个元素就是6，如此类推。

注意：这里的pooling操作是特征图缩小，有可能影响网络的准确度，因此可以通过增加特征图的深度来弥补（这里的深度变为原来的2倍）
在这里插入图片描述
在卷积神经网络中，我们经常会碰到池化操作，而池化层往往在卷积层后面，通过池化来降低卷积层输出的特征向量，同时改善结果（不易出现过拟合）。

一般池化（General Pooling）

池化作用于图像中不重合的区域（这与卷积操作不同），过程如下图。

我们定义池化窗口的大小为sizeX，即下图中红色正方形的边长，定义两个相邻池化窗口的水平位移/竖直位移为stride。一般池化由于每一池化窗口都是不重复的，所以sizeX=stride。
在这里插入图片描述

最常见的池化操作为平均池化mean pooling和最大池化max pooling：
平均池化：计算图像区域的平均值作为该区域池化后的值。
最大池化：选图像区域的最大值作为该区域池化后的值。

重叠池化（OverlappingPooling
重叠池化正如其名字所说的，相邻池化窗口之间会有重叠区域，此时sizeX>stride。
论文中Krizhevsky, I. Sutskever, andG. Hinton, “Imagenet classification with deep convolutional neural networks,”in NIPS,2012.中，作者使用了重叠池化，其他的设置都不变的情况下， top-1和top-5 的错误率分别减少了0.4% 和0.3%。

全连接层 / FC layer

两层之间所有神经元都有权重连接，通常全连接层在卷积神经网络尾部。也就是跟传统的神经网络神经元的连接方式是一样的：
在这里插入图片描述
其连接所有的特征，将输出值送给分类器（如softmax分类器）

- 参考文章

知乎：卷积神经网络

一文让你理解什么是卷积神经网络

卷积神经网络(CNN)介绍

卷积神经网络——输入层、卷积层、激活函数、池化层、全连接层

Escape the bug

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
0
评论
学习一下：卷积神经网络

卷积神经网络目录01.概述2.背景3.网络结构数据输入层/ Input layer卷积计算层/ CONV layerReLU激励层 / ReLU layer池化层 / Pooling layer全连接层 / FC layer参考文章目录01.概述神经网络(neual networks)是人工智能研究领域的一部分，当前最流行的神经网络是深度卷积神经网络(deep convolutional neural networks, CNNs)，虽然卷积网络也存在浅层结构，但是因为准确度和表现力等原因很少使用。目
复制链接

扫一扫