深度学习之初识CNN

最新推荐文章于 2022-05-19 16:18:51 发布

专注于计算机视觉的AndyJiang

最新推荐文章于 2022-05-19 16:18:51 发布

阅读量260

点赞数

分类专栏：深度学习文章标签：深度学习神经网络

本文链接：https://blog.csdn.net/andyjkt/article/details/106699610

版权

深度学习专栏收录该内容

53 篇文章 5 订阅

订阅专栏

1. 引子————边界检测

卷积示例

可以通过设计特定的filter，让它去跟图片做卷积，就可以识别出图片中的某些特征，比如边界。

CNN（convolutional neural network），主要就是通过一个个的filter，不断地提取特征，从局部的特征到总体的特征，从而进行图像识别等等功能。

每个filter中的各个数字就是参数，我们可以通过大量的数据，来让机器自己去“学习”这些参数。这就是CNN的原理。

2. CNN基本概念

1）.padding 填白
padding
采用padding的方法。每次卷积前，先给图片周围都补一圈空白，让卷积之后图片跟原来一样大，同时，原来的边缘也被计算了更多次。

上面这种“让卷积之后的大小不变”的padding方式，称为 “Same”方式，把不经过任何填白的，称为 “Valid”方式。这个是我们在使用一些框架的时候，需要设置的超参数。

2）.stride 步长

对于(8,8)的输入，我们用(3,3)的filter，如果stride=1，则输出为(6,6); 如果stride=2，则输出为(3,3);（这里例子举得不大好，除不尽就向下取整）（i-k）/s+1=(8-3)/2+1=3

3）.pooling 池化

pooling，是为了提取一定区域的主要特征，并减少参数数量，防止模型过拟合。比如下面的MaxPooling，采用了一个2×2的窗口，并取stride=2：

除了MaxPooling,还有AveragePooling

4）.对多通道（channels）图片的卷积

彩色图像，一般都是RGB三个通道（channel）的，因此输入数据的维度一般有三个：（长，宽，通道）。比如一个28×28的RGB图片，维度就是(28,28,3)。

如果输入图片是三维的（即增多了一个channels），比如是(8,8,3)，这个时候，我们的filter的维度就要变成(3,3,3)了，它的最后一维要跟输入的channel维度一致。这个时候的卷积，是三个channel的所有元素对应相乘后求和，也就是之前是9个乘积的和，现在是27个乘积的和。因此，输出的维度并不会变化。还是(6,6)。

但是，一般情况下，我们会使用多了filters同时卷积，比如，如果我们同时使用4个filter的话，那么输出的维度则会变为(6,6,4)。
多通道卷积

用神经网络的符号来看待CNN的话，

输入图片就是X，shape=(8,8,3);

4个filters其实就是第一层神金网络的参数W1,，shape=(3,3,3,4),这个4是指有4个filters;

输出就是Z1，shape=(6,6,4);

后面其实还应该有一个激活函数，比如relu，经过激活后，Z1变为A1，shape=(6,6,4)
CNN

3.CNN的结构组成

CNN的整体结构，它包含了3种层（layer）：

1）Convolutional layer（卷积层–CONV）
由滤波器filters和激活函数构成。一般要设置的超参数包括filters的数量、大小、步长，以及padding是“valid”还是“same”。当然，还包括选择什么激活函数。
output = (input-kernel+2*padding)/stride+1。
2) Pooling layer （池化层–POOL）
需要指定的超参数，包括是Max还是average，窗口大小以及步长。通常，我们使用的比较多的是Maxpooling,而且一般取大小为(2,2)步长为2的filter，这样，经过pooling之后，输入的长宽都会缩小2倍，channels不变。
3) Fully Connected layer（全连接层–FC）
每一个单元都和前一层的每一个单元相连接，所以称之为“全连接”。这里要指定的超参数，是神经元的数量，以及激活函数。
CNN
X–>CONV(relu)–>MAXPOOL–>CONV(relu)–>FC(relu)–>FC(softmax)–>Y

在经过数次卷积和池化之后，我们最后会先将多维的数据进行“扁平化”，也就是把 (height,width,channel)的数据压缩成长度为 height × width × channel 的一维数组，然后再与 FC层连接，这之后就跟普通的神经网络无异了。

4. 卷积神经网络 VS. 传统神经网络

传统的神经网络，其实就是多个FC层叠加起来。 CNN，无非就是把FC改成了CONV和POOL，就是把传统的由一个个神经元组成的layer，变成了由filters组成的layer

参数共享机制（parameters sharing）
我们对比一下传统神经网络的层和由filters构成的CONV层：假设我们的图像是8×8大小，也就是64个像素，假设我们用一个有9个单元的全连接层：

那这一层我们需要多少个参数呢？需要 64×9 = 576个参数（先不考虑偏置项b）。因为每一个链接都需要一个权重w。

同样有9个单元的filter
CNN
有几个单元就几个参数，所以总共就9个参数！

对于不同的区域，我们都共享同一个filter，因此就共享这同一组参数。

filter是用来检测特征的，那一个特征一般情况下很可能在不止一个地方出现，比如“竖直边界”，就可能在一幅图中多出出现，那么我们共享同一个filter不仅是合理的，而且是应该这么做的。

参数共享机制，让我们的网络的参数数量大大地减少。这样，我们可以用较少的参数，训练出更加好的模型，典型的事半功倍，而且可以有效地避免过拟合。同样，由于filter的参数共享，即使图片进行了一定的平移操作，我们照样可以识别出特征，这叫做 “平移不变性”。因此，模型就更加稳健了。

连接的稀疏性（sparsity of connections）

由卷积的操作可知，输出图像中的任何一个单元，只跟输入图像的一部分有关系：
稀疏性

而传统神经网络中，由于都是全连接，所以输出的任何一个单元，都要受输入的所有的单元的影响。这样无形中会对图像的识别效果大打折扣。CNN每一个区域都有自己的专属特征，我们不希望它受到其他区域的影响。

【1】CNN

专注于计算机视觉的AndyJiang

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
深度学习之初识CNN

1. 引子————边界检测可以通过设计特定的filter，让它去跟图片做卷积，就可以识别出图片中的某些特征，比如边界。CNN（convolutional neural network），主要就是通过一个个的filter，不断地提取特征，从局部的特征到总体的特征，从而进行图像识别等等功能。每个filter中的各个数字就是参数，我们可以通过大量的数据，来让机器自己去“学习”这些参数。这就是CNN的原理。2. CNN基本概念1）.padding 填白采用padding的方法。每次卷积前，先给图片周
复制链接

扫一扫

专栏目录