第十一周周报_CNN详解

最新推荐文章于 2024-06-07 13:01:43 发布

Nyctophiliaa

最新推荐文章于 2024-06-07 13:01:43 发布

阅读量164

点赞数

文章标签： cnn 人工智能神经网络

本文链接：https://blog.csdn.net/m0_68477761/article/details/131624102

版权

摘要

卷积神经网络专门用于处理具有类似网格结构的数据，例如图像和语音信号。CNN通过卷积层、池化层和全连接层等组件进行特征提取和分类。卷积层负责从输入数据中提取局部特征，通过卷积核（滤波器）在输入数据上滑动并计算内积来实现。池化层用于降低数据的空间尺寸，减轻计算负担，同时保留重要特征。常用的池化操作有最大池化（Max-Pooling）和平均池化（Average-Pooling）。全连接层将前面的特征映射到输出空间中，完成分类或回归任务。输出层的激活函数通常为Softmax或Sigmoid。

ABSTRACT

Convolutional Neural Networks are specifically designed for processing data with grid-like structures, such as images and speech signals. CNN perform feature extraction and classification through components like convolutional layers, pooling layers, and fully connected layers.

The convolutional layer is responsible for extracting local features from input data by sliding convolution kernels (filters) over the input data and computing dot products. Pooling layers aim to reduce the spatial dimensions of data, alleviate computational burden, and retain important features. Common pooling operations include max-pooling and average-pooling. Fully connected layers map the preceding features into the output space to accomplish classification or regression tasks. The activation function of the output layer is typically Softmax or Sigmoid.

一、举例：边界检测

我们来看一个最简单的例子：“边界检测（edge detection）”，假设我们有这样的一张图片，大小8×8：

图片中的数字代表该位置的像素值，我们知道，像素值越大，颜色越亮，所以为了示意，我们把右边小像素的地方画成深色。图的中间两个颜色的分界线就是我们要检测的边界。

怎么检测这个边界呢？我们可以设计这样的一个滤波器（filter，也称为kernel），大小3×3：

然后，我们用这个filter，往我们的图片上“盖”，覆盖一块跟filter一样大的区域之后，对应元素相乘，然后求和。计算一个区域之后，就向其他区域挪动，接着计算，直到把原图片的每一个角落都覆盖到了为止。这个过程就是 “卷积”。这里的“挪动”，就涉及到一个步长了，假如我们的步长是1，那么覆盖了一个地方之后，就挪一格，容易知道，总共可以覆盖6×6个不同的区域。

那么，我们将这6×6个区域的卷积结果，拼成一个矩阵：

从上面这个例子中，我们发现，我们可以通过设计特定的filter，让它去跟图片做卷积，就可以识别出图片中的某些特征，比如边界。上面的例子是检测竖直边界，我们也可以设计出检测水平边界的，只用把刚刚的filter旋转90°即可。对于其他的特征，理论上只要我们经过精细的设计，总是可以设计出合适的filter的。

我们的CNN（convolutional neural network），主要就是通过一个个的filter，不断地提取特征，从局部的特征到总体的特征，从而进行图像识别等等功能。

那么问题来了，我们怎么可能去设计这么多各种各样的filter呀？首先，我们都不一定清楚对于一大推图片，我们需要识别哪些特征，其次，就算知道了有哪些特征，想真的去设计出对应的filter，恐怕也并非易事，要知道，特征的数量可能是成千上万的。

其实学过神经网络之后，我们就知道，这些filter，根本就不用我们去设计，每个filter中的各个数字，不就是参数吗，我们可以通过大量的数据，来让机器自己去“学习”这些参数。

二、CNN的基本概念

1.padding 填白

从上面的例子中，我们可以知道，原图像在经过filter卷积之后，变小了，从(8,8)变成了(6,6)。假设我们再卷一次，那大小就变成了(4,4)了。

主要有两个问题： 1、每次卷积，图像都缩小，这样卷不了几次就没了；

2、相比于图片中间的点，图片边缘的点在卷积中被计算的次数很少。这样的话，边缘的信息就易于丢失。

为了解决这个问题，我们可以采用padding的方法。我们每次卷积前，先给图片周围都补一圈空白，让卷积之后图片跟原来一样大，同时，原来的边缘也被计算了更多次。

比如，我们把(8,8)的图片给补成(10,10)，那么经过(3,3)的filter之后，就是(8,8)，没有变。

我们把上面这种“让卷积之后的大小不变”的padding方式，称为 “Same”方式，把不经过任何填白的，称为 “Valid”方式。这个是我们在使用一些框架的时候，需要设置的超参数。

2.stride 步长

前面我们所介绍的卷积，都是默认步长是1，但实际上，我们可以设置步长为其他的值。比如，对于(8,8)的输入，我们用(3,3)的filter，如果stride=1，则输出为(6,6); 如果stride=2，则输出为(3,3);

3.pooling 池化

这个pooling，是为了提取一定区域的主要特征，并减少参数数量，防止模型过拟合。比如下面的MaxPooling，采用了一个2×2的窗口，并取stride=2：

除了MaxPooling,还有AveragePooling，顾名思义就是取那个区域的平均值。

4.对多通道（channels）图片的卷积

彩色图像，一般都是RGB三个通道（channel）的，因此输入数据的维度一般有三个：（长，宽，通道）。比如一个28×28的RGB图片，维度就是(28,28,3)。

前面的例子中，输入图片是2维的(8,8)，filter是(3,3)，输出也是2维的(6,6)。

如果输入图片是三维的呢（即增多了一个channels），比如是(8,8,3)，这个时候，我们的filter的维度就要变成(3,3,3)了，它的最后一维要跟输入的channel维度一致。这个时候的卷积，是三个channel的所有元素对应相乘后求和，也就是之前是9个乘积的和，现在是27个乘积的和。因此，输出的维度并不会变化。还是(6,6)。

但是，一般情况下，我们会使用多了filters同时卷积，比如，如果我们同时使用4个filter的话，那么输出的维度则会变为(6,6,4)。

三、卷积的意义是什么呢？

其实如果用图片处理上的专业术语，被叫做锐化，卷积其实强调某些特征，然后将特征强化后提取出来，不同的卷积核关注图片上不同的特征，比如有的更关注边缘而有的更关注中心地带等等，如下图：

当完成几个卷积层后（卷积 + 激活函数 + 池化），可以看出，一开始提取一些比较基础简单的特征，比如边角，后面会越来越关注某个局部比如头部甚至是整体。

四、1 x 1 卷积的意义是什么？

filter的shape为1 x 1，stride = 1，padding = 0，假如input为32 * 32 * 3，那么output shape = 32，换言之，它并没有改变原来的shape，但是filter的数量可以决定输出通道，所以，1 x 1的卷积目的是改变输出通道。可以对输出通道进行升维或者降维，降维之后乘上的参数数量会减少，训练会更快，内存占用会更少。

另外，其实1 x 1的卷积不过是实现多通道之间的线性叠加，1 x 1 卷积改变卷积核的数量，无非就是使得不同的feature map进行线性叠加而已（feature map指的是最后输出的每一层叠加出来的），因为通道的数量可以随时改变，1 x 1卷积也可以有跨通道信息交流的内涵。