详解卷积神经网络(CNN)

最新推荐文章于 2025-06-04 11:05:01 发布

liuhe_

最新推荐文章于 2025-06-04 11:05:01 发布

阅读量10w+

收藏 1.6k

点赞数 278

CC 4.0 BY-SA版权

文章标签：神经网络 cnn 机器学习卷积神经网络

本文链接：https://blog.csdn.net/qq_25762497/article/details/51052861

卷积神经网络(CNN)是一种前馈神经网络，尤其适用于图像处理，通过卷积层、池化层和全连接层等构建。卷积层采用参数共享，减少计算量，提取图像特征；池化层用于下采样，减少特征尺寸；全连接层整合局部特征，输出分类结果。常见的CNN架构包括多个卷积和ReLU层，配合池化层，最后接全连接层。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

详解卷积神经网络(CNN)

详解卷积神经网络CNN
概揽
Layers used to build ConvNets
卷积神经网络架构
参考

卷积神经网络（Convolutional Neural Network, CNN）是一种前馈神经网络，它的人工神经元可以响应一部分覆盖范围内的周围单元，对于大型图像处理有出色表现。

本文首发 : http://www.liuhe.website/index.php?/Articles/single/37

概揽

卷积神经网络（Convolutional Neural Networks / CNNs / ConvNets）与普通神经网络非常相似，它们都由具有可学习的权重和偏置常量(biases)的神经元组成。每个神经元都接收一些输入，并做一些点积计算，输出是每个分类的分数，普通神经网络里的一些计算技巧到这里依旧适用。

所以哪里不同呢？卷积神经网络默认输入是图像，可以让我们把特定的性质编码入网络结构，使是我们的前馈函数更加有效率，并减少了大量参数。

具有三维体积的神经元(3D volumes of neurons)
卷积神经网络利用输入是图片的特点，把神经元设计成三个维度： width, height, depth(注意这个depth不是神经网络的深度，而是用来描述神经元的) 。比如输入的图片大小是 32 × 32 × 3 (rgb)，那么输入神经元就也具有 32×32×3 的维度。下面是图解：

这里写图片描述
传统神经网络

这里写图片描述
卷积神经网络

一个卷积神经网络由很多层组成，它们的输入是三维的，输出也是三维的，有的层有参数，有的层不需要参数。

Layers used to build ConvNets

卷积神经网络通常包含以下几种层：

卷积层（Convolutional layer），卷积神经网路中每层卷积层由若干卷积单元组成，每个卷积单元的参数都是通过反向传播算法优化得到的。卷积运算的目的是提取输入的不同特征，第一层卷积层可能只能提取一些低级的特征如边缘、线条和角等层级，更多层的网络能从低级特征中迭代提取更复杂的特征。
线性整流层（Rectified Linear Units layer, ReLU layer），这一层神经的活性化函数（Activation function）使用线性整流（Rectified Linear Units, ReLU） $f(x) = max(0, x)$ 。
池化层（Pooling layer），通常在卷积层之后会得到维度很大的特征，将特征切成几个区域，取其最大值或平均值，得到新的、维度较小的特征。
全连接层（ Fully-Connected layer）, 把所有局部特征结合变成全局特征，用来计算最后每一类的得分。

一个卷积神经网络各层应用实例：

卷积层（Convolutional layer）

局部感知（Local Connectivity）

普通神经网络把输入层和隐含层进行“全连接(Full Connected)“的设计。从计算的角度来讲，相对较小的图像从整幅图像中计算特征是可行的。但是，如果是更大的图像（如 96x96 的图像），要通过这种全联通网络的这种方法来学习整幅图像上的特征，从计算角度而言，将变得非常耗时。你需要设计 10 的 4 次方（=10000）个输入单元，假设你要学习 100 个特征，那么就有 10 的 6 次方个参数需要去学习。与 28x28 的小块图像相比较， 96x96 的图像使用前向输送或者后向传导的计算方式，计算过程也会慢 10 的 2 次方（=100）倍。

卷积层解决这类问题的一种简单方法是对隐含单元和输入单元间的连接加以限制：每个隐含单元仅仅只能连接输入单元的一部分。例如，每个隐含单元仅仅连接输入图像的一小片相邻区域。（对于不同于图像输入的输入形式，也会有一些特别的连接到单隐含层的输入信号“连接区域”选择方式。如音频作为一种信号输入方式，一个隐含单元所需要连接的输入单元的子集，可能仅仅是一段音频输入所对应的某个时间段上的信号。)

每个隐含单元连接的输入区域大小叫r神经元的感受野(receptive field)。

由于卷积层的神经元也是三维的，所以也具有深度。卷积层的参数包含一系列过滤器（filter），每个过滤器训练一个深度，有几个过滤器输出单元就具有多少深度。

具体如下图所示，样例输入单元大小是32×32×3, 输出单元的深度是5, 对于输出单元不同深度的同一位置，与输入图片连接的区域是相同的，但是参数（过滤器）不同。

虽然每个输出单元只是连接输入的一部分，但是值的计算方法是没有变的，都是权重和输入的点积，然后加上偏置，这点与普通神经网络是一样的，如下图所示：

计算方法

空间排列（Spatial arrangement）

一个输出单元的大小有以下三个量控制：depth, stride 和 zero-padding。

深度(depth) : 顾名思义，它控制输出单元的深度，也就是filter的个数，连接同一块区域的神经元个数。又名：depth column
步幅(stride)：它控制在同一深度的相邻两个隐含单元，与他们相连接的输入区域的距离。如果步幅很小（比如 stride = 1）的话，相邻隐含单元的输入区域的重叠部分会很多; 步幅很大则重叠区域变少。
补零(zero-padding) ：我们可以通过在输入单元周围补零来改变输入单元整体大小，从而控制输出单元的空间大小。

我们先定义几个符号：

$W$ : 输入单元的大小（宽或高）
$F$ : 感受野(receptive field)
$S$ : 步幅（stride）
$P$ : 补零（zero-padding)的数量
$K$ : 深度，输出单元的深度

则可以用以下公式计算一个维度（宽或高）内一个输出单元里可以有几个隐藏单元：

W - F + 2 P S + 1

$\frac{W - F + 2P}{S} + 1$
如果计算结果不是一个整数，则说明现有参数不能正好适合输入，步幅（stride）设置的不合适，或者需要补零，证明略，下面用一个例子来说明一下。

这是一个一维的例子，左边模型输入单元有5个，即 $W = 5$ , 边界各补了一个零，即 $P = 1$ ，步幅是1，即 $S = 1$ ，感受野是3，因为每个输出隐藏单元连接3个输入单元，即 $F = 3$ ，根据上面公式可以计算出输出隐藏单元的个数是： $\frac{5 - 3 + 2}{1} + 1 = 5$ ，与图示吻合。右边那个模型是把步幅变为2，其余不变，可以算出输出大小为： 5−3+22+