深度学习之卷积神经网络（2)

青秀山

已于 2024-05-22 23:18:20 修改

阅读量1.8k

点赞数 39

分类专栏：深度学习文章标签：深度学习 cnn 人工智能神经网络机器学习计算机视觉

于 2024-05-22 23:18:00 首次发布

本文链接：https://blog.csdn.net/2301_79320694/article/details/139131524

版权

深度学习专栏收录该内容

5 篇文章 0 订阅

订阅专栏

上一节中笔者介绍了卷积神经网络模型的一些前提知识，在这里我将介绍卷积神经网络的核心部分，卷积层和池化层。

卷积层

卷积神经网络（CNN）中的核心组件之一，它负责提取输入数据的局部特征。

卷积层的基本构成：

卷积核（Convolutional Kernels）或过滤器（Filters）：
- 卷积核是卷积层中的小矩阵，它们在输入数据上滑动，用于提取特征。
- 每个卷积核负责提取一种特定的特征，例如边缘、角点或更复杂的纹理特征。
输入数据（Input Data）：
- 可以是图像、视频帧或任何其他类型的多维数据。
- 对于图像，输入数据通常是一个三维矩阵，包括宽度、高度和颜色通道（如RGB）。
步长（Stride）：
- 步长定义了卷积核在输入数据上滑动的间隔。
- 较大的步长可以减少特征图的空间尺寸，但可能会丢失一些信息。
填充（Padding）：
- 填充是在输入数据的边缘添加的额外像素，通常填充为0。
- 填充可以控制输出特征图的大小，防止边缘信息的丢失。
特征图（Feature Maps）：
- 每个卷积核生成一个特征图，展示了输入数据中特定特征的响应。
- 特征图的数量等于卷积核的数量。

卷积操作的工作原理：

滑动窗口：
- 卷积核在输入数据上以步长为间隔滑动，覆盖输入数据的局部区域。
点积计算：
- 在每个位置，卷积核与覆盖的输入数据区域进行逐元素相乘，然后求和，得到一个单一的数值。
- 这个数值表示输入数据在该位置对应特征的强度。
特征图生成：
- 卷积核在输入数据上滑动一次，生成一个特征图的一个值。
- 通过重复这个过程，生成整个特征图。

卷积层的特点：

参数共享：
- 卷积核在整个输入数据上使用相同的权重，这意味着无论输入数据有多大，卷积核的参数数量都是固定的。
局部连接：
- 卷积层只关注输入数据的局部区域，这减少了计算量，并且使得网络能够捕捉局部特征。
自动特征提取：
- 传统的机器学习方法需要手动设计特征提取器，而CNN能够自动学习数据中的特征。
层次结构：
- 卷积层可以堆叠多层，每一层都可以提取更高级的特征，从而实现复杂的模式识别。
多通道输入：
- 卷积层可以处理多通道的输入数据，例如彩色图像的RGB通道。
感受野（Receptive Field）：
- 感受野是卷积层中一个神经元能够“看到”的输入数据区域的大小。通过堆叠卷积层，网络可以拥有更大的感受野，从而捕捉更全局的特征。

卷积层的数学基础：

卷积操作在数学上定义为两个函数的卷积，它描述了如何通过一个函数（在这里是卷积核）来探测另一个函数（在这里是输入数据）的特性。在卷积层中，卷积核与输入数据进行卷积操作，生成特征图。注：这里的卷积是指上一篇文章中的交叉相关，往后不作解释。知道有这么概念即可，因为在其他地方介绍均会以卷积来表述。

设输入数据 $I$ 是一个 $\times W \times C$ 的矩阵，其中 $H$ 是高度， $W$ 是宽度， $C$ 是通道数。卷积核 $K$ 是一个 $\times w \times C$ 的矩阵，其中 $h$ 和 $w$ 分别是卷积核的高度和宽度。

卷积操作可以表示为：

$\sum_{m=0}^{h-1} \sum_{n=0}^{w-1} I(x+m, y+n) \cdot K(m, n)$

其中， $(I * K) (x, y)$ 是输出特征图在位置 $(x, y)$ 的值， $I (x + m, y + n)$ 是输入数据在位置 $(x + m, y + n)$ 的值， $K (m, n)$ 是卷积核在位置 $(m, n)$ 的值。

卷积核的参数：

卷积核的参数主要包括：

权重：每个卷积核都有一组权重，这些权重在训练过程中通过反向传播算法进行更新。
偏置项（可选）：每个卷积核可能还有一个偏置项，用于控制输出的平移。

卷积层的变体：

一维卷积层（1D Convolutional Layer）：
- 一维卷积层适用于一维序列数据，如时间序列分析或自然语言处理。
二维卷积层（2D Convolutional Layer）：
- 二维卷积层是最常见的，用于处理二维数据，如图像。
三维卷积层（3D Convolutional Layer）：
- 三维卷积层用于处理三维数据，如医学成像中的体积数据或视频。

池化层（Pooling Layer）

卷积神经网络（CNN）中的另一个重要组件，它主要用于降低特征图（Feature Map）的空间维度，从而减少参数数量和计算量，同时使特征检测更加鲁棒。

池化层的基本工作原理：

池化层对输入的特征图进行下采样，即减少其宽度和高度，但保持深度不变（即输出特征的数量与输入相同）。池化操作通常独立于每个特征通道进行。

常见的池化操作：

最大池化（Max Pooling）：
- 最大池化是最常见的池化操作。它将输入的特征图划分为不重叠的矩形区域，每个区域对应一个输出值，该输出值是该区域内的最大值。
- 最大池化有助于突出显示最重要的特征，并且对小的位置变化不敏感。
平均池化（Average Pooling）：
- 平均池化计算每个矩形区域内所有值的平均值，并将该平均值作为输出。
- 与最大池化相比，平均池化更平滑，但可能会丢失一些重要的特征信息。
最大-平均混合池化（Max-Average Pooling）：
- 这种池化方式结合了最大池化和平均池化的优点，可以同时保留区域内的最大值和平均值。
L2池化（L2 Pooling）：
- L2池化计算每个区域内所有值的平方和的平方根，即欧几里得范数。
- 它对异常值不敏感，并且可以捕捉区域内值的空间分布。
随机池化（Stochastic Pooling）：
- 随机池化是一种概率性池化方法，它随机选择区域内的一部分值作为输出。
- 这种方法引入了噪声，有助于提高模型的泛化能力。

池化层的参数：

池化窗口（Pooling Window） 或 过滤器（Filter）：
- 池化窗口定义了池化操作的范围大小，通常是正方形（如2x2或3x3）。
步长（Stride）：
- 步长定义了池化窗口在输入特征图上滑动的间隔。较大的步长可以进一步减少输出的空间尺寸。
填充（Padding）：
- 与卷积层类似，池化层也可以使用填充来控制输出特征图的尺寸。

池化层的作用：

降维：减少特征图的空间尺寸，降低后续层的参数数量和计算量。
不变性：增加对输入变化的鲁棒性，如平移、缩放和旋转等。
特征强化：通过最大池化等操作，强化重要的特征，抑制不重要的特征。
多尺度处理：允许网络在不同尺度上捕捉特征。

池化层的高级应用：

全局池化：全局池化操作在整个特征图上应用，生成单个输出值，通常用于全连接层之前，减少特征维度。
空间金字塔池化（Spatial Pyramid Pooling, SPP）：SPP允许网络在多个尺度上捕获图像的上下文信息，常用于处理不同尺寸的输入。
可变形池化（Deformable Pooling）：可变形池化允许池化窗口的形状和大小根据输入数据动态调整，适用于形状不规则的对象。

最大池化层（Max Pooling Layer）

最大池化层是卷积神经网络（CNN）中常用的池化层类型之一，笔者将对其进行进一步的介绍。最大池化层通过从输入的特征图中提取最显著的特征来实现降低特征图的空间维度，同时保留重要的信息。

最大池化层的工作原理：

在最大池化层中，每个池化窗口（通常为2x2或3x3）在输入的特征图上滑动，步长（stride）和填充（padding）会影响窗口的滑动方式和输出特征图的尺寸。对于每个池化窗口，最大池化操作会选择窗口内的最大值作为输出。
以下给出一些在最大池化层中常见的步长（Stride）和填充（Padding）的选择：

步长（Stride）：
- 步长为1：这是最常见的选择，意味着池化窗口每次移动一个像素，这通常会导致输出特征图的尺寸是输入特征图尺寸的一半（假设池化窗口大小为2x2）。
- 步长等于池化窗口大小：这种选择可以保证池化窗口覆盖整个特征图，通常用于确保输出特征图的尺寸是输入特征图尺寸除以池化窗口的尺寸。
填充（Padding）：
- 不使用填充（Padding=0）：这是最常用的情况，意味着池化窗口仅在有效区域内滑动，不超出输入特征图的边界。
- 填充等于池化窗口大小减1（Padding=(W-1)/2）：这种填充方式用于保持特征图的尺寸不变，其中W是池化窗口的宽度。例如，对于一个3x3的池化窗口，填充为1。这种填充通常用于保持特征图的空间尺寸，但可能会导致边缘信息的轻微失真。