卷积神经网络 - 数据类型篇-CSDN博客

本文链接：https://blog.csdn.net/benny_zhou2004/article/details/140926626

序言

在深度学习的广阔领域中，卷积神经网络（ $\text{Convolutional Neural Networks, CNNs}$ ）以其卓越的特征提取与处理能力，在图像识别、视频分析、自然语言处理等多个领域大放异彩。探讨 $\text{CNN}$ 时，理解其处理的数据类型是基础且关键的一环。 $\text{CNN}$ 设计之初便是为了有效处理具有网格结构的数据，特别是图像数据，但随着技术的发展，其应用范围已远远超出这一范畴。

概述

图像数据：
- 作为 $\text{CNN}$ 最经典的应用场景，图像数据是二维或三维的像素网格，每个像素点包含颜色信息（如 $\text{RGB}$ 三通道）。 $\text{CNN}$ 通过卷积层自动学习图像中的局部特征，如边缘、纹理等，逐步构建出更高级别的抽象表示。
序列数据：
- 虽然传统上用于处理序列数据（如文本、时间序列）的是循环神经网络（ $\text{RNNs}$ ）或其变体，但 $\text{CNN}$ 通过一维卷积层也能有效处理这类数据，尤其在处理固定长度的序列或需要快速特征提取的场景中表现出色。
多维数据：
- 除了二维图像， $\text{CNN}$ 还能扩展到处理三维数据（如医学图像扫描、视频帧序列）乃至更高维度的数据，通过增加卷积核的维度来实现。这种能力使得 $\text{CNN}$ 在医学影像分析、视频理解等领域具有重要应用价值。

数据类型

卷积网络使用的数据通常包含多个通道，每个通道是时间上或空间中某一点的不同观测量。参见表1来了解具有不同维数和通道数的数据类型的例子。
卷积网络用于视频的例子，可以参见 $\text{Chen et al. (2010)}$ 。
到目前为止，我们仅讨论了训练和测试数据中的每个样例都有相同的空间维度的情况。
- 卷积网络的一个优点是它们还可以处理具有变化的空间尺度的输入。
- 这些类型的输入不能用传统的基于矩阵乘法的神经网络来表示。
- 这提供了使用卷积网络的令人信服的理由，即使当计算成本和过拟合也不是主要问题时。
例如，考虑一组图像的集合，其中每个图像具有不同的高度和宽度。
- 目前还不清楚如何用固定大小的权重矩阵对这样的输入进行建模。
- 卷积就可以很直观的应用；核依据输入的大小简单地被使用不同次，并且卷积运算的输出也相应地放缩。
- 卷积可以被视为矩阵乘法；相同的卷积核为每种大小的输入引入了一个不同大小的双重块循环矩阵。
- 有时，网络的输出允许和输入一样具有可变的大小，例如如果我们想要为输入的每个像素分配一个类标签。
- 在这种情况下，不需要进一步的设计工作。
- 在其他情况下，网络必须产生一些固定大小的输出，例如，如果我们想要为整个图像指定单个类标签。
- 在这种情况下，我们必须进行一些额外的设计步骤，例如插入一个池化层，池化区域的大小要与输入的大小成比例，以便保持固定数量的池化输出。
- 这种策略的一些例子可以参见池化(Pooling)篇 - 图例5：卷积网络用语分类的架构示例。
注意：使用卷积处理可变尺寸的输入仅对具有尺寸可变的输入才有意义，因为它们包含对相同种类的事物的不同量的观察——时间上不同长度的记录，空间上不同宽度的观察等。
如果输入具有可变尺寸，卷积是没有意义的，因为它可以选择性地包括不同种类的观察。
例如，如果我们正在处理大学申请，并且我们的特征包括成绩和标准化测试分数，但不是每个申请人都进行了标准化测试，则使用相同的权重来对成绩特征和测试分数特征进行卷积是没有意义的。

表1：用于卷积网络的不同数据格式的示例。

	单通道	多通道
1维	音频波形：卷积的轴对应于时间。我们将时间离散化并且在每个时间点测量一次波形的振幅。	骨架动画 ( $\text{skeleton animation}$ ) 数据：计算机渲染的 $\text{3D}$ 角色动画是通过随时间调整“骨架”的姿势而生成的。在每个时间点，角色的姿势通过骨架中的每个关节的角度来描述。我们输入到卷积模型的数据的每个通道，表示一个关节的关于一个轴的角度。
2维	已经用傅立叶变换预处理的音频数据：我们可以将音频波形变换成 $2$ 维张量，不同的行对应不同的频率，不同的列对应不同的时间点。在时间轴上使用卷积使模型等效于在时间上移动。在频率轴上使用卷积使得模型等效于在频率上移动，这使得在不同八度音阶中播放的相同旋律产生相同的表示，但处于网络输出中的不同高度。	彩色图像数据：其中一个通道包含红色像素，另一个包含绿色像素，最后一个包含蓝色像素。在图像的水平轴和竖直轴上移动卷积核，赋予了两个方向上平移等变形。
3维	体积数据：这种数据一般来源于医学成像技术，例如 $\text{CT}$ 扫描等。	彩色视频数据：其中一个轴对应着时间，另一个轴对应着视频帧的高度，最后一个对应着视频帧的宽度。

总结

卷积神经网络以其灵活的数据处理能力，成为深度学习领域不可或缺的工具之一。从基础的二维图像识别到复杂的多维数据处理， $\text{CNN}$ 通过其独特的卷积操作，不断挖掘数据中的深层特征，推动了人工智能技术在各个领域的广泛应用与发展。随着技术的不断进步，我们有理由相信， $\text{CNN}$ 将在更多新兴领域展现出其强大的潜力与价值。