JPEG图像格式加速神经网络训练--使用DCT训练CNN

最新推荐文章于 2024-03-27 16:34:21 发布

kadog

最新推荐文章于 2024-03-27 16:34:21 发布

阅读量2k

点赞数 40

分类专栏： By GPT 文章标签：神经网络 cnn 人工智能计算机视觉图像处理深度学习

本文链接：https://blog.csdn.net/qq_28247201/article/details/136089959

版权

By GPT 专栏收录该内容

24 篇文章 7 订阅

订阅专栏

JPEG图像格式加速神经网络训练

JPEG图像格式加速神经网络训练

JPEG图像格式加速神经网络训练

在处理和利用图像数据训练神经网络的过程中，JPEG是一种广泛采用的图像格式。传统的方法需要将JPEG图像解码成RGB像素值后才能够输入给卷积神经网络(CNN)进行训练，这个解码过程不仅增加了额外的计算成本，还可能导致原始数据信息的丢失。然而，“从JPEG图像格式直接加速神经网络（Faster Neural Networks Straight from JPEG）”的研究，提出了一种新的观点：直接在JPEG图像格式的块状离散余弦变换（DCT）系数上训练CNN。
在这里插入图片描述
研究结果(https://www.uber.com/en-CA/blog/neural-networks-jpeg/):

我们发现速度的提升仅仅是由于输入层和后续层上的数据量较小，正如人们所期望的那样。精度的提高主要归功于 DCT 表示的具体使用，结果证明它对于图像分类非常有效。令人惊讶的是，简单地将 ResNet-50 的第一个卷积层替换为步长 8 DCT 变换会带来更好的性能。它的效果甚至比完全相同形状的学习变换还要好。换句话说，与传统观点相反，我们发现使用较大的感受野和步幅（各 8 个）比使用较小的感受野和步幅效果更好，并且对第一层进行硬编码比学习它效果更好。当Residual Networks在 2015 年确立了 ImageNet 的最新技术水平时，只需用冻结的 DCT 替换第一层就可以进一步提高现有技术水平。

工作原理

DCT系数与JPEG

JPEG图像文件使用的压缩技术基于一种称为离散余弦变换（Discrete Cosine Transform，DCT）的方法。DCT是一种将信号或图像矩阵转换到不同频率空间的技术。在JPEG压缩中，DCT用于将图像数据从其空间域（即原始像素）转换到频率域。这个转换的结果就是一组DCT系数，它们描述了图像区块的频率成分。

具体来说，JPEG压缩过程包括以下步骤：

颜色空间转换：首先，图像从RGB颜色空间转换到YCbCr颜色空间。Y代表亮度（也就是灰度），而Cb和Cr代表色差分量。
分块处理：图像被分割成8x8像素的块。
计算DCT：对每个8x8的块进行DCT，由空间域的64个像素值到频率域的64个DCT系数。这些DCT系数代表了不同频率的信息，其中的第一个系数（DC系数）代表块的平均亮度，其余的63个系数（AC系数）代表更高频率内容的细节。
量化：DCT系数接着被量化，以实现数据压缩。量化过程中高频系数通常会被大幅度缩减，因为人类视觉对这些细节的敏感度较低。
编码与压缩：量化后的DCT系数然后用不同的编码技术（如Huffman编码）进行编码，并存储为JPEG文件。

在传统的图像处理流程中，一个JPEG文件在被送入神经网络之前，需要将上述过程逆转，通过解码、逆DCT及色域转换回RGB空间。然而，“直接从JPEG的DCT系数训练神经网络”这一技术提倡跳过这些步骤，直接使用压缩后的DCT系数作为网络的输入，从而减少计算开销和加快训练速度。

直接利用DCT系数

该研究利用的关键想法是：由于DCT系数已经包含在JPEG文件中，可以直接将这些系数用作网络的输入，省去了将JPEG解码到RGB像素的步骤。这种方法降低了模型训练的前期准备工作，并且保留了图像的原始频率特征。

以下是一个基于DCT系数直接应用于机器学习的流程：

阶段 1: 数据准备

在数据准备阶段，无需将JPEG图像文件解压缩到完整的RGB像素矩阵，而是直接解析JPEG文件，提取图像的DCT系数。

将JPEG图像文件解析为DCT系数涉及到对JPEG文件格式的了解以及图像解码的相关技术。通常，这个过程涉及以下步骤：

步骤 1: 读取JPEG文件结构

JPEG文件由多个不同的段组成，如Start of Image (SOI)段、Define Quantization Tables (DQT)、Start of Frame (SOF)、Huffman Tables (DHT)、Start of Scan (SOS)和图像数据本身等。

步骤 2: 提取量化表和Huffman表

量化表和Huffman表是解码JPEG图像至关重要的部分。它们分别定义了如何量化DCT系数和如何使用Huffman编码对这些系数进行失真压缩。

步骤 3: 解析图像数据

在SOS段之后，实际的图像数据开始。这些数据是使用Huffman编码压缩过的。解码器需要使用提取的Huffman表来解码这些数据，还原成原始的DCT系数。

步骤 4: 反量化

由于在JPEG编码过程中，DCT系数被量化以减少数据大小，因此解码包括反量化步骤，这涉及到将编码的DCT系数与量化表中的值相乘，以恢复大致的原始DCT系数。

步骤 5: 获取DCT系数

完成上述步骤后，就可以获得每个8x8像素块的DCT系数。这些系数现在可以直接用于机器学习或其他图像处理任务。

为了实现以上步骤，可以使用各种编程语言的库或工具。例如，在Python中，可以使用jpeg4py或Pillow库进行JPEG图像的解析与处理。下面是一个简单的代码示例，展示如何利用Pillow库获取JPEG图像的DCT系数：

from PIL import Image
import numpy as np
import jpeg4py as jp

# 使用jpeg4py库加载图片
image = jp.JPEG('path_to_your_image.jpg').decode()

# 此时，image变量包含了图像的DCT系数
# 你可以进一步处理DCT系数或者直接使用它们进行机器学习训练

需要注意的是，不同的库可能提供不同层次的解析能力。某些库可能直接提供DCT系数，而其他较低级的库则可能需要进行一些额外的步骤来手动提取这些信息。为了处理更加复杂的图像或进行大量图像的处理，可能需要深入了解JPEG文件格式。

阶段 2: 输入处理

针对从JPEG文件中提取出的DCT系数，进行必要的归一化或其他预处理操作，使其适应训练模型的输入要求。

下面是一些通常在DCT系数上执行的预处理步骤：

预处理 1: 正规化（Normalization）

由于量化过程影响了DCT系数的数值范围，所以常常需要将DCT系数进行正规化处理，以保证输入数据处于相对统一和有助于网络学习的范围内。正规化可以简单地通过将系数值缩放到一个特定的范围，比如[0, 1]或[-1, 1]。

预处理 2: 中心化（Centering）

中心化是将数据的平均值移动到原点的过程。对于DCT系数，这意味着从每个系数中减去该系数在训练集中的平均值，有助于减少不同图片间亮度差异导致的影响。

预处理 3: 选择性剔除

在JPEG压缩时，很多高频的DCT系数可能因为量化操作被设置为零或近零值，这些系数包含的信息量很少。因此，有时可以选择性剔除一些不重要的高频DCT系数，以减少输入数据的维度。

预处理 4: 量化系数补偿

考虑到JPEG的量化过程会导致图像质量的损失，可以通过对量化系数进行补偿来尝试恢复一些信息，例如通过乘以量化表中的逆量化系数。

预处理 5: 重排DCT系数

通常DCT系数是按照Zigzag顺序排序的，这种顺序是为了更好的数据压缩。但在输入到CNN之前，可能需要将这些系数重排到更适合卷积操作的顺序。

预处理 6: 分布调整

DCT系数的分布可能会由于图像内容而有很大的变化，要使用机器学习算法，一种可能的预处理步骤是转换DCT系数的分布，让其更接近于正态分布或其他有利于模型学习的分布。

预处理 7: 批量处理

在准备用于神经网络训练的批量数据时，需要确保所有数据的维度一致，可以通过填充或剪切来保证这一点。

这些预处理步骤不是全部必须执行的。实际操作中，适用哪些预处理取决于具体的应用场景、所使用的机器学习模型和期望达到的性能指标。进行适当的数据探索和实验来确定最优预处理步骤通常是实践中的一个重要环节。

阶段 3: 网络架构适配

设计适合DCT系数输入的网络架构，这可能包括改变传统用于像素输入的卷积层，使其能够处理频率域的数据。例如，可以使用适应频率特征的卷积滤波器。

设计能够接受DCT系数作为输入的网络架构，需要考虑DCT数据的特性和卷积神经网络(CNN)对输入数据的预期。DCT系数代表的是图像块的频率信息，和常规的基于像素的图像数据有所不同。这意味着网络需要能够处理和学习这种频率域的信息。以下是设计适应DCT输入的网络架构的一些关键考虑因素：

1. 输入层调整

CNN的第一个层通常是一个卷积层，用于提取输入数据的特征。对于DCT输入，网络的输入层需调整为接受单通道或多通道的DCT系数，这取决于使用的量化表的数量和种类（例如Y, Cb, Cr通道）。

2. 卷积核大小和卷积层设计

由于DCT块是8x8的大小，通常网络中第一层卷积（或前几层）的卷积核大小需要匹配这个尺寸，或者设计为能够有效处理这种尺寸的卷积核。这有助于网络学习到这些8x8块内的频率模式。

3. 频率选择性特征映射

可以设计专门针对低频和高频DCT系数的特征映射，以此分别处理图像的不同频率成分。例如，网络可以有分支或模块，专注于低频信息的广义内容和高频信息的细节特征。

4. 抗量化噪声能力

DCT系数由于经过了压缩和量化，可能包含噪声。网络设计需要具备对量化噪声的鲁棒性，通过网络层的设计和训练策略来减少这种噪声的不利影响。

5. 特征融合策略

在网络中应用特征融合的策略可以是关键，特别是对于将低频和高频信息结合起来的任务。可以使用不同级别的特征融合技术，如串联、加和或者注意力机制。

6. 模型深度和复杂性

考虑模型的深度和复杂性，以保证模型可以提取足够丰富的特征而不致过于复杂导致过拟合。DCT系数可能不需要非常深层的网络来处理，深度和复杂度需要通过实验来确定。

7. 训练策略

设计网络时应考虑训练策略，如使用预训练权重、数据增强、正则化技术，以及学习率调度，以提高训练的稳定性和模型的泛化能力。

8. 输出层和损失函数

根据任务（分类、回归、检测等）选择适当的输出层和损失函数，以确保网络输出符合期望的任务结果。

9. 软件和硬件兼容性

确保所设计的网络架构能够在目标软件框架和硬件上有效运行，以利用现有的算力资源。

在设计适应DCT输入的网络架构时，实验和迭代是非常重要的。通常需要进行多次试验来找到性能最佳的网络配置。利用现有的神经网络架构为基础，并对其进行适应性调整，是一种常见的策略。这样做的好处是可以借鉴已有架构的优点，同时为特定数据类型做出优化。

例子

构建一个接受DCT系数输入的最简单的示例神经网络通常会从一个基本的卷积神经网络(CNN)开始，其核心功能是识别图像中的模式，即使是在频率域中的模式。以下是一个简单CNN框架的实现，用于处理DCT系数输入，我们将以Python和Keras作为示例：

from keras.models import Sequential
from keras.layers import Conv2D, Flatten, Dense, MaxPooling2D

# 假设我们已经有了DCT系数的输入数据，大小为(batch_size, 8, 8, 1)，
# 其中8x8代表一个DCT块的大小，1代表单通道（灰度图）。

# 创建一个Sequential模型
model = Sequential()

# 添加第一个卷积层，用于提取DCT系数的特征，使用较小的卷积核进行细粒度的特征检测
# 选择合适的卷积核大小和数量。这里使用3x3大小的卷积核，并定义了16个不同的卷积核。
model.add(Conv2D(16, (3, 3), activation='relu', input_shape=(8, 8, 1)))

# 添加最大池化层以减小特征图的维度，同时保留最重要的特征
model.add(MaxPooling2D((2, 2)))

# 展平特征图，以便可以传递给后面的全连接层
model.add(Flatten())

# 添加一个全连接层（即稠密层），这里用64个神经元
model.add(Dense(64, activation='relu'))

# 最后添加输出层，注意这里的节点数需要根据你的任务来设置
# 例如，如果是一个10类分类问题，则应该有10个节点
model.add(Dense(10, activation='softmax'))  # 适用于10类分类的输出层

# 编译模型，选择合适的损失函数和优化器。
# 对于多类分类，损失函数通常是'categorical_crossentropy'。
model.compile(optimizer='adam',
              loss='categorical_crossentropy',
              metrics=['accuracy'])

# 打印网络结构
model.summary()

# 现在模型已经定义好，接下来可以在准备好的DCT系数数据集上对其进行训练。

在这个示例中，输入假定是一批8x8大小的单通道DCT系数。网络开始于一个卷积层，随后是池化层和全连接层，最后是适合分类任务的输出层。需要根据具体的应用场景调整网络的深度、卷积层的数量、卷积核的大小、层间连接方式以及激活函数等。此示例网络假设您已经有了预处理后的DCT系数数据，并准备好用于训练。在实际应用中，您还需要写代码来加载和预处理JPEG图像以获得DCT系数。