Compression Artifacts Reduction by a Deep Convolutional Network

mytzs123

已于 2024-04-22 09:44:08 修改

阅读量34

点赞数

分类专栏：图像增强文章标签：单图像质量增强

于 2022-07-19 10:47:18 首次发布

本文链接：https://blog.csdn.net/mytzs123/article/details/125860405

版权

图像增强专栏收录该内容

31 篇文章 1 订阅

订阅专栏

利用深度卷积网络减少压缩伪影

Abstract

有损压缩引入了复杂的压缩伪影，特别是块效应、振铃效应和模糊。现有算法要么专注于消除块效应并产生模糊输出，要么恢复伴随振铃效应的锐化图像。受超分辨率[5]上的深度卷积网络（DCN）的启发，我们制定了一个紧凑高效的网络，用于无缝衰减不同的压缩伪影。我们还证明，利用在浅层网络中学习的特征，可以有效地训练更深层次的模型。遵循类似的“从易到难”的思想，我们系统地研究了几种实际的迁移设置，并证明了迁移学习在低水平视觉问题中的有效性。我们的方法在基准数据集和真实用例（即Twitter）上的性能都优于最先进的技术。

1. Introduction

有损压缩（例如JPEG、WebP和HEVC-MSP）是一类数据编码方法，使用不精确近似表示编码内容。在这个信息爆炸的时代，有损压缩对于公司（如Twitter和Facebook）来说是必不可少的，也是不可避免的，以节省带宽和存储空间。然而，压缩在本质上会引入不需要的复杂工件，这将严重降低用户体验（如图1）。所有这些伪影不仅会降低感知视觉质量，还会对以压缩图像为输入的各种低级图像处理例程产生不利影响，例如对比度增强[16]、超分辨率[30，5]和边缘检测[3]。然而，在如此巨大的需求下，有效减少压缩伪影仍然是一个有待解决的问题。

我们以JPEG压缩为例来解释压缩伪影。JPEG压缩方案将图像分为8×8像素块，并对每个块分别应用块离散余弦变换（DCT）。然后对DCT系数进行量化，以节省存储空间。这一步将导致不同部件的复杂组合，如图1（a）所示。当在不考虑与相邻块的相关性的情况下编码每个块时，会出现块伪影，导致8×8边界处的不连续性。由于高频分量的粗量化（也称为吉布斯现象[9]），沿边缘出现振铃效应。由于高频分量的损失，会出现模糊。为了处理各种压缩伪影，人们提出了不同的方法，其中一些方法只能处理某些类型的伪影。例如，面向解块的方法[18、21、26]沿块边界执行滤波，以仅减少块伪影。Liew等人[17]和Foi等人[6]分别使用小波变换和形状自适应DCT变换的阈值。这些方法在消除阻塞和振铃伪影上表现的很好，但往往会产生模糊输出。Jung等人[13]提出了基于稀疏表示的恢复方法。它们产生了锐化的图像，但伴随着噪声边缘和不自然的平滑区域。

迄今为止，深度学习在高级和低级视觉问题上都取得了令人印象深刻的结果。特别是，董等人[5]提出的SRCNN显示了端到端DCN在图像超分辨率方面的巨大潜力。研究还指出，传统的基于稀疏编码的图像恢复模型同样可以视为深度模型。然而，我们发现三层网络不适合恢复压缩图像，尤其是在处理块效应和平滑区域时。由于各种伪影耦合在一起，第一层提取的特征是有噪声的，导致重建中出现不希望出现的噪声模式，为了消除不需要的伪影，我们通过在第一层之后嵌入一个或多个“特征增强”层来改进SRCNN，以清除噪声特征。实验表明，改进的模型，即“伪影减少卷积神经网络（AR-CNN）”，在抑制块伪影的同时保留边缘模式和尖锐细节方面非常有效（见图1）。然而，我们在训练深度DCN时遇到了训练困难。“越深越好”在高级视觉问题中被广泛观察到，但在低级视觉任务中没有观察到。特别是，超分辨率[4]中指出，“越深越好”，其中训练五层网络成为瓶颈。训练的困难部分是由于次优初始化设置。

上述困难促使我们研究一种更好的方法来训练低水平视觉问题的更深层次模型。我们发现，通过将在浅层网络中学习的特征转移到深层网络并同时进行微调，可以有效地解决这一问题1。这种策略也被证明在学习更深入的CNN图像分类方面是成功的[24]。遵循类似的一般直观想法，简单到困难，我们在这个低级视觉任务中发现了其他有趣的转换设置：（1）我们将在高质量压缩模型（更容易）中学习的特征转换为低质量压缩模型（更难），并发现其收敛速度快于随机初始化。（2）在实际用例中，公司往往根据其目的应用不同的压缩策略（包括重新缩放）（例如图1（b））。我们将在标准压缩模型（更容易）中学习的特性转移到实际用例（更难）中，并发现其性能优于从头开始学习。

本研究的贡献有两个方面：（1）我们提出了一种新的深度卷积网络，用于有效减少各种压缩伪影。广泛的实验，包括在真实用例上的实验，证明了我们的方法在感知和定量方面优于最先进的方法[6，12]。（2）我们验证了在浅层网络中重用特征有助于学习更深层的压缩伪影减少模型。在同样直观的想法下-简单到困难，我们揭示了一些有趣和实用的转移设置。我们的研究是首次尝试证明特征转移在低水平视觉问题中的有效性。

2. Related work

现有算法可分为面向解块的方法和面向恢复的方法。面向解块的方法侧重于消除块效应和振铃效应。在空间域中，提出了不同类型的滤波器[18、21、26]，以自适应地处理特定区域（例如边缘、纹理和平滑区域）中的块效应。在频域中，Liew等人[17]利用小波变换，得出不同小波尺度下的阈值，用于去噪。最成功的面向解块的方法可能是逐点形状自适应离散余弦变换（SA-DCT）[6]，它被广泛认为是最先进的方法[12，16]。然而，和大多数面向去块的方法一样，SA-DCT不能再现尖锐的边缘，并且倾向于过度平滑的纹理区域。面向恢复的方法将压缩操作视为失真，并提出恢复算法。它们包括基于凸集的投影方法（POCS）[32]、求解映射问题（FoE）[25]、基于稀疏编码的方法[13]和基于回归树场的方法（RTF）[12]，这是最先进的新方法。RTF采用SA-DCT[6]a s基的结果，并使用回归树场模型生成全局一致的图像重建。它还可以针对任何可微损失函数（例如SSIM）进行优化，但通常会以其他评估指标为代价。

超分辨率卷积神经网络（SRCNN）[5]与我们的工作密切相关。在本研究中，基于稀疏编码的方法中的独立步骤被表示为不同的卷积层，并在统一的网络中进行优化。它显示了深度模型在超分辨率等低层次视觉问题中的潜力。然而，压缩模型不同于超分辨率，因为它由不同种类的伪影组成。设计压缩恢复的深度模型需要深入了解不同的伪影。我们表明，直接应用SRCNN架构进行压缩恢复将在重建图像中产生不需要的噪声模式。

在深度学习在图像分类中取得成功以来，深度神经网络中的迁移学习很流行，从ImageNet中学习到的特征显示出良好的泛化能力[35]，并成为几个高级视觉问题的有力工具，例如Pascal VOC图像分类[20]和目标检测[7，22]。Y osinski等人[34]也试图量化特定层的一般或特定程度。总的来说，迁移学习在高级视觉问题中得到了系统的研究，但在低级视觉任务中没有得到系统的研究。在本研究中，我们探讨了几种减少压缩伪影的转移设置，并展示了迁移学习在低水平视觉问题中的有效性。

伪影减少卷积神经网络（AR-CNN）的框架。该网络由四个卷积层组成，每个卷积层负责一个特定的操作。然后，它在端到端框架中联合优化了四个操作（即特征提取、特征增强、映射和重建）。每个步骤中显示的示例特征图可以很好地说明每个操作的功能。为了更好地可视化，它们被归一化。

3. Methodology

3.1. Review of SRCNN

SRCNN旨在学习端到端映射，该映射将低分辨率图像Y（插值后）作为输入，并直接输出高分辨率图像F（Y）。该网络包含三个卷积层，每个卷积层负责一个特定的任务。具体来说，第一层执行patch提取和表示，从输入图像中提取重叠 patch，并将每个 patch表示为高维向量。然后，非线性映射层将第一层的每个高维向量映射到另一个高维向量，这在概念上是高分辨率 patch的表示。最后，重建层聚合面片表示以生成最终输出。网络可以表示为：

3.2. Convolutional Neural Network for Compres-sion Artifacts Reduction

Insights:在基于稀疏编码的方法和SRCNN中，第一步-特征提取-确定在以下阶段应强调和恢复的内容。然而，由于各种压缩伪影耦合在一起，为实现精确映射，提取的特征通常具有噪声和模糊性。在减少JPEG压缩伪影的实验中（见第4.1.2节），我们发现一些与高频细节耦合的量化噪声得到了进一步增强，在锐利边缘周围产生了意想不到的噪声模式。此外，平面区域中的阻塞伪影被误认为是正常边缘，导致平滑区域中的强度突变。受超分辨率[29]中特征增强步骤的启发，我们在SRCNN的特征提取层之后引入了一个特征增强层，以形成一个新的更深入的网络-AR-CNN,该层将“噪声”特征映射到相对“干净”的特征空间，这相当于对特征映射进行去噪。

Formulation:新网络ARCNN的概述如图2所示。在新模型中，SRCNN的三层保持不变。我们也使用与第3.1节相同的注释。为了进行特征增强，我们从第一层的n1特征图中提取新特征，并将它们组合成另一组特征图。该运算F1′也可以表示为卷积层：

值得注意的是，AR-CNN并不等于包含多个非线性映射层2的更深层SRCNN。深度SRCNN在映射阶段施加更多非线性，这等于在低层特征和最终输出之间采用更稳健的回归器。一些基于稀疏编码的方法[14，2]也提出了类似的想法。然而，由于压缩伪影很复杂，由单层提取的低层特征具有噪声。因此，性能瓶颈在于特性，而不是回归器。AR-CNN通过增强提取的低层特征来提高映射精度，前两层可以一起被视为更好的特征提取器。这比深度SRCNN具有更好的性能。AR-CNN、SRCNN和更深SRCNN的实验结果将在第4.1.2节中显示.

3.3. Model Learning

3.4. Easy-Hard Transfer

深度模型中的迁移学习提供了一种有效的初始化方法,事实上，传统的初始化策略（即从具有固定标准差的高斯分布中随机抽取[15]）不适合训练非常深层的模型。为了解决这个问题，He等人[10]推导了整流器非线性的鲁棒初始化方法，Simonyan等人[24]p r o pose使用浅层网络上的预训练特征进行初始化.

在低层次视觉问题（例如超分辨率）中，可以观察到，即使提供了大量的训练图像（例如ImageNet），训练超过4层的网络也会遇到收敛问题[5]。在AR-CNN的训练过程中，我们也遇到了这个困难。为此，我们遵循“易-难转换”的直观思想，系统地研究了在训练低级视觉网络时的几种转换设置。具体来说，我们试图重用在相对简单的任务中学习到的功能，以初始化更深或更难的网络。有趣的是，在神经计算研究[8]中已经指出了“易-难转移”的概念，在该研究中，先前对易辨别的训练可以帮助学习第二个更难的

形式上，我们将基本（或源）任务定义为A，目标任务定义为Bi，i∈ {1, 2, 3}. 如图3所示，基本网络baseA是一个在大型数据集dataA上训练的四层AR-CNN，其中图像使用具有压缩质量qA的标准压缩方案进行压缩。baseA中的所有层均根据高斯分布随机初始化。我们将把一层或两层baseA转移到不同的目标任务（见图3）。这种转移可以描述如下。

Transfer shallow to deeper model

如[4]所示，五层网络对初始化参数和学习速率敏感。因此，我们将baseA的前两层传输到五层网络targetB1。我们随机初始化其余的层3，并将所有层训练到相同的数据集dataA。这在概念上类似于应用于图像分类[24]，但这种方法从未在低水平视觉问题中得到验证。

Transfer high to low quality

低压缩质量的图像包含更复杂的伪影。在这里，我们使用从高压缩质量图像中学习的特征作为起点，以帮助学习DCN中更复杂的特征。具体来说，targetB2的第一层是从baseA复制的，并在以较低压缩质量qB压缩的图像上训练。

Transfer standard to real use case

然后，我们探讨了在标准压缩方案下学习的特征是否可以推广到其他实际用例，因为由于不同的重新缩放和压缩级别，这些用例通常包含更复杂的伪影。我们将baseA的第一层传输到网络targetB3，并在新数据集上训练所有层。

Discussion

为什么从相对简单的任务中学习到的功能会有帮助？首先，来自训练有素的网络的特性可以提供一个良好的起点。然后，深度模型的其余部分可以视为浅层模型，这更容易收敛。其次，在不同任务中学习的特征总是有很多共同点。例如，图3.4显示了在不同JPEG压缩质量下学习的特征。显然，高质量的滤波器a、b、c与低质量的滤波器a′、b′、c′非常相似。这种特性可以在微调过程中重用或改进，使收敛更快、更稳定。此外，对于一个困难问题的深度网络可以被视为一个没有足够偏置的学习者，拥有过大的假设搜索空间，因此容易过度拟合。我们研究的这几个迁移设置引入了良好的偏置，使学习者能够获得更具普遍性的概念。第4.2节中的实验结果验证了上述分析。

4. Experiments

我们使用BSDS500数据库[1]作为基本训练集。具体来说，其不相交的训练集（200幅图像）和测试集（200幅图像）均用于训练，其验证集（100幅图像）用于验证。与其他压缩伪影减少方法（例如RTF[12]）一样，我们应用标准JPEG压缩方案，并在MA TLAB JPEG编码器中使用JPEG质量设置q=4 0、30、20、10（从高质量到极低质量）。本文只关注亮度通道的恢复（在YCrCb空间中）

4.1. Comparison with the State-of-the-Arts

我们使用LIVE1数据集[23]（29幅图像）作为测试集来评估定量和定性性能。LIVE1数据集包含具有不同属性的图像。它广泛用于图像质量评估[27]和超分辨率[30]。为了进行全面的定性评估，我们应用峰值信噪比、结构相似性（SSIM）[27]5和峰值信噪比-B[33]进行质量评估。我们想强调PSNR-B的使用。它专门用于评估块状和去块图像。网络设置为f1=9、f1′=7、f2=1、f3=5、n1=6 4、n1′=3 2、n2=1 6和n3=1，表示为AR-CNN（9-7-1-5）或简称为AR-CNN。针对每个JPEG质量训练特定网络。参数从高斯分布随机初始化，标准偏差为0.001。

4.1.1 Comparison with SA-DCT

我们首先比较了AR-CNN和SA-DCT[6]，SA-DCT被广泛认为是最先进的面向去块的方法[12，16]。PSNR、SSIM和PSNR-B的量化结果如表1所示。总的来说，我们的ARCNN在所有JPEG质量和评估指标上都大大优于SA-DCT。注意，PSNR-B的增益远大于PSNR。这表明AR-CNN可以生成具有更少块效应的图像。我们还对[6]6中使用的5个经典测试图像进行了评估，并观察到了相同的趋势。结果如表2所示。

为了比较视觉质量，我们在图10中展示了一些q=1 0的恢复图像7。从图10可以看出，与SA-DCT相比，AR-CNN的结果可以产生更尖锐的边缘，同时产生更少的阻塞和振铃伪影。与最先进的方法相比，视觉质量在各个方面都有了很大的提高。此外，AR-CNN在实现速度上优于SADCT。对于SA-DCT，处理256×256图像需要3.4秒。而AR-CNN只需要0.5秒。它们都是在配备Intel I3 CPU（3.1GHz）和16GB RAM的PC上使用C++实现的。

4.1.2 Comparison with SRCNN

如第3.2节所述，SRCNN不适合减少压缩伪影。为了进行比较，我们训练了两个具有不同设置的SRCNN网络。原始的SRCNN（9-1-5），f1=9，f3=5，n1=64，n2=32。（ii）更深的SRCNN（9-1-1-5），带有额外的非线性映射层（f2′=1，n2′=1.6）。他们都使用BSDS500数据集进行培训和验证，如第4节所示。压缩质量为q=1 0。AR-CNN与第4.1.1节相同。

在LIVE1数据集上测试的定量结果如表3所示。我们可以看到，两个SRCNN网络在所有评估指标上都较差。从图5所示的收敛曲线可以看出，AR-CNN从学习阶段开始就实现了更高的峰值信噪比。此外，从图11中恢复的图像7中，我们发现两个SRCNN网络都会生成具有噪声边缘和非自然平滑区域的图像。这些结果证明了我们在第3.2节中的陈述。简而言之，成功地训练深度模型需要全面了解问题并仔细设计模型结构。

4.1.3 Comparison with RTF

RTF[12]是最近最先进的面向恢复的方法。如果没有他们的解块代码，我们只能与发布的解块结果进行比较。他们的模型是在BSDS500数据集的训练集（200幅图像）上训练的，但所有图像都按0.5的系数缩小[12]。为了进行公平比较，我们还在同样大小的200幅图像上训练新的ARCNN网络，test是在BSDS500数据集的测试集上执行的（图像比例为0.5），这也与[12]一致。我们比较了两种RTF变体。一种是普通RTF，它使用滤波器组，并针对峰值信噪比进行了优化。另一种是RTF+SA-DCT，其中包括SA-DCT作为基本方法，并针对MAE进行了优化。后者在所有RTF变体中实现了最高的峰值信噪比值[12]。如表4所示，我们获得了优于普通RTF的性能，甚至优于RTF和SA-DCT的组合，尤其是在更具代表性的PSNR-B指标下。此外，在如此小的数据集上进行训练在很大程度上限制了ARCNN的能力。如果有更多的训练图像，AR-CNN的性能将进一步提高。

4.2. Experiments on Easy-Hard Transfer

我们展示了不同“易难转移”设置的实验结果，详细信息如表5所示。以基本网络为例，基本q10是一个四层AR-CNN（9-7-1-5），在压缩质量q=10的情况下，在BSDS500[1]数据集（400幅图像）上训练。通过随机抽取均值为零、标准差为0.001的高斯分布来初始化参数。图6-8显示了验证集上的收敛曲线。

4.2.1 Transfer shallow to deeper model

在表5中，我们将更深（五层）的AR-CNN表示为“9-7-3-1-5”，其中包含另一个特征增强层（f1′'=3和n1′'=16）。图6中的结果表明从四层网络转移的特征使我们能够成功地训练五层网络。注意，使用传统初始化方法直接训练五层网络是不可靠的。具体来说，我们已经尝试了不同的学习率组，但仍然没有观察到收敛。此外，与使用He等人的方法[10]相比，“转移深度”收敛速度更快，性能更好，这在训练深度模型方面也非常有效。我们还对结构“9-7-1-1-5”进行了比较实验，并观察到了相同的趋势。

4.2.2 Transfer high to low quality

结果如图7所示。显然，具有转移特征的两个网络比从头开始的训练收敛得更快。例如，为了达到27.77dB的平均峰值信噪比，“传输1层”只需要1.54×108个backprops，大约是“base-q10”的一半。此外，“转移1层”在整个训练阶段的表现也略优于“baseq10”。原因之一是，只有初始化第一层，网络才能更灵活地适应新的数据集。这也表明一个良好的起点可以帮助训练一个收敛速度更快的更好的网络。

4.2.3 Transfer standard to real use case – Twitter

推特（Twitter）等在线社交媒体是发布消息的热门平台。然而，Twitter将压缩服务器端上传的图像。例如，典型的800万像素（MP）图像（3264×2448）将产生固定分辨率为600×450的压缩和重新缩放版本。这种重新缩放和压缩将引入非常复杂的伪影，使得现有的去块算法（例如SA-DCT）难以恢复。然而，AR-CNN可以很容易地适应新数据。结果表明，在标准压缩方案下学习的特征也可以促进在完全不同的数据集上的训练。我们使用40张手机拍摄的分辨率为3264×2448的照片（共335209个训练子图像）及其Twitter压缩版本8来训练三个网络，初始化设置如表5所示。

从图8中，我们观察到“transfer q10”和“transfer q20”网络的收敛速度要比从头开始训练的“base Twitter”快得多。具体来说，“transfer q10”需要6×107个backprops才能实现25.1dB，“base Twitter”需要10×107个backprops。尽管收敛速度很快，但与“基本推特”相比，转移的特征也会导致更高的峰值信噪比值。这一观察表明，在标准压缩方案下学习的特征也可以转移到解决实际用例问题。一些恢复结果7如图12所示。我们可以看到，这两个网络都达到了令人满意的质量。

5. Conclusion

将深度模型应用于低级视觉问题需要对问题本身有深入的理解。在本文中，我们仔细研究了压缩过程，提出了一种四层卷积网络AR-CNN，它在处理各种压缩伪影方面非常有效。我们进一步系统地研究了几种易到难的迁移设置，这些设置可以帮助训练更深入或更好的网络，并验证了迁移学习在低水平视觉问题中的有效性。如SRCNN[5]所述，我们发现较大的滤波器尺寸也有助于提高性能。我们将让他们做进一步的工作。