【论文阅读】ARCNN

论文:Deep Convolution Networks for Compression Artifacts Reduction
论文:https://arxiv.org/pdf/1608.02778.pdf
代码:https://github.com/yjn870/ARCNN-pytorch
作者:Ke Yu
年份:2016
期刊:Computer Science - Computer Vision and Pattern Recognition
数据集

摘要

摘要—有损压缩引入了复杂的压缩伪像,特别是块伪像,振铃效果和模糊。现有算法要么着重于消除块状伪像并产生模糊的输出,要么恢复带有振铃效果的清晰图像。本文制定了一个紧凑而有效的网络来无缝衰减不同的压缩伪像。为了满足实际应用的速度要求,本文通过层分解以及大步长卷积和反卷积层的联合使用来进一步加速提出的基线模型。这也导致了更通用的CNN框架,该框架与常规的多层感知器(MLP)有着密切的关系。最后,与基准模型相比,修改后的网络可将速度提高7.5倍,而几乎没有性能损失。而且更深层次的模型可以有效地利用浅层网络中学习到的特征进行训练。

注:
振铃效应(Ringingeffect)是影响复原图像质量的众多因素之一,是由于在图像复原中选取了不适当的图像模型造成的,振铃效应产生的直接原因是图像退化过程中信息量的丢失,尤其是高频信息的丢失,其严重降低了复原图像的质量,并且使得难于对复原图像进行后续处理。

介绍

有损压缩(例如,JPEG,WebP和HEVC-MSP)是一类数据编码方法,它使用不精确的近似来表示编码的内容。
如图一(a):
所有这些伪影不仅会降低感知的视觉质量,也会对以压缩图像作为输入的各种低级图像处理程序产生不利影响,例如对比度增强,超分辨率和边缘检测。各种压缩方案会带来不同种类的压缩伪影,这些伪影都是复杂的且取决于信号。以JPEG压缩为例,相邻8×8像素块之间的不连续将导致块状伪像,而高频分量的粗略量化将带来振铃效果和模糊。
在这里插入图片描述
如图一(b):
Twitter和Facebook将对上传的高分辨率图像进行压缩,首先进行缩放,然后进行压缩。 组合压缩策略也引入了严重的振铃效果和模糊。

在这里插入图片描述
图一右边:
如果直接将SuperResolution Convolutional Neural Network(SRCNN)应用于压缩伪像的减少,则其第一层提取的特征可能会产生噪音,从而导致重建过程中出现不良的噪音模式。因此,三层SRCNN不太适合还原压缩图像,尤其是在处理复杂的伪像时。
为了消除不希望的伪影,本文通过在第一层之后嵌入一个或多个“功能增强”层以清除噪声特征来改善SRCNN。 实验表明,改进的模型,即Artifacts Reduction Convolutional Neural Networks(AR-CNN),在抑制块状伪影的同时保留边缘图案和清晰细节的效果特别好。 与JPEG专用模型不同,AR-CNN在应对不同的压缩方案(包括JPEG,JPEG 2000,Twitter等)方面同样有效。
但是,当添加另一层时,网络规模将显着增加,这使其难以应用于实际应用中。 通常,高昂的计算成本已成为大多数先前方法的主要瓶颈。 在研究网络结构时,我们发现了两个限制推理速度的关键因素。
(1) 添加的“功能增强”层几乎占总参数的95%。
(2) 当采用全卷积结构时,时间复杂度将随着输入图像的空间大小成平方增加。
为了加快推理进程,同时仍保持良好的性能,本文研究了一种更有效的框架,其中进行了两个主要修改。
(1) 对于冗余参数,本文在前两层之间插入另一个具有1×1过滤器的“收缩”层。 对于大的卷积计算负担,本文在第一层使用大步幅卷积滤波器,在最后一层使用相应的反卷积滤波器
(2) 将在较小的特征图上进行中间层的卷积运算,从而导致更快的推理速度。
实验表明,改进后的网络,即 Fast AR-CNN,可以比baseline AR-CNN快7.5倍,而几乎没有性能损失。 这进一步帮助我们为 low-level vision problems制定了更通用的CNN框架,同时还揭示了它与传统的多层感知器的密切关系。
我们遇到的另一个问题是如何有效地训练更深的DCN。正如SRCNN 中指出的那样,训练五层网络成为瓶颈。训练的困难 部分是由于欠佳的初始化设置。前面提到的困难促使我们研究一种更好的方法来为低水平视觉问题训练更深层次的模型。我们发现,可以通过将在浅层网络中学习到的特征转移到更深层的特征并同时进行微调来有效地解决这一问题。该策略还被证明可以成功地学习更深入的CNN进行图像分类。遵循类似的一般直观想法(易于操作),我们在低级视觉任务中发现了其他有趣的转移设置:(1)我们将在高质量压缩模型(更容易)中学习到的特征转移到低质量压缩模型中( 更难),发现它的收敛速度比随机初始化快。
(2)在实际用例中,公司倾向于根据其目的应用不同的压缩策略(包括重新缩放)(例如,图1(b))。我们将在标准压缩模型(更简单)中学习到的功能转移到实际用例(更困难)中,发现其性能要比从头学习更好。
这项研究的贡献有四个方面:
(1)制定了一个新的深度卷积网络以有效减少各种压缩伪像。 广泛的实验,包括在实际用例中的实验,在感知和定量上都证明了我们的方法优于最新方法的有效性。
(2)逐步修改了基线模型AR-CNN,并提出了一种更有效的网络结构,与基线AR-CNN相比,它的速度提高了7.5倍,同时仍保持了最新的性能。
(3)验证了重用浅层网络中的特征有助于学习更深的模型以减少压缩伪像。
转移学习方法将首先训练基础网络,然后将学习到的参数或几层特征复制到目标网络的相应层。 可以将这些传输的层冻结或微调到目标数据集。 剩余的层被随机初始化并训练为目标任务。

相关工作

现有算法可以分为面向解块和面向恢复的方法。 面向解块的方法着重于消除阻塞和振铃伪影。 在空间域中,已经提出了不同种类的滤波器来自适应地处理特定区域(例如,边缘,纹理和平滑区域)中的块状伪像。
面向恢复的方法将压缩操作视为失真,旨在减少这种失真。这些方法包括基于凸集的投影方法(POCS),解决MAP问题(FoE),基于稀疏编码的方法,半局部高斯过程模型,基于回归树字段的方法(RTF)和调整后的锚定邻域回归(A)。
为了处理特定的压缩标准(尤其是JPEG),最近的一些进展融合了来自双域(DCT和像素域)的信息,并获得了令人印象深刻的结果。
这项研究探索了减少压缩伪影的几种传输设置,并展示了在低级视觉问题中进行转移学习的有效性。

方法

本文方法基于当前成功的低水平视觉模型– SRCNN 。
(1) 首先简要概述SRCNN。
(2) 然后解释导致更深入网络的见解,并介绍新模型。
(3)探索三种类型的迁移学习策略,这些策略有助于训练更深入,更好的网络。

A SRCNN

SRCNN旨在学习端到端映射,该映射以低分辨率图像Y(在插值之后)为输入,并直接输出高分辨率图像F(Y)。 该网络包含三个卷积层,每个卷积层负责一项特定任务:
第一层执行补丁(patch)提取和表示,其从输入图像中提取重叠的补丁,并将每个补丁表示为高维向量。
非线性映射层将第一层的每个高维向量映射到另一个高维向量,这在概念上是高分辨率补丁的表示。
重建层汇总逐块表示以生成最终输出。
该网络可以表示为:
在这里插入图片描述
Wi和Bi分别表示第i层的滤波器和偏置,Fi是输出特征图,“ *”表示卷积运算。 Wi包含支持度为(ni-1)×fi×fi的ni个滤波器,其中fi是滤波器的空间支持度,ni是滤波器的数量,n0是输入图像中的通道数。 SRCNN中没有池化层或全连接层,因此最终输出F(Y)的大小与输入图像的大小相同。 校正后的线性单位(Rectified Linear Unit)(ReLU,max(0,x))适用于滤波器响应。
这三个步骤类似于基于稀疏编码的超分辨率方法中的基本操作。

B 用于压缩伪像减少的卷积神经网络

在基于稀疏编码的方法和SRCNN中,第一步-特征提取-确定在接下来的阶段应强调和恢复的内容。但是,由于各种压缩伪像耦合在一起,因此提取的特征通常嘈杂且模棱两可,无法进行精确映射。在减少JPEG压缩伪像的实验中,发现一些量化噪声加上高频细节进一步增强,在锐利边缘带来意想不到的噪声模式。此外,在平坦区域中的块状伪影被误认为是正常边缘,从而导致平滑区域中的强度突然变化。受超分辨率中特征增强步骤的启发,本文在SRCNN中的特征提取层之后引入了一个特征增强层,以形成一个新的更深层的网络AR-CNN。该层将“有噪音的”特征映射到相对“更清晰”的特征空间,这等效于对特征图进行去噪。
 网络由四个卷积层组成,每个卷积负责特定的操作。 然后,它在端到端框架中共同优化四个操作(即特征提取,特征增强,映射和重建)。 每个步骤中显示的示例功能图可以很好地说明每个操作的功能。 将它们标准化以实现更好的可视化。
网络由四个卷积层组成,每个卷积负责特定的操作。 然后,它在端到端框架中共同优化四个操作(即特征提取,特征增强,映射和重建)。 每个步骤中显示的示例功能图可以很好地说明每个操作的功能。 将它们标准化以实现更好的可视化。
新网络AR-CNN的概述如图2所示。在新模型中,SRCNN的三层保持不变。 为了进行特征增强,我们从第一层的n1个特征图中提取新特征,并将它们组合以形成另一组特征图。 总体而言,AR-CNN由四层组成,即特征提取,特征增强,映射和重构层。
与采用ReLU作为激活函数的SRCNN不同,新网络中使用参数化整流线性单元( Parametric Rectified Linear Unit )(PReLU)。 为了区分ReLU和PReLU,将通用激活函数定义为:
在这里插入图片描述
xj是第j个通道上的激活f的输入信号,而aj是负部分的系数。 对于ReLU,参数aj设置为零,但对于PReLU可学习。本文选择PReLU主要是为了避免ReLU中零梯度引起的“死角” 。整个网络表示为:
在这里插入图片描述
变量同公式1,第二层(W2,B2)是添加的特征增强层。
AR-CNN不等于包含多个非线性映射层的更深层的SRCNN。 更深的SRCNN在映射阶段会施加更多的非线性,这等于在低级特征和最终输出之间采用更强大的回归因子。 但是,由于压缩伪像很复杂,因此由单个层提取的低级特征会产生噪音。 因此,性能瓶颈在于特征而不是回归器。 AR-CNN通过增强提取的低级特征来提高映射精度,并且前两层一起可以被视为更好的特征提取器。 与更深的SRCNN相比,这导致更好的性能。

C 模型学习

给定一组地面真实图像{Xi}及其对应的压缩图像{Yi},使用均方误差(MSE)作为损失函数:
在这里插入图片描述
其中Θ= {W1,W2,W3,W4,B1,B2,B3,B4},n是训练样本的数量。 使用随机反向梯度下降和标准反向传播可以将损耗降到最低。采用批处理模式学习方法,批处理大小为128。

ACCELERATING AR-CNN

尽管AR-CNN已经比大多数现有的深度模型小得多(例如AlexNet 和Deepid-net ),但对于实际甚至实时在线应用而言,它仍然不令人满意。 具体来说,在网络规模上,增加一层,AR-CNN比SRCNN大几倍。本文将在保留其重构质量的同时逐步加速提出的基线模型。 做法:
(1)分析了AR-CNN的计算复杂度,并找出最有影响力的因素。
(2)通过层分解以及大步长卷积和反卷积层的联合使用来重新设计网络。进一步使其成为更通用的框架,并将其与常规的多层感知器(MLP)进行比较。

A Complexity Analysis

AR-CNN由纯卷积层组成,参数总数可以计算为:
在这里插入图片描述
i是层索引,d是层数,fi是过滤器的空间尺寸。 ni表示第i层的滤波器的数量,ni-1是输入通道的数量。 如果包括输出特征图mi的空间大小,获得时间复杂度的表达式:
在这里插入图片描述
对于基线模型AR-CNN,本文设置d = 4,n0 = 1,n1 = 64,n2 = 32,n3 = 16,n4 = 1,f1 = 9,f2 = 7,f3 = 1,f4 = 5,即64(9)-32(7)-16(1)-1(5)。 首先分析表I中每一层的参数。发现“功能增强”层几乎占总参数的95%。 显然,如果要减少参数,第二层应该是突破点。
在这里插入图片描述
输出特征图mi的空间大小在总体时间复杂度中也起着重要作用。 在传统的低级视觉模型(如SRCNN)中,所有中间特征图的空间大小均与输入图像的空间大小相同。 但是,对于像AlexNet这样的高级视觉模型而言,情况并非如此,该模型由一些大步幅(步幅> 1)卷积滤波器组成。 通常,合理的较大步幅可以显着加快卷积运算速度,而准确性却很少,因此步幅大小是改善本文网络的另一个关键因素。

B Acceleration Strategies

层分解:首先降低“特征增强”层的复杂性。 该层同时扮演两个角色。 一种是使用一组大型过滤器(即7×7)对输入特征图进行去噪,另一种是将高维特征映射到相对低维特征空间(即从64到32)。 这表明可以用两个连接的层替换它,每个层负责一个任务,即将“特征增强”层分解为具有32个1×1滤波的“收缩”层和具有32个7×7滤波的“增强”层,如图4所示。1×1滤波器用于减少深度模型中的特征尺寸。 然后计算参数:
在这里插入图片描述
参数减少了近一半且整个网络规模也减少了46.17%。 将修改后的网络表示为64(9)-32(1)-32(7)-16(1)-1(5)。 该模型实现的恢复质量几乎与基线模型64(9)-32(7)-16(1)-1(5)相同。
在这里插入图片描述
图4: 基于原始AR-CNN的主要修改有两个。 首先,层分解将原始的“功能增强”层分为“收缩”层和“增强”层。 然后,大步长的卷积和反卷积层显着减小了中间层特征图的空间大小。 框架的整体形状像一个沙漏,两端很厚,中间很薄。

大步长卷积和反卷积:另一种加速策略是增加第一卷积层中的步幅大小(例如,步幅s> 1)。 在AR-CNN中,第一层起着与高级视觉深度模型相似的作用(即特征提取器),因此可以尝试将步幅大小从1增加到2。
但是,这将导致输出较小并影响端到端映射结构。 因此本文用反卷积层替换了AR-CNN的最后一个卷积层(图2)。 反卷积可以被视为卷积的相反操作。 特别地,如果将步幅s设置为1,则反卷积滤波器的功能与卷积滤波器的功能相同(图3(a))。
对于较大的步幅s> 1,卷积执行下采样,而反卷积执行上采样(图3(b))。 因此,如果我们对第一层和最后一层使用相同的跨度,则输出将保持与输入相同的大小,如图4所示。在联合使用大跨度的卷积和反卷积层之后,输出的空间大小将保持不变。 特征映射mi将变为mi / s,这将大大降低总体时间复杂度。
尽管上述修改将提高时间效率,但也可能影响恢复质量。 因此扩展映射层(即用更多的映射滤波器)并扩大反卷积层的过滤器大小。 例如,可以将映射滤波器的数量设置为与第一层滤波器的数量相同(即从16到64),并为第一层和最后一层使用相同的滤波器大小(即f1 = f5 = 9),通常可将其视为对低时间复杂度的补偿。
快速AR-CNN: 通过以上修改达到更有效的网络结构。 如果设置s = 2,则修改后的模型可以表示为64(9)-32(1)-32(7)-64(1)-1 [9]-s2,其中方括号表示反卷积滤波器 。 将新模型命名为Fast AR-CNN。 根据公式9,其总参数数为56,496。则加速比可以计算为106448/56496·2*2 = 7.5。该网络可以达到与基准模型相似的结果。在这里插入图片描述
图3:当步幅为1时,卷积和解卷积可以视为等效操作。 每个输出像素由卷积和反卷积中相同数量的输入像素(橙色圆圈中)确定。
当步幅大于1时,卷积执行下采样,而解卷积执行上采样。

C A General Framework

当放宽网络设置(例如滤波器数量,滤波器大小和步幅)时,可获得更通用的框架:
(1)网络的整体“形状”就像一个“沙漏”,两端很粗,中间很细。 收缩层和映射层控制网络的宽度。 它们都是1×1滤波器,对整体复杂性的贡献很小。
(2)步幅的选择非常灵活。 先前的低层视觉CNN,例如SRCNN和ARCNN,可以看作是s = 1的特例,其中反卷积层等于卷积层。 当s> 1时,时间复杂度将以重建质量为代价降低s ^2倍。
(3)当在中间层采用所有1×1滤波器时,它将与多层感知(MLP)非常相似。 MLP分别处理每个补丁。以stride s从图像中提取输入小块,对输出小块进行聚合(即平均)重叠的区域。从步幅s从图像中提取输入色块,并将输出色块聚集(即平均)在重叠区域上。在本文,补丁也使用stride s提取,但采用卷积方式。输出斑块也被聚合(即求和)在重叠区域上,但是以解卷积的方式。如果将中间层的滤波器大小设置为1,则每个输出色块将完全由单个输入色块确定,这与MLP几乎相同。但是,当为中间层设置较大的滤波器大小时,输出色块的接收场将增加,导致更好的性能。这也揭示了CNN结构在理论上可以胜过常规MLP的原因。一般框架表示为
在这里插入图片描述
f和n分别代表滤波器尺寸和滤波器数量。 中间层的数量表示为m,可用于设计更深的网络。在以下实验中将m设置为1。 图4显示了新框架的整体结构,该框架可以应用于更底层的视觉问题,例如去噪和去模糊。

易-难 转移

在低级视觉问题(例如超分辨率)中,观察到训练网络超过4层会遇到收敛问题,即使提供了大量的训练图像(例如ImageNet)。 在AR-CNN的训练过程中也遇到了这一困难。 为此,通过 “easy-hard transfer”,尝试重用在相对简单的任务中学习到的功能,以初始化更深或更难的网络。将基本(或源)任务定义为A,将目标任务定义为Bi,i∈{1,2,3}。 如图5所示,基础网络baseA是在大型数据集dataA上训练的四层AR-CNN,其图像使用具有压缩质量qA的标准压缩方案进行压缩。 baseA中的所有层都是根据高斯分布随机初始化的。 我们将一层或两层baseA转移到不同的目标任务(请参见图5)。 这种转移可以描述如下。

在这里插入图片描述
浅层模型转换为深层模型:
五层网络对初始化参数和学习速率敏感。 因此将baseA的前两层转移到五层网络targetB1。 然后随机初始化其剩余的图层,并将所有图层朝着相同的数据集dataA训练。 这在概念上类似于图像分类,但这种方法从未在低级视觉问题中得到验证。
高品质转移到低品质:
低压缩质量的图像包含更复杂的伪像。 本文以从高压缩质量图像中学习到的特征为起点去学习DCN中更复杂的特征 。即targetB2的第一层从baseA中复制,对压缩质量qB较低的图像进行训练。
标准转移到实际用例:
将baseA的第一层转移到网络targetB3,并训练新数据集上的所有层,探索在标准压缩方案下学习到的特征是否可以推广到其他实际用例。
讨论:
为什么从相对简单的任务中学到的特征会有所帮助?
(1)来自训练有素的网络的功能可以提供一个很好的起点。
(2)可以将更深层模型的其余部分视为浅层模型,该模型更易于收敛。
(3)在不同任务中学习的特征总是有很多共同点。例如,图6显示了在不同JPEG压缩质量下学习到的特征。高质量的滤波器a,b,c与低质量的滤波器a ‘,b’,c’非常相似。可以在微调期间重用或改进此类特征,从而使收敛更快,更稳定。此外,对于一个困难问题,深度网络假设空间过大,需要进行搜索,因此容易发生过拟合。
在这里插入图片描述

实验

使用BSDS500数据集作为训练集,分两步对训练图像采用数据增强。
1)缩放:每个图像的缩放比例分别为0.9、0.8、0.7和0.6。
2)旋转:每个图像旋转90、180和270度。然后增强训练集是原始图像的5×4 = 20倍。 本文仅关注亮度通道的恢复(在YCrCb空间中)。
训练图像对{Y,X}准备如下。
训练集中的图像被分解为24×24子图像。然后,从训练样本中生成压缩样本。从步幅为20的地面真相图像中提取子图像,因此,扩展后的400×20 = 8000训练图像可以提供1,870,336训练样本。对滤波尺寸大于1的层采用零填充。随着使用Caffe软件包进行训练,反卷积滤波将输出特征图,在边界上切开(s-1)-像素(s为第一卷积层的步幅)。即给定24×24输入Yi,AR-CNN产生(24-s + 1)×(24-s +1)输出。因此,损失(式(8))通过对比ground truth子图像Xi的左上(24 -s + 1) (24 -s + 1)像素来计算。在训练阶段,在最后一层使用较小的学习率(5×10-5),在其余层使用相对较大的学习率(5×10-4)。

A JPEG压缩图像的实验

本文使用基准网络设置– f1 = 9,f2 = 7,f3 = 1,f4 = 5,n1 = 64,n2 = 32,n3 = 16和n4 = 1,表示为64(9)-32(7) -16(1)-1(5)或简称为AR-CNN。 针对每种JPEG质量训练一个特定的网络。 从高斯分布中随机初始化参数,标准偏差为0.001。
1)与SA-DCT的比较:看表II。AR-CNN在所有JPEG质量和评估指标上均优于SA-DCT。 (PSNR-B上的增益远大于PSNR上的增益) 这表明AR-CNN可以产生具有较少伪像的图像。在这里插入图片描述
对5张经典测试图像进行了评估,趋势相同。如表III。

在这里插入图片描述
图10中显示:
(1)与SA-DCT相比,AR-CNN产生更锐利的边缘,更少的阻塞和振铃伪像。
(2)AR-CNN的执行速度优于SA-DCT。 SA-DCT处理256×256图像需要3.4秒, 而AR-CNN仅需0.5秒。
在这里插入图片描述

在这里插入图片描述
2)与SRCNN的比较。
SRCNN不适合减少压缩伪像。本文训练了两个具有不同设置的SRCNN网络。
(i)f1 = 9,f3 = 5,n1 = 64和n2 = 32的原始SRCNN。(ii)更深层次的SRCNN,附加一个非线性映射层(f3 = 1, n3 = 16)
都使用BSDS500数据集进行训练和验证,压缩质量为q = 10。
表IV:两个SRCNN网络在所有评估指标上都逊色。
在这里插入图片描述
图7:AR-CNN从学习阶段开始就实现了更高的PSNR。
在这里插入图片描述
从图11:这两个SRCNN网络均产生具有嘈杂边缘和不自然平滑区域的图像。
3)与RTF的比较
RTF是一种最新的面向恢复的方法。 他们没有解块代码,本文与发布的解块结果进行比较。他们的模型是在BSDS500数据集的训练集(200张图像)上进行训练的,但是所有图像的比例缩小了0.5 。 为了公平,本文对同样大小为一半的200张图像训练新的ARCNN网络。 测试是在BSDS500数据集的测试集上执行的(图像的缩放比例为0.5)。比较两个RTF变体。 一种是普通RTF,它使用滤波器组并针对PSNR进行了优化。 另一个是RTF + SA-DCT,SA-D作为基本方法,并针对MAE进行了优化。 后者在所有RTF变体中实现最高的PSNR值。
在这里插入图片描述

表V:获得了比普通RTF,RTF+SA-DCT的组合更好的性能,特别是在更具代表性的PSNR-B指标下。

B JPEG 2000图像上的实验

为了公平,在选择数据集和软件时遵循A+(整后的锚定回归)。回归器可以更轻松地选择以较低的压缩率提高伪影模式,从而获得更好的性能。本文使用与JPEG实验中相同的AR-CNN网络结构(64(9)-32(7)-16(1)-1(5))。
图8:学习的第一层滤波的模式,与JPEG图像的模式有很大不同(图6)。
在这里插入图片描述
在这里插入图片描述
图9:提出的AR-CNN与A+,SLGP和FoE的PSNR增益比较。 x轴是图像索引。 数据集上的平均PSNR增益用实线标记。本文实现了0.353 dB的PSNR增益,优于A+的0.312 dB,SLGP的0.192 dB和FoE的0.115 dB。但是,AR-CNN在第十张图像上不如其他方法。该图像的还原结果如图13所示,PSNR较低的主要原因是平滑区域中的色差。以上实验证明了AR-CNN在处理不同压缩标准时的泛化能力。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
训练时,随机初始化很难收敛AR-CNN, 用转移学习策略解决了这个问题。即将训练好的三层网络的第一层滤波转移到四层的AR-CNN,或者可以重用在JPEG图像上训练的AR-CNN的特征。

They refer to different ‘easy-hard transfer” strategies
– transfer shallow to deeper model and transfer standard to real use case.

C 易-难转移实验

Table VI:以基础网络为例,“ base-q10”是在BSDS500 数据集上训练的四层AR-CNN 64(9)-32(7)-16(1)-1(5)( 压缩质量为q = 10的情况下最多可显示400张图像)。通过从均值为零且标准差为0.001的高斯分布中随机抽取参数来初始化参数。 图15-17显示了验证集上的收敛曲线。

在这里插入图片描述
1)将浅层模型转换为深层模型:
表VI中,将深层(五层)AR-CNN 64(9)-32(7)-16(3)-16(1)-1(5)表示为“ 9-7-3-1-5”。 图15表明,可以成功训练五层网络。 使用常规初始化方法直接训练五层网络是不可靠的 ,与He等人的方法相比,“更深层的传递”收敛更快,并且可以获得更好的性能,这对于训练深度模型也非常有效。 64(9)-32(7)-16(1)-16(1)-1(5)和64(9)-32(1)-32(7)-16(1)-1(5)有相同趋势。

在这里插入图片描述
2)从高质量转移到低质量:
图16,具有转移特征的两个网络的融合速度比从头开始训练的速度快,在整个训练阶段中,“转移1层”也略胜于“转移2层”。 原因:只有初始化第一层才能为网络提供适应新数据集的更大灵活性。表明好的起点可以以更高的收敛速度训练更好的网络。

3)将标准转移到实际用例– Twitter:
Twitter是在线社交媒体是消息发布的流行平台,将在服务器端压缩上传的图像。 图17中,“transfer q10”和“transfer q20”网络的融合要比从头开始训练的“ baseTwitter”融合快得多,有更高的PSNR值。 该观察结果表明,在标准压缩方案下学习的功能也可以转移以解决实际用例问题。 恢复结果如图14所示,两个网络在压缩版本上均实现了令人满意的质量改进。

在这里插入图片描述
在这里插入图片描述

D 加速策略的实验

通过层分解,采用大步幅层和扩展映射层来逐步修改基线AR-CNN。 在质量q = 10的条件下对网络进行JPEG图像训练,进一步测试了Fast ARCNN在不同压缩质量(q = 10、20、30、40)下的性能。 由于所有修改后的网络都比基准模型更深,因此采用提出的迁移学习策略(从浅层迁移到深层模型)进行快速稳定的训练。基本网络是“ base-q10”。 结果在表VII。
在这里插入图片描述
1)层分解:层分解策略将“功能增强”层替换为“收缩”层和“增强”层,修改的网络64(9)-32(1)-32(7) -16(1)-1(5)。 从表VII中可以看出,在所有指标中,e “replace deeper”获得的性能几乎与“ base-q10”相同。 这表明层分解是一种减少网络参数的有效策略,几乎没有性能损失。
2)步幅大小:较大的步幅将导致特征图更窄和推断速度更快,但存在重建质量较差的风险。在表VII中, s = 1,s = 2和s = 3的网络设置为64(9)-32(1)-32(7)-16(1)-1(5),64(9)-32(1) -32(7)-16(1)-1 [9] -s2和64(9)-32(1)-32(7)-16(1)-1 [9] -s3。可以看出,所有指标中,“ s = 1”和“ s = 2”之间只有很小的差异。进一步扩大步幅性能会急剧下降。图18中的收敛曲线也显示出类似的趋势,在几乎没有性能损失但快7.5倍的情况下,s = 2绝对可以平衡性能和时间复杂度,因此,在以下实验中采用s = 2。
在这里插入图片描述
3)映射滤波器:可以增加映射滤波器的数量以补偿性能损失。 网络设置为64(9)-32(1)-32(7)-n4(1)-1 [9] -s2,其中n4 = 16、48、64、80。图19是收敛曲线。显然,滤波器越多,性能越好,但是n4 = 64之外的改善是微不足道的,因此本文采用n4 = 64,最佳网络设置64(9)-32(1)-32(7)-64(1)-1 [9] -s2,即Fast ARCNN,性能同基准模型64(9)-32(7)-16(1)-1(5),但速度快了7.5倍。
在这里插入图片描述
4)JPEG质量:在表VII中,将质量为q = 10、20、30、40的Fast AR-CNN与基线AR-CNN进行了比较。例如,“ fast-q10”和“ base-q10”在质量q=10上代表64(9)-32(1)-32(7)-64(1)-1 [9] -s2和64(9)-32(7)-16(1)-1(5) 。从定量结果中,我们观察到,在低质量(例如q = 10和q = 20)下,两者相当,但在高质量(例如q = 30和q)下,Fast AR-CNN不如AR-CNN =40。
原因:低质量的图像包含的信息少得多,以稀疏方式提取特征(使用较大步幅)对恢复质量的危害很小。对于高质量图像,相邻的图像色块可能相差很大,当步幅变大时将丢失对恢复有用的信息。一般在不同的压缩质量上,提出的Fast AR-CNN仍然优于最新方法。

结论

在低水平视觉问题上应用深度模型需要对问题本身有深刻的理解。 本文提出了一个四层卷积网络AR-CNN,它在处理各种压缩伪像方面非常有效。 然后提出了两种加速策略,以减少其时间复杂度,同时保持良好的性能。 进一步系统地研究了三种易于转换的设置,这些设置可以帮助训练更深或更佳的网络,并验证在低级视觉问题中转换学习的有效性。

  • 4
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值