【论文翻译】3461 AdderSR Towards Energy Efficient Image Super-Resolution（个人粗略翻译）

最新推荐文章于 2023-07-11 20:52:12 发布

芜湖_

最新推荐文章于 2023-07-11 20:52:12 发布

阅读量601

点赞数 1

文章标签：计算机视觉神经网络深度学习

论文翻译专栏收录该内容

1 篇文章 0 订阅

订阅专栏

AdderSR: Towards Energy Efficient Image Super-Resolution【3461】

本文仅为根据博主个人理解的翻译，如有错误或不准确之处，敬请各位读者指出

摘要：

本文使用加法器神经网络（AdderNet）研究单幅图像超分辨率问题。与卷积神经网络相比，AdderNet利用加法计算输出特征，避免了传统乘法的大量能量消耗。但是，由于计算范式的不同，很难将AdderNet在大规模图像分类上已有的成功直接继承到图像超分辨率任务中。具体而言，加法器操作不能很容易地学会图像处理任务必不可少的身份映射。此外，AdderNet无法确保高通滤波器的功能。为此，我们深入分析了加法器操作与身份映射和插入快捷键之间的关系，以提高使用加法器网络的SR模型的性能。然后，我们开发了一个可学习的功率激活(poweractivation)，以调整特征分布和细化细节。在几个基准模型和数据集上进行的实验表明，我们的图像超分辨率模型使用AdderNets可以达到与CNN基线相当的性能和视觉质量，能耗降低约2倍。

1.Introduction 介绍

单图像超分辨率(Single image super-resolution, SISR)是一种以低分辨率图像(LR)重建高分辨率图像(HR)为目标的计算机视觉任务。在智能手机和移动相机等现实应用中，SISR是一个非常流行的图像信号处理任务。由于这些便携式设备的硬件限制，需要开发计算成本低、视觉质量高的SISR模型。

近年来，深度卷积神经网络(DCNN)方法通过精心设计的神经结构，极大地提高了SISR的性能。第一个超分辨率卷积神经网络(SRCNN)[5]仅包含三个卷积层，参数约为57K。然后，随着深度和宽度（信道数）的增加，DCNN的容量得到放大，超分辨率得到显著提高。因此，近年来DCNN的参数和计算量也相应增加。例如，残差密集网络(RDN)[30]包含22M参数，仅处理一张图像需要大约10,192GFLOP（浮点数运算）。与用于视觉识别的神经网络（例如ResNet-50）相比，SISR模型由于特征图的尺寸更大，而具有更高的计算复杂性。这些大量计算将减少移动设备的续航时间。

为了解决上述问题，提出了一系列压缩和加速深度卷积神经网络的方法。常用的压缩方法如剪枝(prunning)[10]和知识蒸馏(knowledge distillation)[11]通过缩小或浅化网络来减少计算量。另一方面，量化方法(quantization methods)[3]致力于在保留网络架构的同时降低乘法的计算复杂度。然而，二值化网络往往无法保持传统网络的准确性，特别是对于超分辨率任务[18]。最近，Chen等人 [2]提出了一种新的AdderNet，用加法代替乘法运算。由于加法的复杂度远低于乘法的复杂度，这项工作促使我们利用AdderNet来构建节能的SISR模型。

为了最大限度地挖掘利用AdderNet来建立SISR模型的潜力，我们首先全面分析了将添加应用到SISR任务中的理论困难。在实践中，SISR和其他低级视觉任务中的输入数据和输出特征之间的差异非常接近，具有相似的全局纹理和颜色信息，如图1所示。然而，一层加饭器网络无法学习识别映射。因此，我们建议插入自捷径，并为SISR任务制定新的加法器模型。此外，我们发现高通滤波器也难以近似加法器单元和发展一个可学习的功率激活(power activation)。利用这两种技术，我们将原SISR网络中的卷积滤波器替换为加法器滤波器，并建立相应的AdderSR模型。在多个基准数据集上验证了所提出的基于加法的SISR网络的有效性。我们可以使用AdderSR模型获得类似的性能(如PSNR值和视觉质量)，同时将原始神经网络的总能耗降低约50%。

2.Related Works 相关工作

单图像超分辨率(SISR)旨在从低分辨率图像重建高分辨率图像。这是一个不适定的逆问题，因为无限数量的高分辨率图像可以通过缩减像素采样生成相同的低分辨率图像。为了克服这个问题，人们在过去几十年里研究了许多方法。近年来，深度学习方法显著提升了SISR的性能。SRCNN[5]是SISR上第一个只有57K参数的深度学习模型。然后提出了VDSR[14]和EDSR[17] 来提高深度卷积网络的SR性能。密集级联操作(如RDN[30])也被用于预测具有不同感知场多个特征的高分辨率像素。尽管深度学习方法在超分辨率的图像保真度方面取得了很大的进步，但模型的计算量和参数增长很快。在移动设备上执行模型的响应速度是用户无法忍受的。因此，为实际应用设计高效的超分辨率模型已经成为一个热门话题。

2.1.Efficient super-resolution 高效的超分辨率

SR模型压缩研究已有多年，并提出了大量新的压缩方法。这些方法大致可以分为四类：高效滤波器设计(efficient filter design)、知识蒸馏(knowledge distillation)、网络剪枝(network pruning)和网络量化(network quantization)。FSRCNN[6]首先将网络应用于低分辨率图像而不是上采样的输入图像，从而提高了SR模型的效率。最常规的方法是使用高效算子（例如卷积组、1×1卷积）设计高效块（例如CARN[1]、IDN[12]、MAFFSRN[20]）。为了提高高效模型的性能，Gao等人[8]采用知识蒸馏(knowledge distillation)方案将信息从大型教师模型转移到便携式学生网络。为了获得更好的知觉质量，在SR中使用了GAN损失[16]和感知损失[13]。将网络瘦身(network slimming)[27]方法应用于GAN网络，以减少滤波器的冗余，从而实现高效模型。模型量化通过减少表示每个权重或特征分量所需的位数来加速网络。Ma等人[18]研究表明，参数的二进制量化可以显着提高网络速度，同时有明显的图像失真。最近，神经架构搜索(NAS)已被用于开发高效的SR神经架构[25,9,7]。然而，构建高效的SR模型仍然是一个巨大的挑战。

2.2. AdderNet

现有的高效超分辨率方法旨在减少模型的参数量或计算量。最近，Chen等人[2]开创了一种通过用加法代替乘法来降低网络功耗的新方法。在不进行卷积层乘法的情况下，该算法在分类任务中实现了精度的边际损失。本文旨在提高AdderNet在超分辨率任务上的性能。

3. Preliminaries and Motivation 前言和动机

本文首先简要介绍使用深度学习方法的单幅图像超分辨率任务，然后讨论直接使用AdderNet构建节能SR模型的难点。

现有的超分辨率方法大致可以分为三类：基于插值的方法、基于字典的方法和基于深度学习的方法。在过去的十年中，深度学习方法由于其卓越的表现，引起了人们的关注。Dong等人[5]首先将深度学习方法引入超分辨率中，并取得了比传统方法更好的性能。传统SISR任务的总体目标函数可以表示为：

其中Iy是观测数据，即低分辨率图像，Ix是所需的高分辨率图像，R(·)表示使用的先验，如平滑和加性噪声，λ是权衡参数。

为了进一步提高深度学习模型的视觉质量，采用非常深度卷积网络设计了VDSR[14]、EDSR[17]和RDN[30]。随着超分辨率性能的提高，SR网络的参数和计算量迅速增长，严重限制了模型在移动设备上的执行效率。因此，另一个研究方向是部署高效的SR网络。通过量化(quantization)、知识蒸馏(knowledge distillation)、有效的算子设计(efficient operator designing)和神经架构搜索(neural architecture search )(NAS)等方法，开发高效准确的SR模型。然而，这些便携式SISR模型所需的能耗对于现实世界的移动设备来说仍然过高。

图1.输入图像“蝴蝶”的VDSR[14]中不同层的输出特征映像。任何两个相邻层之间的差异在纹理和颜色信息方面都非常相似。高频信息的细节会随着深度的增加而增强。这两个重要的特性应该由加法器神经网络来保证。

与现有的模型压缩技术如剪枝(pruning)和量化(quantization)不同，Chen等人[2]提出了一种完全不同的方法，通过用廉价的加法代替乘法来降低能耗。与ResNet-50架构相同的AdderNet在消除大量乘法的同时获得了91.7%的前5位精确度。对于AdderNet中任意层的滤波器的参数，其中k是内核的大小，Cin和Cout分别是输入通道和输出通道的数量。将输入特征表示为，其中w和h分别是输入特征的宽度和高度。原来的加法运算是：

其中|*|是绝对值函数。虽然等式（2）在图像分类任务中表现出了相当的性能，但是等式（1）中定义的SISR问题与传统的识别任务有很大的不同。例如，我们需要保证输出结果保持X(即Iy)中的原始纹理，这是等式（2）不容易学习到的。因此，我们应该设计一个新的AdderNet框架来构建节能的SISR模型。

4. AdderNet for Image Super-Resolution 图像超分辨率的AdderNet

AdderNet显着降低了分类网络的能耗，同时实现了相当的性能。我们的目标是将这一巨大的成功继承到图像超分辨率任务，这通常具有更高的能耗和计算复杂度。

4.1. Learning Identity Mapping using AdderNet 使用AdderNet学习身份映射

通常情况下，任何使用神经网络的超分辨率模型以端到端(end-to-end)的方式学习从输入低分辨率(LR)图像到高分辨率(HR)图像的映射。除了增强高频细节外，还应保持整体纹理和颜色信息。图1展示了使用VDSR[14]对给定LR图像的不同卷积层的特征图。可以看出，每个卷积层的输入特征图和输出特征图非常相似。由此可见，利用深度学习方法对SISR任务进行身份映射(即Iy = F(Iy))是非常必要的。

对于传统的卷积网络，当权重为单位矩阵时，单位映射非常容易学习。而等式（2）中定义的加法器神经网络使用l1-norm来测量滤波器与输入数据之间的距离。虽然l1距离可以很好地完成图像分类任务，但加法器过滤器不能像定理1中描述的那样逼近恒等映射。堆叠更多的加法器层可以缓解这个问题，但会显着增加模型的大小和复杂度。

定理1：对于任意低分辨率图像Iy，以及权重参数为W的加法器滤波器。不存在满足下式的W：

其中⊕为等式（2）中定义的加法器运算。

证明：为简单起见，这里我们考虑全连接层。假设对任何，存在一个过滤器W满足Iy=Iy⊕W，其中。那么对于Iy中的每个元素，满足：

其中，。

然后，我们可以为中的每个元素选择合适的值，使得，满足：

令，则有

联立等式（5）和（6），我们得到，然而这明显是不可能的。此外，上述证明可以很容易地推广到卷积层，其中滤波器大小W往往比输入数据Iy小得多。

根据定理1及以上分析，单位映射不能直接使用一层加法器神经网络学习。为了解决这个问题，我们建议改进现有的加法器单元以调整超分辨率任务。在实践中，我们为每个加法器层提供了一个自捷径操作，即

其中Wl是第l层加法器滤波器的权重，Xl和Yl分别是输入数据和输出数据。由于等式（7）的输出包含输入数据Xl本身，我们可以利用它通过减少Wl⊕Xl的幅度来近似单位映射。

4.2. Learnable Power Activation 可学习的功率激活(power activation)

除了恒等映射之外，传统卷积滤波器还有一个重要的功能是加法器滤波器无法轻易确保的。SISR模型的目标是增强细节，包括输入低分辨率图像的颜色和纹理信息。因此，高通滤波器也是大多数现有SISR模型中非常重要的组件。在图1中可以发现，随着网络深度的增加，输入图像的细节逐渐增强。

通常，自然图像由不同频率的信息组成。例如，背景和大面积的草地是低频信息，其中大多数相邻像素非常接近。相比之下，物体和一些建筑物的边缘正是给定整个图像的高频信息。在实际应用中，如果我们将任意图像定义为高频部分和低频部分的组合为I=IH+IL，则可定义用于超分辨率任务和其他图像处理问题的理想高通滤波器Φ(·)：

只保留了输入图像的高频部分。其中，σ(IH)为高频部分的卷积响应。上述等式可以帮助SISR模型去除冗余输出和噪声，增强高频细节，这也是SISR模型中非常重要的组成部分。

同样，对于传统的卷积运算，可以直接实现等式（8）的功能。例如，可以使用一个2×2高通滤波器来去除I中的任何平坦区域。但是对于等式（2）中定义的加器神经网络，则不可能实现等式（8）中描述的功能。

定理2：设为给定SR模型的输入图像，使用加法器操作，其中E中的每个元素都等于1。W表示任意加法器滤波器的权重。不存在满足以下等式的和常数：

其中，⊕为等式（2）中定义的加法器运算。

证明：假设存在一个加法器滤波器W，对于任何s都满足(s∗E)⊕W=a。我们总可以找到一个s，使得s>max。得：

等价于，而这是矛盾的。

根据上述定理，加法器滤波器不能代替高通滤波器的功能。因此，加法器神经网络中的超分辨率过程将更加冗杂。为此，我们需要开发一种新的方案，利用加法器神经网络进行SISR任务，以弥补这一缺陷。

诚然，我们还可以添加一些参数和过滤器来提高使用加法器单元的SR模型的容量，从而减少能耗和计算量。幸运的是，Sharabati和Xi[24]在图像去噪任务中应用了Box-Cox变换[23]，发现这种变换可以实现与高通滤波器相似的功能，而无需添加大量参数和计算。Oliveira等人[21]进一步讨论了Box-Cox变换在图像超分辨率中的作用。此外，还探索了一种保持符号的幂律点变换，以强调输入图像中具有丰富细节的区域[22]。因此，我们提出了一个可学习的功率激活(power activation)函数来解决AdderNet的缺陷并细化输出图像，即

其中Y是输出特征，sgn(·)是符号函数，α>0是用于调整信息和分布的可学习参数。当α>1时，上述激活函数可以增强输出图像的对比度并强调高频信息。当0<α<1时，等式（11）可以平滑输出图像中的所有信号并去除伪影和噪声。此外，上述函数可以很容易地嵌入到任何SISR模型中的常规ReLU中。

通过利用等式（7）和（11）中描述的这两种方法，我们可以解决前面提到的使用加法器网络执行SISR任务的问题。尽管引入了一些额外的计算，例如，等式（7）需要一个捷径来维护输入数据中的信息，以及等式（11）中的可学习参数α导致了一些额外的乘法。然而，与卷积层或加法器层所需的海量运算相比，它们是非常简单的。例如，等式（2）中定义的加法器操作的计算量约为，等式（7）和（11）需要的额外计算都等于。考虑到在现代深度神经架构中通常是一个相对较大的值（例如，k=3和=64），每层的额外计算量比原始方法减少了1000倍以上。在下一节中，我们将进行大量的实验来证明所提出的方法在视觉质量和能耗方面的优越性。