SROBB: 使用使用目标感知损失函数实现图像超分辨率重建

本文链接：https://blog.csdn.net/breezero/article/details/100624738

SROBB： Targeted Perceptual Loss for Single Image Super-Resolution

论文地址：https://arxiv.org/pdf/1908.07222.pdf

一、摘要：

最近的研究得益于感知损失，极大地提高了超分辨率任务的性能，即高分辨率图像从低分辨率图像中分辨出来。虽然这些目标函数产生了接近于光真实感的结果，但是它们的能力是有限的，因为它们在不考虑任何语义信息的情况下，以同样的方式估计整个图像的重建误差。在本文中，我们提出了一种更客观地从知觉损失中获益的新方法。我们优化了一个基于深度网络的解码器，该解码器具有目标函数，可以使用相应的术语在不同的语义级别惩罚图像。特别地，该方法利用我们提出的OBB(对象、背景和边界)标签，由分割标签生成，在考虑背景纹理相似性的同时，估计一个合适的边界感知损失。我们展示了我们提出的方法可以得到更真实的纹理和更清晰的边缘，并且在标准基准测试的定性结果和广泛的用户研究结果方面都优于其他最先进的算法。

二、介绍

单图像超分辨率(SISR)是为了解决从低分辨率(LR)图像中恢复高分辨率(HR)图像的问题。SISR是自蔡和黄1984年以来最活跃的研究领域之一。近年来，卷积神经网络(CNNs)的显著进步彻底改变了这一问题，并使高分辨率图像的重建优于经典方法。最近，SISR的另一个突破是将感知损失函数用于训练前馈网络，而不是使用每像素损失函数，如均方误差(MSE)。它解决了MSE优化导致的纹理模糊问题，同时也带来了对抗性的损失，在感知图像质量方面实现了近真实感重建。

[27]和[20]受益于使用感知相似性作为损失函数的思想;他们通过比较深层特征域中的地面真实感和预测超分辨图像(SR)，通过使用一个预先训练的分类网络将HR和SR图像映射到一个特征空间，从而优化模型。虽然在特征空间中的相似性度量，即感知损失，在SISR中取得了很大的成功，但将其应用于整体图像，不考虑语义信息，限制了其能力。

为了更好地理解这一局限性，让我们对感知损失做一个简单的概述，看看一个预先训练的分类网络优化了什么;考虑到一个预先训练好的CNN，在早期的卷积层中，每个神经元都有一个接收域，接收域的大小和形状会影响其输出。通常被最先进的方法使用的小内核也有小的接受域。因此，它们只能提取低层次的空间信息。直观地说，每个神经元根据其局部空间关系捕获邻近输入之间的关系。这些局部关系主要表示关于边缘和团块的信息。随着我们在网络中越深入，每个神经元相对于较早层的接受域就越大。因此，深层开始学习具有全局语义和抽象对象信息的特性，以及不那么细粒度的空间细节，同时仍然使用小内核。这一点也在[40,23]中得到了证明，他们使用了一些可视化技术，通过可视化保存在每个CNN层中的信息，研究了VGG网络[29]的内部工作机制。

在感知功能方面，最先进的方法使用不同层次的特征来恢复原始图像;这个选择决定了他们是关注局部信息(如边缘)、中层特性(如纹理)还是与语义信息对应的高层特性。在这些作品中，以同样的方法计算了整个图像的感知损失，这意味着在边缘、前景或图像背景上使用了相同级别的特征。例如，最小化随机纹理(如树的纹理)中边缘细节的损失，将迫使网络考虑不必要的惩罚并学习信息量较小的特征;树的纹理在SR图像中仍然是真实的，而不需要与HR图像有紧密的边缘。另一方面，通过使用边缘周围的中层特性(更适合纹理)来最小化损失，不会直观地创建更锐利的边缘，只会引入“噪声”损失。

图1所示。针对高分辨率图像的特点，提出了一种在训练过程中利用分割标签对不同语义层次的图像进行分割的方法;我们优化了我们的SISR模型，通过最小化感知误差，分别对应的边缘只在物体边界和纹理的背景区域。结果从左至右:原始图像，超分辨率图像仅使用像素丢失函数，像素丢失+感知丢失函数和像素丢失+目标感知丢失函数(our)。

为了解决上述问题，我们提出了一种新的方法，以更客观的方式从知觉损失中获益。图1显示了我们所提议的方法的概述。特别是，我们使用像素级的分割注释来构建我们所提议的OBB标签，从而能够找到目标感知特性，这些特性可以用来最小化不同图像区域的适当损失:例如，边缘的损失和训练过程中图像纹理的损失。我们展示了我们的方法使用目标知觉损失优于其他最先进的算法在定性结果和用户研究实验，并导致更现实的纹理和更锋利的边缘。

三、相关工作

在本节中，我们将回顾相关的基于CNN的SISR方法。这个领域见证了各种端到端深度网络架构:[17]构造了一个递归CNN，并展示了深度网络架构如何提高SISR的性能。[20,27,45]利用残差块[12]和跳跃连接的概念[13,17]，方便了基于CNN的解码器的训练。[21]通过扩大模型尺寸来改进模型。[36]消除了传统残差网络中的批处理规范化，并使用多个跳过连接来改进[20]开创性工作的结果。为了逐步重建高分辨率图像的子带残差，提出了拉普拉斯金字塔结构[19]。[31]提出了一种密集连接的网络，使用由递归单元和门单元组成的内存块，通过自适应学习过程显式地挖掘持久内存。[44]提出了一种信道注意机制，通过考虑信道间的相互依赖关系，自适应地重新调整信道特征。除了有监督学习外，还引入了无监督学习[41]和强化学习[39]等方法来解决SR问题。

尽管针对SISR任务提出了不同的体系结构，但是基于优化的方法的行为主要是由目标函数的选择驱动的。这些作品所使用的目标函数大多包含一个损失项，即超分辨率HR图像与地面真实HR图像之间的像素距离。然而，由于所有可能的解决方案的像素平均，仅使用这个函数就会导致图像模糊和超平滑。

感知驱动的方法在视觉质量方面显著提高了图像的超分辨率。基于感知相似度[3]的思想，提出了一种利用预先训练的特征提取器的特定层(如VGG[29])来最小化特征空间中的感知损失[15]。最近的一些论文已经使用这种优化来生成基于高级提取特征的图像[9,8,38,28,34]。在类似的工作中，我们提出了上下文丢失[24]来生成具有自然图像统计的图像，它关注的是特征分布而不是仅仅比较外观。[20]提出在感知损失的基础上，利用对抗性损失来支持自然图像流形上的输出。[27]中的SR方法开发了类似的方法，并进一步探索了基于块的纹理丢失。虽然这些作品产生了接近于光真实感的结果，但它们以同样的方式估计了整个图像的重建误差，没有利用任何可以提高视觉质量的语义信息。

许多研究[7,30,32]也受益于SISR的先验信息。最近，[35]使用一个额外的分割网络来估计概率图作为先验知识，并在现有的超分辨率网络中使用它们。他们的分割网络在COCO数据集[22]上进行预训练，然后在ADE数据集[46]上进行微调。他们的方法恢复了更真实的纹理忠实于分类先验;但是，它在测试时需要一个分段映射。针对这一问题，[26]提出了一种基于多任务同时学习的SR和语义分割方法。

在这项工作中，我们研究了一种利用图像内部语义信息的新方法，产生具有精细结构的逼真的超分辨率图像。

四、方法

对于图像和视频超分辨率的最近的方法[20,35,25]，我们受益于具有残差块的深度网络来建立我们的解码器。如前所述，在本文中，我们重点研究用于训练网络的目标函数的定义;我们引入了一个损失函数，它包含三个术语:1-像素级损失(MSE)、2-对抗性损失和3-我们的新目标感知损失函数。MSE和对抗性损失术语的定义如下:

像素级别损失是目前为止SR中最常用的损失函数，它在图像域中计算原始图像与超分辨率图像之间的像素方向均方误差(MSE)[27,5,16]。使用它作为一个独立的目标函数的主要缺点是解决了一个覆盖的重建。接受MSE损失训练的网络试图找到合理解决方案的像素平均，这导致感知质量较差，边缘和纹理中缺乏高频细节。

在[20]的启发下，我们将SR模型建立在一个对抗性的环境中，给出了一个可行的解决方案。特别地，我们使用一个额外的网络(鉴别器)，它可以与我们的SR解码器竞争。生成器(SR解码器)试图生成伪图像来欺骗鉴别器，而鉴别器的目标是将生成的结果与真实的HR图像区分开来。这种设置的结果在感知上优于通过最小化像素方面的MSE和经典感知损失得到的解决方案。本工作中使用的鉴别器在3.3节中有更详细的定义

我们提出有针对性的感知损失在以下小节描述。

4.1 有针对性的感知损失

目前最先进的方法，如[27]和[20]，都是利用预先训练的分类网络(如VGG[29])将HR和SR图像映射到特征空间，在深特征域中比较地面真实度和预测的超分辨率图像，从而估计感知相似性。使用特定卷积层的输出作为特征映射。这些方法通常使特征图的l2距离最小化。为了理解为什么将这个损失项最小化与对抗性和MSE损失相结合是有效的，并在更逼真的图像中得到结果，我们研究了用于感知损失的CNN层的性质。然后，我们提出了一种新的方法，以有针对性的方式利用感知相似性，重建更有吸引力的边缘和纹理。

图2. 选择不同CNN层来估计图像不同区域感知损失的效果，如边缘和纹理:(a)使用更深的卷积层(中层特征)，VGG-16[29]的ReLU 4-1， (b)使用早期卷积层(低层特征)，VGG-16网络的ReLU 1-2。

如前所述，CNN的早期层返回关于局部关系的低层空间信息，例如关于边缘和连通块的信息。随着我们进入更深的层次，我们开始学习更高层次的特征，这些特征具有更多的语义和抽象的对象信息，而从图像中获得的空间细节则不那么细粒度。在这种情况下，中层特征主要代表纹理，高层特征相当于全局语义。图2显示了特征提取器的浅层和深层之间的区别，在我们的例子中是VGG-16;采用ReLU 1-2和ReLU 4-1两种不同的层来计算感知损失和重建图像。我们比较了边缘和纹理区域上的每一种情况。在这张图中，我们可以看到使用低层特征对于重建边缘更有效，而中层特征则可以解析更接近原始图像的纹理。

背景 $G_{b}$ ：目标丢失函数尝试在区域周围选择更真实的纹理，其中纹理的类型似乎很重要，例如，树，同时尝试解决边界区域周围更锋利的边缘。为此，我们首先在图像中定义三种类型的区域:1-背景、2-边界和3-对象，然后使用不同的函数计算每个区域的目标知觉损失。

边界 $G_{e}$ ：所有分隔对象和背景的边缘都被认为是边界。通过一些预处理(在第3.2节中有更详细的解释)，我们将这些边缘扩展为一条贯穿所有边界的条带。我们估计了一个早期CNN层在SR和HR图像之间的特征距离，这个特征距离更侧重于低层空间信息，主要是边缘和斑点。特别地，我们最小化了VGG-16的ReLU 2-2层的感知损失。

目标 $G_{o}$ ：由于现实世界中物体的形状和纹理种类繁多，因此判断早期的特征对于感知缺失功能来说是更合适还是更适合使用深层的特征对于感知缺失功能来说是一个挑战;例如，在斑马的图像中，更清晰的边缘比整体纹理更重要。尽管如此，强迫网络估计树的精确边缘可能会误导优化过程。因此，我们不考虑任何类型的知觉损失对定义为对象的领域加权为零，并依赖于MSE和对抗性损失。然而，直觉上，通过“背景”和“边界”感知缺失项来分辨更真实的纹理和更锐利的边缘，也会产生更吸引人的物体。

为了计算特定图像区域的感知损失，我们对语义类进行二值分割掩码(对感兴趣的类像素值为1，其他地方像素值为0)。每个掩码都分类地表示图像的不同区域，并分别按元素乘上HR图像和估计的超分辨率图像SR。换句话说，对于给定的分类，在通过CNN特征提取器之前，图像被转换成只有一个可见区域的黑色图像。以这种方式屏蔽图像还会在黑色区域和可视类之间创建新的人工边界。因此，提取的特征包含了关于真实图像中不存在的人工边缘的信息。由于在HR和重建图像上使用相同的掩模，这些人工边缘之间的特征距离将接近于零，不影响整体感知损失。我们可以得出，掩码HR与超分辨率图像在特征空间中的所有非零距离都对应于该图像可见区域的内容:边界( $M_{OBB}^{boundaries}$ )用掩码对应边缘，背景( $M_{OBB}^{background}$ )用掩码对应纹理。

整体目标感知损失函数为:

$L_{perc.} = \alpha\cdot G_{e}(I^{SR}\circ M_{OBB}^{boundary}, I^{HR}\circ M_{OBB}^{boundary})$

$+\beta\cdot G_{b}(I^{SR}\circ M_{OBB}^{boundary}, I^{HR}\circ M_{OBB}^{boundary})+\gamma\cdot G_{o}$

在下一小节中，我们将描述如何为训练图像构建一个标签，该标签指示对象、背景和边界。这种标记方法帮助我们为每一类兴趣使用特定的蒙板，并引导我们提出的感知损失集中在图像中感兴趣的区域。

图3. 构造一个OBB标签。我们根据“对象”、“背景”或“边界”类的初始像素级标签为每个区域分配一个类。

4.2 OBB: 目标、背景和边界标签

为了充分利用基于感知丢失的图像超分辨率，我们通过我们提出的目标丢失函数来增强语义细节(对象、背景和边界出现在图像上的地方)。此外，现有的分割任务注释，如[4]只提供了关于对象和背景的空间信息，没有使用表示边缘区域的类，即本文中的边界。因此，受[26]的启发，我们提出了我们的标注方法(图3)，为图像的语义信息提供更好的空间控制。

图4. SR解码器原理图。我们在训练SR解码器的同时，使用了目标感知损失以及MSE和对抗性损失。在该模式中，k、n和s分别对应内核大小、特征映射数和步长大小。

为了创建这样的标签(OBB标签)，首先我们计算分割标签在颜色空间中的导数来估计分割标签中对象类之间的边缘，以及对象与图像背景之间的边缘。为了得到一个较厚的条带，将不同的类分开，我们计算了一个d1大小的圆盘的膨胀。我们将结果区域标记为“boundary”类，它覆盖了图像中不同类之间的边界。特别地，我们将分割标签中的“sky”、“plant”、“ground”和“water”类作为“Background”。所有剩余的对象类都被认为是“对象”类。

4.3 框架

为了与SRGAN方法[20]进行公平的比较，并对所提出的目标感知丢失进行消融研究，我们使用与SRGAN相同的SR解码器。发电机网络是一个前馈CNN。输入图像 $I^{LR}$ 通过卷积块，然后通过ReLU激活层。输出随后通过16个带有跳过连接的残差块传递。每一个块都有两个卷积层，带有 $3\times 3$ 的滤波器和64个通道的特征图，每个卷积层后面都有一个批量归一化和ReLU激活。最后一个残差块的输出与第一个卷积层的特征相连接，然后通过两个上采样块，每个上采样块的大小都是特征图的两倍。最后，通过最后一个卷积层对结果进行滤波，得到超分辨率图像 $I^{SR}$ 。根据所需的比例因子，可以修改上采样块的数量。

鉴别器网络由多个卷积层组成，特征图的信道数增加了2倍，从64个增加到512个。我们使用Leaky-ReLU和有步长的卷积来减少图像的维数，同时增加一倍的特征。生成的512个特征图通过两个密集的层传递。最后，利用最终的Sigmoid激活函数对图像进行真假分类。

五、实验结果

在本节中，我们首先详细描述了训练参数和数据集，然后从定性、定量和运行成本分析方面对我们提出的方法进行了评估。

5.1 数据集和参数

为了创建OBB标签，我们使用COCO-Stuff数据集[4]中的一组随机的50K图像，其中包含用于分割任务的91个类的语义标签。在本文中，我们考虑了一个或多个“天空”、“植物”、“地面”和“水”类的景观。我们将这些类分组为一个“背景”类。我们使用第3.2节中提出的技术将像素级的分割注释转换为OBB标签。为了获得LR图像，我们使用MATLAB的双三次核imresize函数和抗混叠滤波器。所有实验均采用降采样因子为4的方法进行。

训练过程分两步进行;首先，对SR解码器进行了25个周期的预训练，仅以像素方向的均方误差为损失函数。在此基础上，增加了目标知觉损失函数和对抗性损失函数，训练时间延长了55个迭代。每一项的权重在新的有针对性的知觉丧失,α和β,设置为2×10−6和1.5×10−6,分别。与[20]相同，将对抗性损失函数和MSE损失函数的权重分别设置为1.0和1×10−3。我们将用于生成OBB标签的磁盘直径d1设置为2.0。在这两个步骤中都使用了Adam优化器[18]。将学习率设置为1×10−3，然后每20个迭代衰减10倍。我们还交替优化了与[20]提出的参数相似的鉴别器。

图5. 分别对来自Set5[1]和Set14 5数据集的“婴儿”(顶部)和“狒狒”(底部)图像进行采样。从左至右:bicubic, SRCNN [5]， SelfExSR [14]， LapSRN [19]， RCAN [44]， SRGAN[20]和SROBB (our)， HR图像。

5.2 定性结果

5.2.1 数据集Set5和Set14上的结果

我们的方法主要是利用分割标签对具有边界和背景的感知损失项的解码器进行优化。虽然我们没有将知觉损失专门应用于物体区域，但是我们的实验表明，训练后的模型与其他方法相比，在某种程度上泛化了，它重建了更真实的物体。我们通过对Set5[1]和Set14[42]这两个广泛使用的基准数据集进行定性实验，来评估对象重建的质量。与我们的训练集不同的是，在大多数图像中，户外背景场景并不存在。图5对比了我们的SR模型在“baby”和“baboon”图像上的结果，以及目前最先进的方法，包括:bicubic、SRCNN[5]、SelfExSR[14]、LapSRN[19]、RCAN[44]和SRGAN[20]。在“狒狒”图像中，与其他方法相比，我们可以生成更逼真、边缘更清晰的图像，同时对具有SRGAN的“婴儿”图像具有竞争力。他们的结果是通过使用他们的在线补充材料得到的。补充资料中提供了更多的Set5和Set14图像的定性结果。

5.2.2 数据集COCO-Stuff上的结果

我们从COCO Stuff数据集[4]中随机选择了一组测试图像。为了进行公平的比较，我们在相同的数据集上对SFT-GAN[35]、ESRGAN[36]和SRGAN[20]方法进行了再训练，训练参数与我们的相同。对于增强集和RCAN，我们分别使用了[27]和[44]的预训练模型。利用双三次核的MATLAB imresize函数生成双三次图像。如图6所示，我们的方法从我们提出的目标感知丢失中获益，从而生成更加真实和自然的纹理。虽然ESRGAN产生了非常有竞争力的结果，但似乎他们的方法偏向于过于尖锐的边缘，这有时会导致不切实际的重建和与地面真相不同。

5.3 定量结果

5.3.1 SSIM、PSNR 和 LPIPS

如[20,27,35,2]所示，结构相似度指数(SSIM)[37]或峰值信噪比(PSNR)等失真指标作为定量测量，与感知质量没有直接关系;他们证明基于gan的超分辨率图像在PSNR和SSIM指标方面可能有更高的误差，但仍然可以生成更有吸引力的图像。

此外，我们使用了真实图像和超分辨率图像之间的感知相似性距离。学习感知图像Patch相似度(LPIPS)度量[43]是最近引入的一种基于参考的图像质量评估度量，它的目的是估计两幅图像之间的感知相似度。该指标使用线性校准的现成深度分类网络，训练在非常大的Berkeley-adobe感知补丁相似性(BAPPS)数据集[43]上，包括人类的感知判断。然而，正如[10]也强调的那样，LPIPS与基于失真的度量指标(如SSIM)具有类似的趋势，并且并不一定意味着具有真实感图像。

图6. 对COCO-Stuff数据集[4]图像子集的定性结果。裁剪区域以2到5的倍数放大，以便更好地进行比较。结果从左至右依次为:双三次、RCAN[44]、EnhanceNet[27]、SRGAN[20]、SFT-GAN[35]、ESRGAN[36]、SROBB (our)和高分辨率图像。放大以获得最佳视角。

表1 Set5和Set14测试集的“婴儿”和“狒狒”图像的双三次插值、LapSRN[19]、SRGAN[20]和SROBB(我们的)的比较。最佳度量(SSIM, PSNR [dB]， lpip)用粗体突出显示。可视化比较如图5所示。

表1分别使用双三次插值、LapSRN[19]、SRGAN[20]和我们的方法，给出了“baby”和“baboon”及其对应的HR超分辨率图像之间估计的SSIM、PSNR和LPIPS值。考虑到这张表以及图5中这些图像的视觉比较，我们可以推断这些指标并不能反映出更好的重建质量。因此，在接下来的章节中，我们将重点放在用户研究作为定量评价。

5.3.2 用户学习

我们进行了一项用户研究，比较不同方法的重建质量，看看哪些图像更吸引用户。本研究采用了5种方法:1- RCAN[44]、2- SRGAN[20]、3- SFT-GAN[35]、4- ESRGAN[36]和5- SROBBB(我们的)。在实验过程中，将上述方法得到的高分辨率图像及其5幅重建图像展示给每个用户。用户被要求为更有吸引力的图片投票，与地面真相的图片。为了避免在质量相似的情况下出现随机猜测，还设计了“无法决定”选项。由于SFT-GAN使用的是一个训练有素的户外分类的分割网络，为了与[35]进行公平的比较，我们还使用了COCO-Stuff[4]中35幅用于户外场景的图像。所有的图像都以随机的方式呈现给每个人。为了最大限度地增加参与者的数量，我们为此目的创建了在线评估工具。共有46人参与调查。图7说明了我们的方法重建的图像在很大程度上更能吸引用户。在每个方法的投票数上，SROBB的reconstruct获得了617票，ESRGAN、SFT-GAN、SRGAN和RCAN方法分别获得了436票、223票、201票和33票。此外，调查中提供的“无法决定”选项被选择了100次。在35张图片中，以多数票选出的最佳图片中，SROBB在15张图片中占主导地位。这些结果证实，与上述方法相比，我们的方法在视觉上重构的图像更具说服力。此外，与SFT-GAN不同的是，该方法在测试过程中不需要分割地图，而是利用语义信息，产生具有竞争力的结果。

5.3.3 模型简化测试

为了更好地研究所提出的目标知觉缺失的有效性，我们进行了第二次用户研究，其条件和过程与前一节相似。具体来说，我们研究了我们提出的定向知觉丧失的影响;我们用三个不同的目标函数训练我们的解码器:1-像素级的MSE;2-与[20]相似的像素丢失和标准感知丢失;和3-像素损失和我们提出的目标知觉损失(SROBB)。对抗性损失一词也用于2和3。共有51人参与了我们的消融研究调查。图8显示，当使用目标感知缺失而不是常用的感知缺失时，用户更容易被说服。它获得了1212票，而目标函数1和2分别获得了49票和417票。此外，“无法决定”选项被选中107次。从得票最多的35幅图像来看，第三目标函数在30幅图像中占主导地位，1和2只在5幅图像中获胜。仅通过像素损失重建的图像只有少数选票，而以“天空”为主要类别的图像却获得了相当多的选票。这可以用云的过度平滑特性来解释，它适合基于失真的度量。

5.4 推理时间

与现有的内容感知SR方法不同，我们的方法不需要输入任何语义信息。因此，在测试时不需要额外的计算。我们在单个GeForce GTX 1080 Ti上使用标准的XGA输出分辨率(1024×768(像素))，达到每秒31.2帧的推理时间。

六、总结

针对基于CNN的单图像超分辨率，提出了一种新的目标感知丢失函数。提出的目标函数用相关的损失项对图像的不同区域进行惩罚，即在训练过程中对边缘和纹理使用边缘损失和纹理损失。此外，我们引入了我们的OBB标签，从像素分割标签创建，以提供更好的空间控制的语义信息的图像。这使得我们的目标知觉丧失集中在图像的语义区域。实验结果证明，提出的定向知觉损失训练在感知效果上更令人满意，并且优于目前最先进的SR方法。