【图像超分辨率】RS Image SR Based on Visual Saliency Analysis

本文提出了一种基于深度学习的遥感图像超分辨率(SR)方法,称为显著性驱动的门条件生成对抗网络(SD-GCAN)。方法包括两部分:弱监督的显著性分析和显著性驱动的SR网络。显著性分析通过梯度显著性分析生成显著性图,以区分图像中不同区域的需求。SR网络则采用条件生成对抗网络,利用显著性图进行不等价重建,同时结合归一化内容损失、显著性驱动的感知损失和门控对抗损失。实验结果表明,该方法在保持全局图像质量的同时,增强了突出区域的细节,提高了RSI的视觉感知性能。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

摘要

遥感图像(RSI)通常具有很强的表面特征的空间特性。各种地面物体,如住宅区、道路、森林和河流,都有很大的不同。根据这一视觉注意力特征,具有复杂纹理特征的区域需要更多的现实细节,以反映对地形的更好描述,而农田等区域应该是光滑的,并且噪声较小。

然而,大多数现有的单图像超级分辨率(SISR)方法未能充分利用这些特性,因此对整个图像采用统一的重建策略。在这篇文章中,我们提出了一种新颖的突出性驱动的不等价单幅图像重建网络,其中超级分辨率(SR)过程中各个区域的需求由突出性地图来区分。

首先,我们设计了一种新的基于梯度的显著性分析方法,以产生更准确的具有图像明智注释的显著性地图。该方法利用多接收场的优势来提取高层次特征和低层次特征。

其次,我们提出了一种新型的显著性驱动门条件生成式对抗网络,在整个网络的训练过程中,显著性图被视为一种媒介。显著性图被看作是生成器中的一个像素条件,以提高网络的训练能力。

此外,我们设计了一个新的损失函数,结合了归一化内容损失、显著性驱动的感知损失和门控对抗损失,以进一步细化RSI的纹理复杂区域的细节。

我们评估了我们算法的性能,并使用遥感数据集将其与许多其他最先进的SR方法进行了比较。实验结果表明,我们的方法在突出的区域达到了最佳效果。我们的方法在全局质量和视觉性能方面达到了最佳效果。

关键词:深度学习,生成对抗网络,遥感,显著性,单幅图像超级分辨率(SISR),不平等重建。

I. 引言

具有明显细节的高分辨率(HR)遥感图像(RSI)对许多重要的遥感应用是有意义的,例如物体探测和图像解释。然而,由于成像设备和信号传输的限制,获取高分辨率遥感图像仍然是一项具有挑战性的任务。

因此,研究人员试图用某些技术来提高图像分辨率,这些技术通常被称为图像超分辨率(SR)。SR的目的是恢复退化过程中丢失的信息。然而,恢复丢失的内容是一个棘手的问题,因为一个低分辨率(LR)图像可以由多个HR图像生成。

由于对计算机视觉研究的极大关注,已经提出了许多最先进的SR方法。这些方法主要依赖于这样的假设:大部分高频信息是冗余的,可以从低频成分中恢复。研究人员试图设计新的统计模型来模拟LR和HR之间的对应关系。

对于多图像SR[1],同一场景的多个图像从不同角度被用来恢复HR图像,并利用隐藏在多个帧中的先验空间仿生知识来提高重建质量。然而,受时间变化的光线和有限能力的设备的影响,获得同一场景的多个RSI通常是困难的。

另一种流行的算法是单图像超级分辨率(SISR)。SISR技术已经取得了实质性的进展,从插值方法到稀疏表示方法[2],[3]到基于大量训练样本的深度学习方法[4]-[10]。这些技术试图揭示大量自然数据中的内在冗余,以恢复LR实例中丢失的高频细节。对于这些方法,我们在第二节中做了详细介绍。

尽管它们取得了很好的性能,但这些方法的主要特点是没有充分利用图像的视觉注意力特征。视觉注意力的概念[11]最早出现在认知心理学领域。一个可观察到的模式是,人们通常以HR模式聚焦于图片的特定区域,用LR感知周围的区域,并不断调整聚焦区域。这种机制有助于人们有效地捕捉场景中最重要的部分,这些部分被称为兴趣区域(ROI)。

例如,RSI中的住宅区[12]、[13]、机场[14]、[15]、船舶[16]、[17]和飞机[18],由于其复杂的细节或主导地位,很容易吸引人们的注意力。显著性分析来自于对视觉注意机制的研究,它可以生成显著性图并提取ROI。这种突出区提取技术已经被广泛地应用于各种计算机视觉应用中[11], [19]-[21]。除了不同的意义,各种区域在SR过程中的需求也是多样的。细节丰富的区域总是需要更多的空间分辨率增强来明确纹理和边缘。

在RSI SR领域,具有不同纹理复杂性的区域往往代表不同的类别。例如,大多数具有复杂而集中的纹理特征的区域属于城市地区。相比之下,大多数光滑的区域是山区、农场和水区。大多数现有的SR方法没有考虑这些区域的区别,而是对整个图像采用统一的重建策略,这既没有考虑到纹理区域的感知质量,也没有考虑到整个图像的客观测量。

为了解决这个问题,我们提出了一个基于不平等重建策略的RSI的显著性驱动门条件生成对抗网络(SD-GCAN),我们引入了RSI中不同区域的显著性变化来驱动SISR。基于上述分析,在我们的SISR框架中,具有复杂而集中的纹理特征的区域,如住宅区,被确定为突出区域。拟议的网络中包括两个关键步骤:弱监督的突出性分析和突出性驱动的SR网络。

近年来,基于卷积神经网络(CNN)的突出性分析方法[22],[23]由于其高泛化能力而显示出优越性。由于这些框架是基于像素损失函数进行优化的,它们令人满意的表现与大量的注释数据是分不开的。依靠弱监督注释的弱监督方法,可以被看作是解决基于完全监督的CNN方法的局限性的一种手段。

在这篇文章中,我们开发了一种弱监督的显著性分析技术,以结合这两类方法的优点。图像范围的标签被用来训练一个分类CNN,它也负责生成梯度显著性地图。随着各层深度的增加,感受野也随之增加。因此,这些地图可以同时提取局部和全局的突出特征,从而产生更准确的结果。我们为全色(Pan)RSI提出了一种新颖的不等价SISR策略,其中突出性地图被视为衡量不同区域的不同需求的指导。

条件生成对抗网络(C-GAN)因其图像生成能力而被用作重建网络的基线。

对于生成器网络,我们设计了一个新的条件残差密集块来突出中间卷积层的显著特征,这可以提高显著区域的细节质量。

对于鉴别器部分,我们提出了一种门控结构,可以直接修改网络训练目标,自适应地实现不同的重建阶段。

提出了一个新的损失函数,它结合了归一化内容损失、显著性驱动的感知损失和门控对抗性损失,来训练整个框架。归一化内容损失通过特征分解提高了高频的重建质量,显著性驱动的感知损失保持了突出区域的语义特征,而门控对抗损失由于突出了突出区域的GAN损失而更真实地呈现了纹理特征。

本文的研究重点介绍如下。

1)我们提出了一种基于不平等重建策略的RSI的新型SR方案。通过弱监督的显著性地图考虑不同区域的多样化需求,针对不同的需求设计不同的重建策略。

2)为了实现不等价重建,考虑用显著性地图来区分不同区域的不同需求和要求,进行自适应重建。在这方面,我们设计了一种新的弱监督的显著性分析方法,在该方法中,使用图像上的注释来获得像素上的显著性地图。

3)对于SR网络,我们采用C-GAN作为基线模型,其中突出度图被作为一个附加条件。为了充分利用多尺度的层次信息,我们在基于CNN的生成器模块中引入了剩余的密集连接结构。

4)对于前面提到的C-GAN的生成器网络,我们将显著性驱动的约束与知觉损失相结合,帮助网络更好地保持ROI的语义特征。此外,我们开发了一种创新的归一化均方误差(N-MSE)来衡量像素级的内容损失,并解决了基于MSE的目标优化中的域效应问题。

5)为了在ROI中产生更真实的结果,我们设计了一个闸门判别器。显著性图被用作门,以控制对输入图像像素的访问。鉴别器网络优先学习复杂区域的特征分布,以确定输入样本是真的还是假的。

本文的组织结构如下。在第二节,我们介绍了图像SR的代表性模型。第三节描述了我们的不平等SR框架的实现。第四节介绍了实验结果和分析,第五节进行了讨论,第六节介绍了结论。

II. 相关研究

A. 经典图像SR

1) 频域算法

图像SR是计算机视觉领域的一个经典问题,并且已经开发了许多技术来解决这个问题。最早的SR概念是由Harris[24]在60年代提出的。然而,它在当时并没有得到广泛的认可。自20世纪80年代以来,特别是在Tsai和Huang[25]提出了一种基于频域图像序列的方法之后,SR技术取得了突破性进展。在不考虑模糊和噪声的影响下,Tsai认为图像的退化是由下采样过程中的频率混叠引起的。通过恢复混叠信息,图像分辨率可以得到改善。这个想法很容易理解,但模型太简单了。Kim和Kwon[26]考虑了模糊和噪声的影响,应用加权递归最小平方法来解决频谱重叠问题,进一步提高了重建质量。继前述研究之后,Su和Kim[27]提出了一种使用局部频谱分析的SR方法,用于运动补偿的重叠图像序列。

2)空间域算法

前面提到的频域算法仅限于运动和退化模型,缺乏先验信息,并且不包括该研究领域的主流研究。基于空间域的方法,可以建立总体观测模型并引入空间先验信息,引起了研究人员的兴趣。Brown[28]提出了非均匀插值算法。他们计算了图像和参考之间的所有运动段米。所有LR图像通过运动参数被投影到相应的HR网格上,其他缺失的点被插值。对于几何运动引起的模糊问题,Stark和Oskoui[29]提出了投影到凸集(POCS)的方法,将先验知识陆续纳入修复过程。Irani和Peleg[30]提出了一种基于贪婪的SR方法,名为迭代背投(IBP)。在他们的模型中,图像序列中的相对位移被用来迭代完善当前的估计以实现SR。Schultz和Stevenson[31]将最大后验(MAP)引入SR领域。他们假设HR和LR图像是随机信号,在已知LR序列的条件下,统计估计最大后验概率的结果是HR。受此启发,Elad和Feuer[32]提出了一种来自MAP和POCS的混合方法,提取POCS中的先验约束,并将其应用于MAP的迭代优化过程中,以实现上规模的重建。

3)基于实例的算法

空间域的方法主要依赖于从LR图像中提取的先验知识。然而,如果缩放系数过大,有意义的信息就不足以提供高频的细节。基于学习的SR技术,可以通过丰富的样本学习获得高频信息,值得称赞地弥补了这个缺陷。Freeman等人[33]采用马尔可夫随机场来描述HR和LR图像之间的关系。有了这种关系,通过寻找重建图像块的最佳马尔可夫位置,就可以恢复HR图像。受流形学习的启发,Chang等人[34]产生了一种局部线性嵌入方法,该方法将流形学习中的局部线性嵌入整合到图像重建中。Huang等人[35]通过扩展内部补丁搜索空间进一步扩展了基于自我嵌入的SR方法。在没有任何外部训练数据集的情况下,他们的模型取得了令人满意的性能。随着压缩传感理论的发展,Yang等人[36]将稀疏表示法应用于图像SR,并提出LR图像可以被表示为超完整字典中基本元素的稀疏表示,该字典与大量相应的LR和HR图像块共同训练。Zeyde等人[37]在Yang的工作基础上做了一些改进。在字典训练中,用K-SVD(K-singular value decomposition)算法来代替特征符号搜索(FSS)算法,这不仅加快了训练速度,而且提高了重建性能。Timofte等人[38]将局部嵌入和稀疏表示相结合,提出了调整后的锚定邻居回归(A+),预先计算了映射关系矩阵,迅速加快了运行速度。

B. 基于深度学习的SR

1)架构。

CNN已经表现出极大的普及性,已经成功应用于各个领域,如图像分类[39]-[41]、目标检测[42]、[43]和图像去噪[44]、[45]。研究人员为将这一强大的手段应用于SISR做出了大量努力[4]-[10]。

Cui等人[46]提出在他们的SISR框架中嵌入协作的局部自动编码器,逐层将超解的LR图像逐步转化为HR图像。所提出的网络没有被设计成一个端到端的模型,因为级联模型的每一层都需要独立的优化,这需要更多的计算资源。

相反,Dong等人[4]直接学习了一个用于彩色图像的端到端超分辨率(CNN)(SRCNN)。他们通过一个三层深度全卷积网络[47]对输入图像进行上采样,该网络包含补丁提取、非线性表示和重建部分。

Kim等人[5]发现,增加深度可以显著提高性能,但训练收敛得太慢。他们提出了一个非常深的网络,通过残差学习预测图像细节[48]。在输入层和输出层之间的跳转连接的帮助下,网络的深度可以增加到20层。此外,峰值信噪比(PSNR)和视觉效果都有明显改善。随着网络深度和参数数量的增加,需要大量的数据来防止过拟合。

Kim等人[6]试图设计一个深度递归卷积网络(DRCN)来解决这个问题,并在不增加模型容量的情况下递归地拓宽了感受野。递归层[49]的反复应用增加了层的深度,而没有增加参数的数量。在以前的研究中,LR图像被放大为HR图像,该图像在重建网络之前通常采用双三次插值。在预处理过程中提高分辨率会增加计算的复杂性。二次方插值没有提供任何额外的有用信息来解决不理想的重建问题。

Shi等人[7]提议通过采用高效的子像素卷积层,只在网络的末端提高图像分辨率。由于子像素卷积层降低了计算的复杂性,因此所提出的框架满足了1080p视频的实时SR。

2) 损失函数。

像素损失函数,如MSE,已经在以前的研究中被广泛使用[4]-[7]。这个函数测量生成的HR图像和目标HR图像之间的差异。然而,恢复高频的细节,如纹理,是很困难的。因此,重建的图像通常过于光滑,感知质量差[8],[50]。

研究人员已经设计了新的损失函数[8]来测量高层次的语义特征。由于AlexNet[39]和VGGNet[40]在ImageNet挑战赛中表现出卓越的性能,Johnson等人[8]和Dosovitskiy和Brox[50]引入了这些模型来提取高层特征。

Johnson等人[8]根据从VGG19[40]网络中提取的高层特征设计了新的感知损失函数。这些损失函数比像素损失函数更稳健地测量图像的相似性。

Dosovitskiy和Brox[50]设计了一个由AlexNet[39]提取的语义特征之间的新距离。新的损失函数在感觉上更好地探索了图像之间的相似性,并产生了更令人愉快的重建结果。

Bruna等人[9]建议使用吉布斯分布,其中足够的统计数据是由深度CNN给出的。作者假设网络计算出的特征对局部变形是稳定的。

传统上,SR方法的有效性是由PSNR来衡量的,而PSNR与人类的感知相关性很差。具有高PSNR的重建图像往往看起来并不真实[10]。生成对抗网络[51]是一种流行的技术,在丰富的图像生成任务中有助于产生真实的结果。

最近,少数基于GAN的SR框架被设计出来,以获得具有更好视觉效果的图像[10],[52]。Ledig等人[10]提出了一个新的SR生成对抗网络(SRGAN),以从严重降采样的图像中恢复逼真的纹理。他们采用了一个带有跳过连接的深度残差网络(ResNet)[48]。损失函数由感知损失和对抗损失组成,前者评估与感知相关特征的解决方案,后者鼓励生成在感知上难以与HR参考图像区分的HR图像。

Sajjadi等人[52]提出了一个纹理合成网络,它结合了对抗性学习和知觉损失,以产生一个具有大比例系数的现实纹理特征。他们利用VGG19[40]来捕捉低级和高级特征。纹理匹配损失被设计为产生具有与目标HR图像中纹理相同的局部纹理的生成图像。VGG19在高缩放系数下实现了定量和定性评估的显著提升。

C. RSI的SR技术

在遥感领域,大多数SR技术依赖于传统的插值和压缩感应理论来提升LR图像的尺度。Yuan等人[53]开发了一个区域空间自适应总变化(RSATV)模型,其中应用了两个滤波程序来抑制总变化正则化的伪边效应。在[54]中,提出了一种基于可变像素线性重建(VPLR)算法的SR方法。该算法根据每个像素的统计意义对输入的LR RSI进行加权,并消除了几何畸变对图像形状和光度的影响。

Li等人[55]设计了一种新的SR方法,该方法是基于RSI的通用隐马尔可夫树(HMT)模型。由于图像的小波系数具有混合高斯分布,HMT模型可以获得多尺度小波系数之间的关联性。

对于高光谱RSI,Gu等人[56]和Mianji等人[57]将空间-光谱信息与基于学习的SR映射算法相结合,以提高HR图像的质量。在Li等人的文章[58]中,作者将IBP方法作为基线。作者对其进行了修改,以有效地处理图像内的局部仿生变换,用于SR。

Yuan等人[59]提出了一个基于RSI的RSATV模型,该模型改进了伪边。通过对空间纹理和分类信息的两个过滤过程,伪边得到了抑制。该模型将总变异正则化从基于像素的转变为基于区域的。

Huang等人[60]提出了一种通过字典学习和空间-光谱正则化的新型SR方法,用于高光谱RSI。受压缩传感(CS)框架的启发,作者对图像斑块进行了更强的稀疏性,并促进所学字典和传感矩阵之间更小的一致性。

随着深度学习的发展,一些基于CNN的SR重建方法已经被开发出来。Lei等人[61]提出了一种用于RSI的局部-全球组合网络(LGCNet)。提出的结构旨在学习包括局部细节和全局环境先验的多层次表征。Yuan等人[62]提出了一种方法,学习在自然图像上训练的LR和HR图像之间的映射,并通过转移学习对高光谱图像的映射进行微调。

III. 方法

RSI的特点是纹理丰富,自我相似度高,适合用深度CNN处理。失真是指生成的HR图像与参考图像之间的不相似性,而感知质量则衡量生成的HR图像的视觉质量。基于失真和感知的定义,现有的基于深度CNN的SISR方法一般可分为两类:像素损失最小化和特征损失最小化。前者可以重建失真度低但细节模糊的图像,而后者可以产生具有更高感知质量的图像。以前的研究已经验证了RSI中的不同物体需要不同程度的空间分辨率和光谱分辨率[63]。例如,住宅区和机场等区域有丰富的纹理和明显的边界,需要更详细的修复,而包括河流、草原和山脉在内的区域一般看起来很光滑,需要低的重建失真。

我们设计了一个依赖于深度学习的端到端不等价RSI SR模型,其中我们采用了突出性驱动的训练目标,旨在满足不同的需求,并提高全局重建质量。如图1所示,我们方案的整体架构由两部分组成:弱监督的盐度分析和盐度驱动的SR网络。

1)弱监督的显著性分析是为了生成一个显著性图,它在随后的不等式SR模块中具有关键作用。所提出的方法可以计算带有图像注释的按像素划分的盐度图,这提高了准确性,同时降低了训练成本。

2)提出了一个突出性驱动的SR网络,在弱监督突出性地图的指导下自适应地平衡失真和感知之间的权衡。我们设计了一个新的损失函数,由归一化内容损失、显著性驱动的感知损失和门控对抗损失组成,以衡量生成的HR图像和参考图像的相似度。此外,我们还应用了剩余密集连接块结构和门控判别器来增强所提出的模型的能力。

我们在第三节A和第三节B中进行了详细的介绍。整个框架依靠视觉显著性的指导,在全色RSI的SR过程中同时实现复杂区域的精细视觉感知和平滑区域的低质量失真。

A. 多尺度梯度显著分析

视觉梯度是指对场景中的刺激物立即作出反应的高对比度部分。通过模仿人类视觉系统中的注意机制,显著性模型有效地实现了基于低水平特征的对比度计算,以快速检测和识别有意义的目标。显著性分析方法通常是为基于手工特征的RSI开发的,这限制了其通用能力。尽管基于CNN的显著性分析方法可以极大地提高泛化能力和效率,但其出色的性能与大量的注释数据是分不开的。因此,这些方法的一个共同瓶颈是它们是以完全监督的方式运行的,也就是说,它们在训练阶段通常需要大量的像素注释。

在这篇文章中,我们设计了一个基于CNN的弱监督的显著性分析方法,以实现带有图像注释的显著性分析。图像上的标记被用来训练一个分类CNN,它也负责以弱监督的方式生成梯度分层显著性地图(GHSMs)。随着层的深度增加,感受野也会增加。因此,GHSMs可以捕获局部和全局的突出特征。特定类别的GHSMs的残差图被生成以自动提取ROI。
在这里插入图片描述

考虑到RSI的纹理特征在不同地区有很大不同,我们根据不同地区纹理的复杂性来区分突出的区域。住宅区包含相当详细的信息,涉及各种丰富的纹理特征,而农场和池塘等区域则显示出更平滑的视觉特征。因此,在突出性分析程序中,住宅区被确定为突出区域,而光滑区域被确定为非突出区域。换句话说,在我们的分类网络中,住宅区被确定为ROI。我们训练一个深度CNN来区分输入图像是否包含ROI。

这项任务对深度CNN来说并不困难,因为这两类图像的视觉差异很大。我们采用没有全连接层的VGG19网络作为特征提取器,因为它在ImageNet挑战中表现出色。我们为CNN模型添加了一个256-D全连接层,以增加这些网络的非线性。最后一层有两个具有softmax激活函数的神经元来完成二进制分类。为了确保输入图像的大小与VGG19网络的大小相等,我们在将输入的全色RSI输入到深度CNN之前,将单通道图像扩展为三通道图像。训练有素的CNN框架可以被视为一个决策函数,该函数的输入是大小为m×n的全色RSI。我们用交叉熵损失函数训练分类CNN。训练好的CNN结构表示为

f:m×n→2 f(x,W)=(f1(x,W),f2(x,W))。(1)

其中x∈m×n代表输入的全色RSI m×n,W代表约束权重和偏差。对于训练有素的CNN,f1(x, W)和f2(x, W)分别表示输入图像包括ROI的概率能力和输入图像不包括ROI(背景区域)的概率能力,满足
在这里插入图片描述
对于训练有素的CNN结构,最后一层的输出反映了输入图像属于相应类别的概率,也就是 “类分”。
f1(x,W)和f2(x,W)分别表示ROI和背景区域的类分。

一个重要的属性是,相对于输入图像,类分的梯度表明哪些像素需要最少的改变来对类分影响最大。梯度图中的突出像素很可能是相应类别中的物体。Simonyan等人[64]提出,相对于输入图像的类分的导数可以以弱监督的方式定位自然场景中的物体。由于RSI的纹理和边界特征比自然场景的更复杂,导数对像素值的剧烈变化很敏感,这可能会对RSI产生不良结果。因此,计算类分相对于输入图像的导数并不适合RSI。

随着卷积层数量的增加,各层的感受野也在增加。例如,低卷积层的特征图反映了低层次的特征,如角落、边缘和颜色,而高卷积层包含抽象的高层次语义特征。因此,我们提出了一个新的想法,即从中间卷积层产生的类分的导数图可以揭示出相应接收域的最突出的区域。导数(或梯度)图显示哪个接收域能以最小的变化影响决策函数。由于CNN中的几个最大集合层,它们还包含多尺度信息,这对突出区域的提取是有利的。

给定第j个卷积层中的n j个特征图,卷积层的第i个特征图被表示为x ji,i = 1, 2,—, n j。输入图像的第i个通道被看作是x1i。第j个卷积层中cc类的导数显著性图被表示为Mcj。Mcj可以按以下方式计算。
在这里插入图片描述

我们通过平均化操作来融合不同概念层的导数显著性图,以整合多尺度的显著性区域
在这里插入图片描述
考虑到负的训练样本不包含任何ROI,融合的背景类别的突出性地图只能突出背景区域。因此,融合后的导数盐度图可以协助抑制背景区域。因此,我们通过计算S1和S2之间的减法来生成多尺度残余显著性地图
在这里插入图片描述
其中ReLU(-)是用于将零分配给负值的整流线性单位。图2显示了多尺度梯度显著性分析网络的结果。
在这里插入图片描述
图2. 由多尺度梯度盐度分析网络生成的显著图。(a) 原始全色RSI。(b) 前景派生图。© 背景派生图。(d) 最终的多尺度残留显著图。

B. 显著性驱动的门条件生成对抗网络

1)对抗学习。

尽管深度学习在人力资源图像生成领域取得了突破性进展,但它也有一些不足之处。与传统的机器学习方法相比,深度学习通常假设训练数据和测试数据具有相同的分布,或者训练数据上的预测结果与测试数据上的预测结果受相同的分布。有些偏差是存在的。例如,预测数据的性能通常低于训练数据的性能,这就是过拟合的问题。深度学习模型,如CNN,有时不能研究训练数据的特征。与巨大的真实数据相比,这些模型的参数数量大大少于数据的数量。因此,在训练过程中,生成模型会找到数据背后更简单的统计规则来生成数据。

对抗学习是解决前面提到的问题的一个合适方法。在研究中,Goodfellow等人[51]将这一概念引入深度学习领域,并提出了一种名为生成式对抗网络的新型网络模型,它由一对对抗网络(生成器网络G和判别器网络D)组成。G试图学习样本的概率分布,然后试图产生能够混淆D的判断的真实数据。G和D被看作是一个最小-最大游戏的两个对手参与者,试图解决(6)所示的优化问题。随着游戏的进行,两个参与者相互竞争,他们的能力不断提高。当鉴别器D被认为是足够的,无法正确区分数据的来源时,发生器G已经掌握了

在这里插入图片描述
由于GAN能够令人称道地学习数据的分布,它已经被广泛地应用于图像或声音的应用。Yann LeCun曾将GAN评为过去20年机器学习领域中最具创新性的想法。顺着这个趋势,Ledig等人[10]提出了SRGAN,在SR过程中生成逼真的图像。在传统的方法中,如SRCNN[4]、ESPN[7]和VDSR[5],一般目标是最小化MSE,并帮助重建结果达到高信噪比(SNR)。然而,这些方法产生的结果通常缺乏高频信息,并具有过度光滑的纹理。相反,SRGAN认为重建的HR图像应该尽可能地与真实的HR图像相似,无论是低层次的像素值还是高层次的抽象特征。他们应用一个判别器来确定HR图像是生成的图像还是原始图像。因此,不能被鉴别器区分的图像被认为是最真实的图像。

2)网络结构。

尽管SRGAN可以产生逼真的结果,但这种方法也有一些不足之处。由于生成器和鉴别器之间的对抗性学习是一种最小-最大的博弈,确保整个模型的收敛能力是具有挑战性的。根据我们的观察,SRGAN可以获得明显的结果,因为它生成的图像中存在互补的纹理。尽管这一措施提高了视觉感知性能,但它也使图片变得 “脏”,从而损害了关于光滑区域的信息。为了弥补这些不足,我们提出了一种新型的SR网络,名为SD-GCAN。
在这里插入图片描述
如图5所示,SD-GCAN由三部分组成:生成器网络G、判别器网络D和特征提取网络F。在训练阶段,网络G生成对应于LR县的HR图像。由于生成器是一个完全卷积的网络,它对输入图像的大小没有限制。在训练过程中,网络D和F可以产生对抗性和感知性损失,这些损失被添加到发生器网络的损失函数中。

考虑到视觉显著性图被送入网络以实现不平等的重建,我们进一步采用了条件-GAN结构[65]作为我们SD-GCAN的基线。生成器模型G是一个全卷积网络。对于具有放大系数r的SR,我们使用像素洗牌层[7]来对图像进行放大,而不是应用插值技术。没有扩大尺寸的预处理,我们可以在相同的计算成本下应用一个非常深的网络。

生成器网络是由八个条件残差密集块组成的。如图4所示,每个块包括两个3×3卷积层,其中第一个卷积层之后是ReLU激活函数。为了利用各种分辨率的优先权,我们设计了一个小的条件模块来产生多尺度的条件,可以输入到所有的块中。尽管有从头到尾的跳过连接,我们也在块内启用其他直接连接。这种技术不仅保留了前馈性质,而且还融合了不同分辨率的局部密集特征。生成器的最后一层使用tanh函数来限制输出值在[-1, 1]的范围内。

鉴别器D,与VGG网络[40]有相似的模型,可以提取多尺度图像特征,并将生成的图像与原始样本区分开。鉴别器有8个3×3的卷积层,由leaky-ReLU函数激活,其中卷积滤波器的数量每两步从64个逐渐增加到512个。受[7]的启发,在滤波器数量增加的同时,采用分层卷积来替代池化层,这使得网络能够学习其空间降采样。获得的特征图被平坦化并转移到两层密集层,以提供最终评估。为了加强细节信息恢复的效果,我们提出了一种新颖的门控技术,可以自适应地增强突出区域的重要性来评估判别器网络。门控模块不仅可以降低鉴别器的任务复杂性,还可以完成我们的不等价重构思想。在生成器和鉴别器网络中,批量归一化层被添加到卷积层之后,以防止协变量转移。

特征提取网F的框架主要继承自VGG19。我们保留了在ImageNet[39]上预训练的卷积层的所有参数,并采用遥感数据的迁移学习来进一步提高分类性能。请注意,只有该网络的卷积层被用来计算生成器模型的特征损失,或感知损失[8]。

在回归过程中不被考虑,这就造成了分量的支配效应。我们可以通过正态特征向量对差异图进行分解,具体如下。
在这里插入图片描述
wi方向上的误差可以计算如下。
在这里插入图片描述
由于在优化过程中忽略了数值小的分量,wT i Ie的l2-norm没有有效地被最小化。因此,重建的图像在wi的方向上失去了一些小的细节。

为了解决这个问题,我们设计了一个N-MSE损失函数来减少分量效应域的影响。我们定义一个归一化的损失函数如下。
在这里插入图片描述
由于平方根运算是一个凹函数,所以特征值之间的差距缩小了(如图6所示)。在训练过程中,特征值的平方根可以模拟地减少。N-MSE损失函数的双倍值是MSE损失函数平方根的上界
在这里插入图片描述
在训练过程中,Lnorm的优化可以限制MSE的损失。归一化的损失函数可以克服分量域效应的不足,高频细节可以得到重构,这就保证了输出的图像更加清晰,感知上更加真实。

2) Saliency-Weighted Perceptual Loss:

在图像生成器网络中,Johnson等人[8]提出了感知损失,以确保构建的图像在感知上与目标图像相似。与使用MSE损失来匹配像素值不同的是,感知损失利用特征提取模型F来衡量生成结果和HR图像之间的特征级差异。因此,我们设计了一个突出性加权的感知损失函数,如图7所示。

让fi,j(x)为网络F中第i个集合层之前的第j个卷积层在处理图像x时的激活情况。经典的感知损失被定义为重建图像G(ILR)和相应的HR图像IHR的特征图之间的欧氏距离
在这里插入图片描述
其中Wi,j和Hi,j代表从fi,j获得的各自特征表示的形状。为了缩小具有复杂纹理的区域的语义差异,我们将突出度值视为感知损失函数的加权系数,具体如下。

在这里插入图片描述
其中SS是由IHR的显著性分析网络(在第三节A)生成的显著性图,其值受[0, 1]的限制。由于卷积操作不改变图像的空间排列,这个优化目标使网络能够优先考虑最小化突出区域的差异。在我们的建议中,我们选择f5,4来构成损失函数,因为它们代表高层次的语义特征。同时,我们调整了显著性地图的大小以适应这些特征地图的尺寸。

3)对抗性损失:

归一化内容损失测量生成的HR图像和参考图像之间的像素失真,而感知损失测量它们之间的语义质量。在本节中,我们增加了一个对抗性损失,以进一步提高生成图像的真实性。由于投资回报率对边界和边缘的重建质量要求较高,我们设计了一种新的门控技术,在判别器部分以显著性地图为指导。

显著性地图被视为门,在将其输入判别器之前衡量每个像素的重要性,其中图像I与显著性地图S的门控算子被计算为gate(I) = I - S。 (17) 在对抗性学习中,门控生成的HR图像被输入判别器以确定其是否属于真实的HR图像。鉴别器的输出被表示为D(-),生成器和鉴别器的对抗性损失的公式被证明如下。Ladv = - log(EILR∼PLR(I)D(gate(G(ILR)) ) (18) L D = log(EIHR∼PLR(I)gate(G(ILR))) - log(EIHR∼PHR(I)D(gate(IHR)))。(19) 因此,鉴别器关注的是生成图像中ROI的质量。IV. 试验结果 A. 数据集 为了验证我们模型的优越性,我们选择GeoEye-1卫星全色RSI进行训练和测试。GeoEye-1的数据具有全色成分,分辨率为0.41米。在实验中,所有方法都是在全色图像上进行的。对于我们提出的模型,我们采用200张图像进行训练,15张图像进行评估。训练图像与测试图像是不同的。在训练过程中,所有的图像都以一定的比例系数被降频为LR图像,而原始图像则被视为HR参考。

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

B. 训练细节和参数

我们在NVIDIA Titan Xp GPU上训练我们的网络。所有测试图像的大小为510×510。对于多尺度梯度显著性分析,在GeoEye-1数据集中有2000张尺寸为170×170的全色图像。前景与背景样本的比例为1:1。该模型使用随机梯度下降法进行训练,批次大小为10个例子,动量为0.9,重量衰减为0.0005。

对于SD-GCAN,我们首先生成尺寸为170×170的显著性地图,然后通过比例系数为3的二元插值调整其大小(转为510×510)。我们在原始训练图像的相同位置随机裁剪9个384×384的子图像和相应的盐度图。输入的LR图像和显著性地图是通过使用比例因子r=3的双三次插值进行下采样得到的。我们建议的图像生成器由于其完全卷积结构,可以接受任意大小的图像。输入和目标图像的像素值被缩放到[-1, 1]的范围内。由预训练的VGG19网络生成的显著性地图的范围是[0, 1],它们被视为概率分布。我们应用Adam[66]的优化器,β1=0.9来训练网络。对于SD-GCAN,生成器损失函数中的归一化内容损失、显著性驱动的感知损失和对抗性损失的权重系数被设定为1、10-2和10-3,以平衡不同损失的数值。考虑到其优化目标的复杂性,在提出的框架中,我们用20 000次迭代来训练GAN,初始学习率为10-3。在训练的一半时间里,我们将学习率降低到10-4,以避免出现局部最优。我们实现了基于TensorFlow框架的代码开发[67]。

C. 比较方法和评估指标

为了评估我们技术的定量有效性,我们选择PSNR和结构相似性指数指标(SSIM)来衡量所有方法的重建质量。由于我们的显著性驱动模型是在获得更清晰的ROI结果之前,我们提出了一个新的评估指标,即局部SSIM,以评估那里的表现。

SSIM是一个感知质量指标,它比PSNR更符合人类的图像质量感知。从图像组成的角度来看,SSIM将结构信息定义为独立于亮度和对比度的属性,反映了场景中物体的结构。SSIM将失真建模为三个不同因素的组合:亮度、对比度和结构。

SSIM地图M被确定,带有突出性地图S的局部SSIM由以下公式得到。
在这里插入图片描述

D. 与先进方法的比较

1) 目标比较。

我们在GeoEye-1数据集上将我们提出的SD-CGAN与双三次插值、Yang等人[36]、A+[38]、SelfEx[35]以及基于CNN的方法,包括SRCNN[4]、VDSR[5]、ESPN[7]和SRGAN[10]的性能进行比较。我们在图8和图9中展示了这些方法的视觉表现,并在表I和表II中总结了定量比较。PSNR是图像SR重建领域中最常见的指标。

PSNR测量生成的图像逐个像素的质量,与MSE类似。如表一所示,尽管所提出的方法的PSNR不是最好的,但它在所有方法中处于第四级。由于我们建议的损失函数还包含对抗性损失和感知性损失,这些损失与PSNR没有直接关系,因此优化过程超过了获得高PSNR的目标。相反,排名第一的技术,VDSR,利用深度CNN来最小化HR图像和参考图像之间的MSE损失。由于像素级的MSE损失完全对应于PSNR,VDSR方法在这个指标上表现良好。相对而言,关于表二中的SSIM指标,我们惊讶地发现,除了VDSR之外,我们的方案优于大多数方法。此外,我们在突出的区域取得了最好的性能,这充分验证了我们的突出性驱动策略的有效性。
在这里插入图片描述

2) 数量比较。

我们展示了不同方法的结果,包括GeoEye-1数据集的最先进结果(见图8和9)。如标示的区域(红色矩形和蓝色矩形)所示,该模型能够充分重建微小的细节,如住宅区和道路。使用SD-GCAN的新损失函数,我们模型的结果可以保持原始图像的语义特征,而其他模型不能提供令人满意的结果。例如,生成的HR图像具有更好的道路连通性,这是其他方法无法实现的。在生成的图像中,建筑物之间的分离非常明显,而其他方法的结果是模糊的。

3)主观评价。

在这一部分,我们提出了一个主观测试系统,包括一些视频质量和编码语音的主观评价方法[68], [69],这些方法利用了平均意见得分(MOS)尺度。考虑到我们的主观测试是为了比较各种方法的结果,而不是单一的方法,我们在前面提到的研究基础上设计了一个测试系统。具体情况描述如下。

从研究生中随机招募了34名受试者;所有学生都有一定的图像处理或RSI的目标检测经验。测试时间不受限制。因此,受试者有足够的时间来仔细比较每种方法的结果。我们对结果进行统计和储存,以便进一步使用。

在获得所有评价结果后,我们采用不同的标准来分析这些记录。在描述性统计中,boxplot是一个合适的指标,用于按四分位数对数字数据组进行图形化描述。boxplot可以显示一个统计群体的样本的变化,而不需要事先了解基本的统计分布。图10列出了偏差比较均衡的SD-GCAN的主观结果。很明显,我们的SD-GCAN的标准化得分是最高的。
在这里插入图片描述
为了进一步评估这些方法之间的差异,我们应用单因素分析来比较它们的效率。我们把不同方法的平均值表示为μSD-CGAN。

检验假设表示如下。
在这里插入图片描述
由于参与人数少于50人,本文采用了夏皮罗-威尔克检验的结果。如表三所示,由于夏皮罗-威尔克检验的sig>0.05,所以分数的分布服从于正态分布。Levene统计量被用来完成方差的同质性检验(如表四所示)。表五显示,我们应该拒绝不同方法的平均标准化分数相等的假设。
在这里插入图片描述
为了确定平均值有什么不同,我们使用成对的多重比较来进一步比较每种方法。如表六所示,我们的SD-GCWAN框架和其他方法之间的平均差异大于零,这超过了所提出的方法的平均得分高于其他方法。p值(sig list)是指群体平均差异为零的概率。如表六所示,所有的p值都小于0.05,这表明SD-GCWAN的平均得分与其他方法有明显的不同。由于95%置信区间的左端点大于零,我们的SD-GCWAN框架在95%的置信度下,在其他方法中表现出明显的性能。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

V. 讨论

在本节中,我们提供了两组消融经验,以评估不平等重建策略和归一化内容损失函数的效率。此外,我们提出了关于感知性能和图像质量之间的权衡的讨论。

A. 不等价策略的效率

为了验证不等价重建策略的必要性,我们从以下三个方面去除突出性分析部分,然后观察其性能的变化。

1)条件残差块被残差密集块取代,因此生成器变成了一个有8个残差块的残差密集网络,其中包含两个3×3卷积层。表七 GEOEYE-1 RSIS的PSNR(dB)和SSIM与缩放系数×3的比较

2)门控结构被移除,判别器变成一个具有8个卷积层的深度CNN,由leaky-ReLU函数激活,其中卷积滤波器的数量从64到512每两步逐渐增加一倍。

3)我们利用生成的图像的特征图和参照物之间的MSE来代替(16)中的突出性加权感知损失,其中
在这里插入图片描述
训练细节和参数在第四节B中提到。表七总结了GeoEye-1 RSIs的定量结果。可以看出,所提出的方法在所有客观指标上都优于没有突出性分析的框架。在显著性指导的帮助下,该方案生成的HR图像的像素失真较少。

图11显示了这两种方法的视觉对比。拟议方法的语义维护在两个方面优于基础框架。
1)语义维护的能力。
如图11所示,我们发现住宅区的边界比基础框架的边界要直得多。此外,由我们的方法生成的图像将有更好的房屋分离。我们认为这要归功于突出性加权的感知损失[如(15)所示],它让网络专注于突出区域的感知质量。
2)生成逼真图像的能力。
所提出的方法可以同时生成像素失真较少、突出区域的纹理特征较丰富的图像。考虑到GAN的使用可以影响纹理的视觉特征,它表明对抗性学习中的门控结构有助于生成逼真的HR图像。

B. 归一化内容损失的效率

所提出的SD-GCWAN的损失函数由三部分组成:
1)归一化内容损失;
2)显著性驱动的感知损失;
3)对抗性损失。
在实验过程中,我们发现这三个项目的相对大小会影响优化过程。为了讨论归一化内容损失的效率,我们删除了显著性驱动的感知损失和对抗性损失,以保持公平性。在这里,我们用传统的MSE损失和N-MSE损失设计了两个SR框架来评估归一化内容损失的效率。条件残差密集区被残差密集区所取代,以消除不平等的SR重建策略的影响。此外,训练细节和参数在第四节B中提到。表八显示了这两个框架的目标比较。我们发现,优化MSE损失可以获得更高的PSNR,因为HR和生成图像之间的MSE最小化也相当于PSNR最大化。对于SSIM来说,N-MSE损失比MSE损失好,这意味着我们的方案所生成的图像更接近HR图像,图13。最后四个特征值的收敛曲线。(a)第13个特征值,(b)第14个特征值,©第15个特征值和(d)第16个特征值的收敛曲线。 亮度、对比度和结构。这两个框架的实验结果呈现在图12中。我们可以观察到,拟议的N-MSE损失有助于重建微小的细节。例如,如图12(d)和(f)所示,N-MSE损失有助于在具有复杂纹理特征的区域提供更多的改进。图13提供了最后四个特征值的收敛曲线。图中显示,与MSE损失(蓝线)相比,N-MSE损失(橙线)对这些小特征值的收敛效果更好。

C. 关于权衡的讨论

从比较实验中,我们观察到两个相对极端的方法–VDSR和SRGAN。VDSR追求高质量的指标,结果是模糊的视觉外观,而SRGAN提供逼真的感知性能,但质量指标较差。在实现高PSNR的同时,基于MSE的优化问题的解决方案通常缺乏高频内容,并产生了令人不满意的过度平滑纹理的感知效果。视觉性能和图像质量是不协调的。Blau和Michaeli[70]也观察到SR任务中图像质量和感知性能之间的矛盾,他们在数学上证明了低质量的失真和高感知性能是相互矛盾的。

我们在图14中进一步展示了前面提到的技术和我们的算法的一些放大的结果。我们观察到,SRGAN产生的假纹理,建立了一个清晰的视觉性能。然而,这些假的细节并不是用实际的地面信息生成的,可能会破坏原始图像内容。从红色圆圈的区域,我们发现SRGAN的结果中的内容被噪声淹没了。VDSR的结果遗漏了具体的结构信息,提供了一个断断续续的印象。VDSR的解决方案也会在蓝色圆圈的区域产生deforma tions。相反,我们的模型寻求视觉外观和图像质量之间的权衡。在本文中,由于SD-GCAN的显著性驱动的损失函数,所提出的网络在恢复ROI的独特纹理之前。因此,在保持相对可呈现的图像质量的前提下,从SD-GCWAN恢复的道路和住宅更加清晰和一致。

VI. 结论

在视觉注意力机制的启发下,我们提出了一种基于深度网络的RSI的不等价SR策略。所有现有的SR方法都忽略了不同图像区域的不同需求,而这是RSI的一个重要特性。为了弥补这一缺点,我们引入了突出性,以适应性地实现不平等的重建结果。我们设计了一个新的弱监督的显著性分析网络,它可以生成具有图像明智标签的像素级显著性地图。我们设计了一个新型的深度网络SD-GCAN,以根据不同区域的需求重建全色RSI。请注意,该模型采用了突出性来指导不同的优化目标。对GeoEye-1遥感数据集进行的评估表明,我们的方法不仅可以获得具有令人满意的全局图像质量的HR图像,而且还可以获得对ROI有利的感知性能,这验证了所提框架的有效性。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值