【论文阅读】Remote Sensing Image Super-Resolution via Mixed High-Order Attention Network

论文地址

论文地址论文开源代码地址

摘要:

最近,遥感图像在环境监测等多项任务中变得越来越流行。然而,卫星传感器观测到的图像往往存在低分辨率(LR)问题,难以满足进一步分析的要求。超分辨率(SR)旨在提高图像分辨率,同时提供更精细的空间细节,完美弥补卫星图像的弱点。因此,在本文中,我们提出了一种用于遥感 SR 的创新混合高阶注意力网络(MHAN)。它包括两个组件:用于特征提取的特征提取网络,以及用于细节恢复的具有高阶注意力 (HOA) 机制的特征细化网络。在特征提取网络中,我们在所有跳过连接中将元素相加替换为加权通道级联,这极大地促进了信息流。在特征细化网络中,我们没有探索一阶统计数据(空间或通道注意力),而是引入了 HOA 模块来恢复缺失的细节。最后,为了充分利用分层特征,我们引入了频率感知连接来桥接特征提取和特征细化网络。在两个广泛使用的遥感图像数据集上进行的实验表明,我们的 MHAN 不仅比最先进的方法获得了更好的精度,而且在运行时间和 GPU 成本方面也显示出优势。代码可在 https:/github.com/ZhangDY827/MHAN 获得。

前言

图像超分辨率(SR)是计算机视觉中的一个热点问题,旨在从相应的低分辨率(LR)对应物中恢复具有丰富高频细节的高分辨率(HR)图像。在遥感领域,从卫星观测到的图像在各种方面都有很大的帮助实际应用,例如环境监测、资源勘探和监视 [1]。然而,由于成像设备的限制,遥感图像通常会受到 LR 的影响[2]。此外,传输噪声和运动模糊等其他一些因素会进一步影响遥感图像的质量[3]。为了克服成像过程中产生的模糊和噪声的影响,升级硬件是最直接有效的方法,例如配备更精确的传感器。然而,额外的巨额成本是我们必须解决的另一个问题。因此,迫切需要开发一种实用且廉价的算法,通过软件的方式来克服遥感图像中的缺陷。
从广义上讲,SR技术提高了遥感数据的空间分辨率,同时提供了在图像中没有呈现的空间细节。 LR图像。如图1所示,随着放大倍数越来越大,逐渐显示出更真实、更丰富的细节。此外,单图像 SR (SISR) 是一个固有的不适定问题,需要在有限的已知 LR 像素下估计更多的 HR 像素。特别是在期望比例因子较大的情况下,这个问题更加严重。到目前为止,针对 SISR 提出了很多方法,可以分为两大类,基于重构的算法和基于学习的算法 [4]。
以前的绝大多数卫星 SR 方法都采用基于重构的方法来重构利用亚像素信息对应 HR 图像在 LR 多帧 [5] 中。由于 SR 是一个逆问题,一些基于重构的方法还强加了某种先验知识以产生良好的结果,例如局部、非局部和稀疏先验 [6]。与非局部[7]、[8]和稀疏先验[9]、[10]相比,局部先验应用最广泛,指示自然图像的局部空间属性,一些经典的局部先验包括平滑先验[11],梯度轮廓先验[12]和边缘先验[13]。一般来说,基于重建的方法不仅直观,而且可以灵活地与各种先验约束相结合。不幸的是,它们仅限于手工特征设计,其中涉及复杂的参数调整技术。因此,它们很难应对复杂多变的场景。
基于示例学习的方法属于其他类型的 SR 算法,它们试图建立外部 LR 和 HR 图像对之间的映射关系。由于深度学习在计算机视觉领域的蓬勃发展,SR [14]-[16] 领域取得了重大进展。由于深度卷积神经网络 (CNN) 中强大的特征表示和端到端训练的优点,近年来提出了一系列基于 CNN 的 SR 方法。
然而,基于 CNN 的 SR 模型在遥感 SR 任务中仍然存在一些问题:
1)大多数基于 CNN 的方法都提倡设计一个非常深的模型来提高性能,但这种复杂的模型通常会带来高计算量和高计算量的问题。内存成本,阻碍了他们的实际应用;
2)大多数CNN模型中常用的注意力机制要么是粗略的,要么是一阶的[即空间和通道注意力(CA)],仅限于挖掘简单粗略的信息,从而导致恢复高- SR 图像的频率细节;
3) 分层特征图的频带通常没有得到充分利用。

为了解决这些问题,我们提出了一个深度混合的高阶注意力网络(MHAN),用于更强大的特征表示和高频细节恢复,这是遥感数据与其他合成数据相比的本质区别。特别是,该模型由两部分组成:用于低级特征提取的前子网络(特征提取网络)和用于高频细节恢复的后子网络(特征细化网络)。特征提取网络采用与 [15] 相同的主干网络,其中一些残差块形成具有长跳跃连接的残差组。为了充分利用分层特征并进一步促进高频特征的信息流,我们没有像[15]那样在所有跳过连接中逐元素添加特征,而是将其替换为加权通道级联(WCC)。因此,提出了连接组(CG)和连接块(CB)。在特征细化网络中,我们引入了高阶注意力(HOA)模块。与传统的空间和 CA 不同,这种新颖的注意力机制可以通过高阶多项式预测器捕获各种高阶统计数据,从而可以提取更多有区别的注意力信息。此外,在特征提取网络中,来自较浅层的特征简单且包含较低频率信息,而更深层的输出往往包含更复杂和更高频率的信息。因此,我们提出了频率感知连接(FAC),通过将较浅的层与高阶 HOA 模块连接来融合特征。通过这种方式,来自特征提取网络的分层特征与具有不同顺序的多个 HOA 模块相结合,以弥补缺失的细节,从而更好地恢复 HR。
综上所述,本文的主要贡献有四个。
1)将一种新颖的HOA模块引入到遥感图像SR中。据我们所知,这是第一次在低级视觉任务中应用混合 HOA 模块。
2)我们在所有跳过连接中用加权通道级联替换元素加法,以充分提取层次特征并进一步促进高频特征的信息流。
3)考虑到层次特征之间频带的差异,我们提出了FAC来融合不同频带的特征。
4)我们提出了一个名为MHAN的新型网络,并且广泛对具有挑战性的 WHU-RS19 [17] 和 RSSCN7 [18] 数据集的实验表明,我们的方法不仅建立了新的技术水平,而且在计算成本方面也取得了令人瞩目的性能。
本文的其余部分安排如下。第二节简要介绍了相关工作。我们在第三节中详细解释了所提出的方法。第四节介绍了实验细节和讨论,以验证所提出的方法。最后,在第五节得出结论。

方法

为了更好地了解我们的工作,我们首先简要介绍一下该模型。与先前直接级联许多精细块以构建深度体系结构的方法不同,我们的模型包括两部分:特征提取网络和特征细化网络。混合三阶注意网络的玩具示例如图2所示。
特征提取网络采用多个CB和CG来形成残差结构中的残差。然而,由于所提出的WCC,特征提取网络在生成分层特征时可以保留更详细的信息。
此外,高频细节的恢复在特征细化网络中实现,该网络由多个具有不同阶数的HOA模块组成。特别地,来自特征提取网络的分层特征在不同的频带之间变化。
为了充分利用这些特征,我们还提出了FAC来桥接特征提取和特征细化网络,其中不同频率的特征对应于具有不同复杂度的模块,即不同阶数的HOA模块。

在这里插入图片描述

A)Feature Extraction Network

对于图像SR中最先进的CNN模型,基于Conv-ReLU-Conv结构及其变体的残差块被广泛采用为形成深度模型的基本模块[15],[35]。参考图2,特征提取网络的构建块也采用了Conv-ReLU - Conv结构。受[51]的启发,我们采用加权信道级联(WCC),然后采用1×1 Conv来构成一个新的级联块(CB),而不是通过元素级加法来使用剩余连接的概念,如图2所示。
在这里插入图片描述

特别是,设 xi ∈ H×W×C 表示 CB 的输入,F(·) 是由两个 3 × 3 Conv 组成的非线性映射分支。CB 可以表述为 xxx,其中 xi+1 是 CB 的输出,C1×1 表示 1 × 1 的 Conv 层,[· · · ] 表示通道连接,λ1 和 λ2 对应于融合非线性映射分支输入和输出的加权因子。如果 λ1 = λ2 = 1,则 CB 自动降级为正常残差块,如下所示在[35]中。

此外,三个CB堆叠形成CG,如图2所示。为了进一步促进网络的信息流,我们还利用WCC融合了第一个CB的输入和最后一个CB的输出。事实上,特征提取网络的结构与[15]中残差结构中的残差相似。然而,我们的网络与之前的工作存在一个关键区别,即我们通过WCC融合两个分支的特征,然后是1×1 Conv层,而不是基于元素级加法的残差连接。更好的是,不仅残差结构中的残差允许通过多个WCC绕过丰富的低频信息,而且λ1和λ2也可以学习。
参数在训练过程中实现CA机制,可以视为将可用资源重新分配给这两部分信息性最强的组成部分,从而鼓励特征提取网络专注于高频信息的学习。

在这里插入图片描述

B)B. Feature Refinement Network

特征细化网络主要包含多个HOA模块,用于对复杂和高阶统计进行建模,如图2所示。当R = 1和R = 3时,HOA模块的玩具示例如图3所示。更多具体来说,对于一个 R 阶的 HOA 模块,给出输入 X,我们首先使用 R 1 × 1 Convs 来获取 R 描述符
在 R 级别,其中 X ∈ RH×W×C 和 Z Ri ∈ RH×W×C。然后,在 R − 1 水平上,R − 1 1 × 1 Convs 的数量也用于获得 R − 1 描述符。这样,直到级别 1,R(R +1)/2 个描述符通过 1 × 1 转换生成。对于 r 级特征描述符集 {Zri }{i=1,2,…,r},其中 ∈{1, 2,…, R},我们将它们组合起来得到 R 阶统计量的 r 阶分量,可以表述为 xxx。其中 $ 是元素乘积。此外,为了进一步将这些统计描述符转移到高阶注意力图上并提高电子表示能力,我们将非线性施加在HOA模块上,如下所示:
在这里插入图片描述

其中 Fr 是非线性激活函数,它是 ReLU 函数,后跟 1 × 1 转换函数和 sigmoid 函数还用于通过在区间[0, 1]中分配AR的每个元素的值来生成R阶注意力图AR。最后,遵循最注意机制[15],[26],使用得到的HOA映射AR对输入X进行重新缩放,即Y = AR $ X。
如前所述,所提出的 HOA 模块简单且易于实现,其中只有常用的 peration,例如 1 × 1 Conv、ReLU 和 sigmoid 函数参与其中。此外,对于[15]中的传统CA模块,使用全局平均池化(GAP)层来减小输入的空间维度,然后是两个级联的全连接层来产生通道统计 Z ∈ RC。实际上,全连接层可以视为1×1卷积层。
因此,抛弃 GAP,CA 模块可以被认为是我们一阶 HOA 模块的特例。与仅利用一阶信息的CA模块不同,所提出的HOA模块更加灵活。只需分配更大的R,我们的模型就可以产生更丰富的高阶统计数据,从而产生强大的表示能力

C)Frequency-Aware Connection
在这里,我们介绍如何有效地连接特征提取网络和特征细化网络。目前,对于大多数基于CNN的方法,存在大量的残差块被堆叠以构造非常深的网络,并且来自最后剩余块的特征映射被超分辨
重建最终的HR图像。虽然由于更深的网络已经获得了令人着迷的改进,他们没有考虑在不同频带上变化的分层特征的特征分布。对于例如,RDN[35]提出了全局特征融合,以直接连接由残余密集块产生的所有先前分层特征。然而,在[52]中指出,来自不同层次的特征映射的频带通常不相同;因此,将频带变化的特征映射均等地处理是不明智的。

因此,我们建议FAC克服上述问题,其中具有不同频带的特征映射对应于具有不同顺序的HOA模块。正如我们前面提到的,特征提取网络的分层特征在频带上是不同的。特别是对于浅层,参数主要集中在低频信息上,其中包括简单的纹理。对于深层,参数更多地关注高频分量,例如充满边缘的区域,纹理和其他细节。因此,浅层的低频信息应与高阶HOA模块连接,高阶HOA模块更复杂,恢复细节的能力更强。此外,高频分量对于遥感SR也是必不可少的,并且应该通过高阶HOA模块进一步增强从深层获得的高频信息。因此,提出了FAC来桥接模型结构和频带之间的间隙,其中特征提取网络的头部和尾部的一对特征被馈送到特征中的高阶HOA模块细化网络,如图2所示的红线。由于这种设计,假设特征细化网络包含N个从1到N阶的HOA模块,因此,特征提取网络中有M个CG,其中M=2N+1.总之,对于r阶HOA模块,FAC可以表述为

其中F D和FS分别表示特征细化网络和特征提取网络的特征,HOAr表示r阶HOA模块。

Experiment

A)Setting

我们使用 AID [53] 作为训练数据集,这是一组描绘 30 个土地利用类别的遥感图像,包括机场、农田、海滩和沙漠。为了验证我们提出的 MHAN 的性能,我们对两个卫星图像数据集进行了实验,即 WHU-RS19 [17] 和 RSSCN7 [18]。这些数据集的一些属性如表一所示。为了进行快速测试,我们从 RSSCN7 数据集中随机选择 30 张图像,形成一个名为 Test30 的新测试数据集,如图 4 所示。此外,训练数据集也通过水平和垂直翻转以及 90° 旋转来增强。为了生成 LR 输入帧,我们通过双三次插值对 HR 帧进行下采样。在我们的实验中,我们关注 ×2、×4 和 ×8 比例因子,并且通常使用峰值信噪比评估 SR 结果转换后的 YCbCr 空间的 Y 通道上的比率 (PSNR) 和结构相似性 (SSIM)。关于训练细节,从 LR 图像中提取 64 × 64 LR 图像块,而输出块的大小对应于比例因子。该模型将三通道 RGB 图像作为输入和输出。在这里,我们使用 L1 损失作为训练目标,与 L2 损失相比,它可以加快收敛速度​​并产生更高的客观评估分数。 Adam优化方法[54]用于更新模型参数,其中β1和β2分别设置为0.9和0.999。学习率最初设置为 10-4,每 100 个 epoch 降低 10 倍。所有实验均由 PyTorch 实施,并在 NVIDIA TITAN RTX GPU 设备上进行评估。我们的实现代码可在 https:/github.com/ZhangDY827/MHAN 获得。

B)模型大小和运行时间

模型大小和运行时间是实际应用中的关键问题,尤其是在低计算能力设备中。然而,为了追求较高的客观评价分数,最近的方法往往采用过多的卷积,造成巨大的计算开销。表二显示了这些方法的模型大小和运行时间的比较。对于我们的模型,我们设计了三个模型,三个模型、四个模型和四个 HOA 模块,分别对应模型(R = 3)、模型(R = 4)和模型(R = 5)。参考表二,将我们的方法与 D-DBPN [14]、RCAN [15] 和 SAN [28] 进行比较,虽然参数数量相当,PSNR 和 SSIM 值没有太大提高,但运行时间和 GPU成本显着降低。因此,表二表明,我们的方法实现了有效性和效率之间的权衡。
在这里插入图片描述

C)消融实验

在本节中,我们进行了一系列实验来验证每个建议组件的效果。首先,我们重视FAC的优势,特别是FAC 是不同频段的信息应由复杂度不同的模块处理,而这一点被最流行的方法所忽略,阻碍了 CNN 的表示能力。因此,我们提出 FAC 与不同阶 HOA 模块一起通过​​处理特征来增强模型的表示能力。。。HOA模块倾向于从浅到深恢复信息,这是我们提出的MHAN在高质量SR图像恢复方面优于其他方法的主要原因。图 6 显示了我们的方法在是否使用 FAC 时的 PSNR 曲线。可以看出,具有 FAC 的曲线比没有 FAC 的曲线表现出更好的性能,这表明所提出的 FAC 确实大大提高了重建图像的质量。事实上,上述机制与人类认知过程(从简单到复杂)是一致的,并且可以灵活地嵌入到其他骨干网络中。此外,我们通过消融研究对提出的 MHAN 进行了研究。对于基线模型,我们将 HOA 模块替换为常用的 CA [15],并将加权通道连接 (WCC) 更改为元素加法。去掉FAC,(4)中的操作也被丢弃,整个网络按顺序组织,没有其他短路径。参考消融研究的结果表 III,只需为基线模型配备 HOA 模块,我们在 PSNR 方面获得了 0.11 的改进,表明采用多个 HOA 模块有利于捕获用于图像恢复的各种信息。由于FAC和WCC一一嵌入到模型中,性能可以进一步提升。此外,与直接在残差块中相加相比,WCC 以自适应的方式集成特征,从而改善了整个网络的信息流。

D)与现有技术对比

我们将我们的MHAN与几种最先进的SISR方法进行了比较:SRCNN [33],VDSR [34],RDN [35],D-DBPN [14],RCAN [15]、SRFBN [36] 和 SAN [28]。我们根据开源代码评估这些比较方法,所有这些方法都在相同的条件下进行训练和测试。对于我们的模型,基于五阶模型获得最佳结果。参考表IV-VI,我们详细给出了每个类的PSNR和SSIM值。通过数值分析发现,这些遥感影像类别中存在较大的多样性,显示了测试数据集的真实性和多样性。此外,表VII显示了每种方法在×2、×4和×8情况下对WHU-RS19和RSSCN7数据集的平均结果,表明我们的模型优于其他方法。跟关于×2和×4因素,尽管我们的方法获得的改进与SAN相比并不显着,但在×8因素下,我们的方法比SAN实现了0.08PSNR的改进。此外,参考表II,我们的方法不仅比SAN [28]快两倍多,而且还消耗了SAN近一半的GPU内存。因此,我们的方法在计算成本是要解决的主要问题的现实场景中有更多的机会。定性结果如图 7 和图 8 所示,分别对应于 ×4 和 ×8 个因子。我们标出不同方法之间明显区别的位置。在×4因素的情况下,只有我们的方法可以恢复正确和清晰的模式,而其他因素则受到不同程度的模糊的影响。作为定量和定性比较的一致性,它令人信服地证明了所提出的MHAN的优越性。

E)关于HOA的工作

我们提出的方法的核心思想是HOA模块,用于利用高阶统计信息。以恢复 LR 图像中缺失的细节。SAN [28] 中的二阶模块也是一个基于注意力的模块,主要通过特征值分解来探索特征图的二阶统计。为了验证我们的 HOA 的有效性,我们将 SAN 方法的二阶模块替换为 HOA 模块。参考表 VIII,我们可以发现,修改后的 SAN 不能产生比原始 SAN 更好的结果,低于三阶。但是,当阶数大于 3 时,修改后的 SAN 的结果优于原始 SAN,显示出高阶静力学的效果。此外,该实验还显示了所提出的HOA模块的通用适应性,这确实增强了网络的泛化能力。

F)真实图片的效果

在本节中,我们使用来自现实世界的遥感图像来测试我们方法的泛化能力。测试图像从互联网下载并作为LR输入图像拍摄。图 9 和 10 显示了结果×4和×8放大。我们可以发现,所提出的 MHAN 在实际场景中表现良好。

G)与其他基于遥感超分辨率方法的比较

在上述实验中,我们证明了所提出的MHAN在不同方面的优越性,例如模型大小和内存成本。但是,之前实验中的所有比较方法都是针对通用图像SR设计的。为了进一步验证MHAN的性能,我们纳入了一些特定于领域的SR方法进行比较。特别是,在本节中,有三种方法,使用 LGCNet [44]、WTCRR [50] 和 EEGAN [48];它们都是专门为遥感SR设计的。结果报告在表 IX 中,很容易发现我们的方法在所有比例因子的 Test30 数据集上实现了最佳性能。此外,我们在图 11 中进行了视觉比较。参考在同一图像上给出了不同方法的一些局部细节的放大区域,我们的 MHAN 重建了最准确的图像细节,没有太多模糊性,从而获得更好的视觉效果令人满意的结果。通过与领先的基于遥感 SR 的方法进行定量和定性比较,令人信服地证明了所提出的 MHAN 是解决遥感 SR 问题的可行方案。

结论

在本文中,我们提出了一种名为 MHAN 的新型遥感图像 SR 网络,通过将不同阶的 HOA 模块应用于具有不同频带的特征图来充分利用分层特征。与常用的 CA 相比,所提出的 HOA 模块能够对复杂的高阶统计数据进行建模。由于加权通道级联(WCC),CG和CB可以自适应地调整非线性和恒等映射分支之间的比率,从而扩展模型的表示能力。此外,还提出了 FAC 以有效地连接特征提取和特征细化网络。综合实验结果表明,与最先进的方法相比,我们的 MHAN 可以通过使用更少的运行时间和 GPU 成本提供更好的性能。

  • 25
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值