A Spectral Grouping and Attention-Driven Residual Dense Network for HyperspectralImage Super-Resolution
论文地址
1、论文
用于高光谱图像超分辨率的光谱分组和注意力驱动的残余密集网络
摘要
尽管基于卷积神经网络 (CNN) 的自然图像超分辨率 (SR) 取得了前所未有的成功,但由于高光谱维数,没有辅助高分辨率图像的高光谱图像 (HSI) SR 仍然是一项具有挑战性的任务,其中学习有效的空间和光谱表示非常重要。在本文中,我们介绍了一种新的基于 CNN 的 HSI SR 方法,称为光谱分组和注意力驱动的残差密集网络 (SGARDN),以促进所有光谱带的建模并专注于空间光谱特征的探索。
考虑到 HSI 的块特性,我们在早期阶段采用由高度相似的光谱带组成的组内和组间的组卷积来提取信息空间特征,避免正常卷积引起的光谱紊乱。为了利用光谱先验,设计了一种由特征的协方差统计构建的新光谱注意机制来自适应地重新校准特征。我们调整组卷积的光谱注意力,以使用整体光谱信息重新调整分组特征。这两个称为光谱分组和集成模块的顺序操作旨在提取有效的浅层空间光谱特征,这些特征可在后续层中重复使用。另一方面,通过实验比较,残差密集块可以更好地处理空间-光谱特征,因此与光谱注意力相结合,形成一个新的基本构建块,用于强大的特征表达和光谱相关性学习。合成和真实场景 HSI 的实验结果证明了所提出的方法相对于其他最先进方法的可行性和优越性。索引术语 - 卷积神经网络 (CNN)、群卷积、高光谱图像 (HSI)、光谱注意机制,超分辨率(SR)。
I. 简介
高光谱传感器在特定电磁频谱上的许多连续波段中获取同一场景的图像。生成的高光谱图像 (HSI)是一个具有高光谱分辨率的数据立方体,由一组记录不同波长的反射率或辐射率的图像组成 [1]。随着丰富和详细的光谱信息的可用性,HSI 在分类 [2]、[3]、目标检测 [4]、地质勘探 [5] 和环境监测 [6] 等各种应用中得到了广泛的应用。 ].然而,主要是由于到达每个窄光谱带的光子数量有限,HSI 通常在低空间分辨率下获得,无法捕捉到细节,这极大地阻碍了它们的实际应用。因此,许多努力致力于数字图像处理技术,该技术无需硬件修改即可从观测到的 HSI 中恢复空间细节,既经济又有效。 一般来说,提高 HSI 空间分辨率的主流方法是图像融合和单图像超分辨率(SR)。对于前者,需要相同场景的更高空间分辨率图像,例如全色图像(PAN)和多光谱图像(MSI),作为先验[7]-[10]。由于辅助配准图像在真实场景中可能不可用,这里我们将重点关注后者的进展,后者更灵活适用,无需额外数据。单图像 SR 是一种信号后处理技术,旨在从其低分辨率 (LR) 图像生成高分辨率 (HR) 图像。由于它是一个不适定的逆问题,传统的方法主要集中在利用有效的空间或光谱统计分布作为先验,例如全变分、稀疏正则化、低秩和自相似性来描述边缘和纹理[ 11]-[13]。然而,这些方法通常需要耗费大量时间才能获得良好的性能。目前,卷积神经网络 (CNN) 在自然图像(灰度和 RGB 图像)中取得成功后,在 HSI SR 中获得了越来越多的研究关注。开创性的工作 SRCNN [14] 证明了 CNN 在模拟 LR 和 HR 图像信息之间的复杂映射方面优于传统方法。然后主要通过增加网络深度进一步改进,这可以扩大感受野以利用更多上下文信息,从而允许复杂的建模。利用跳跃连接的网络的典型构建块,例如残差块 (RB) [15]、密集块 (DB) [16] 和残差 DB (RDB) [17],被广泛用于使网络适应更深的层次并确保SR的良好性能。
对于基于 CNN 的 HSI SR,最直观的想法是将用于自然图像 SR 的 CNN 以逐波段的方式直接应用于 HSI [1],[18]。然而,HSI SR 本质上比其自然图像对应物更具挑战性,主要有以下原因。
一方面,HSI的高光谱维数有助于反映被测对象的细微光谱特性,但增加了特征提取的难度。不考虑频谱相关性的带状方式会导致频谱失真 [19]。因此,最近的研究通过施加约束更加关注光谱保真度,例如光谱差异学习[20]、3-D卷积[19]和光谱角度损失[21]。同时对所有光谱带进行建模可能会阻碍 CNN 的表征能力。通过具有相同权重的正常卷积融合所有光谱带的局部空间信息可以在不区分光谱带差异的情况下导致光谱无序[3],[22]。
另一方面,HSI 的空间分辨率远低于自然图像。也就是说,HSI 可能会覆盖整个城镇的区域,而同样大小的自然图像则描绘了具有更高细节的单个物体 [18]。由于详细信息不足,这可能会影响结果的质量。充分探索网络架构的设计是影响性能以应对这一挑战的关键因素。
考虑到上述所有考虑因素,本文提出了一种用于 HSI 的新型端到端可训练 SR 网络,称为频谱分组和注意力驱动-残差密集网络(SGARDN)。以 3-D HSI 作为输入,光谱分组和集成模块(SGIM)旨在从早期的冗余光谱特征中充分提取信息浅层空间光谱特征,以提高重建能力。具体来说,首先对输入的LR HSI进行基于谱相关性的自动子空间划分。与组卷积一起,通过探索这些子空间内和之间的相关性来实现组内和组间特征提取。与以前的方法不同,通过正常卷积实现跨所有光谱带的交互,光谱注意机制被开发用于对特征进行分组,以通过使用整体光谱信息自适应地重新缩放特征来指导光谱集成。至于深度空间-光谱特征,几个配备光谱注意力的 RDB 被堆叠起来,以利用 HSI 的空间和光谱维度之间的相关性。我们探索了残差密集网络设计,用于在不同感受野下表征和组合丰富的空间光谱特征。构建块 RDB 通过共享和融合从多个前面的卷积层中提取的局部特征,使多样化和精细的特征表达能够处理挑战细节。为了灵活处理不同类型的信息,我们在 RDB 的局部残差学习之前进一步添加了光谱注意力,以选择性地强调信息部分,这可以利用全局空间光谱上下文来建模光谱相互依赖性,从而实现特征交互为重建做出不同的贡献。考虑到 HSI 的光谱相关性可以用相关系数来描述,上述光谱关注模块是通过利用特征的协方差统计量来利用整体早期阶段的光谱信息并探索中间层的光谱相关性。由于协方差是一种二阶统计,因此它能够比一阶统计(例如,最大值和平均值)学习更多的判别表示。在这个模块中,我们将深度卷积应用于协方差统计,以尊重其固有的结构信息,并自适应地为每个光谱带找到更合适的描述符。最后,聚合来自各个模块的特征,以充分利用分层特征并改善信息流。以下反卷积层完成并加速最终重建。
总而言之,本文的主要贡献可归纳如下。
1)提出了一种新的基于 CNN 的 HSI SR 方法。为了利用 HSI 的跨空间和光谱维度的特性,将配备强大光谱注意力的 RDB 构建为构建块,可以执行高级特征提取并探索光谱相关性。
2)考虑到低级特征对于重建的重要性, SGIM 旨在提取信息丰富的浅层空间-光谱特征。它不仅实现了组内和组间特征提取,还实现了光谱与整体光谱信息的集成。
3)为了更好地挖掘光谱先验以促进空间增强和光谱一致性,设计了光谱注意模块以自适应重新缩放通过使用将光谱相关性描述为光谱描述符的协方差统计来描述特征。我们将其适用于组卷积和 RDB,使网络能够在早期阶段利用整体光谱信息,并探索中间层的光谱相关性。
本文的其余部分组织如下。
在第二节中,我们在现有方法的背景下介绍了与我们的方法相关的基本概念。
第三部分详细描述了新提出的 SGARDN 方法。
网络结构分析和实验结果在第四节中介绍。
最后,第五节给出了结论。
III. 方法
在本节中,详细介绍了针对恒生指数SR的拟议SGARDN。它旨在通过充分探索LR图像ILR和HR图像IHR之间的空间光谱信息,学习参数为θ的端到端映射函数H(·),大小为h × w × c和rh × rw × c,
其中 h、w 和 c 分别表示高度、宽度和(光谱)通道数,r 表示比例因子。通过
ISR = H(ILR;θ)可以重构类似于IHR的超分辨结果ISR。
A.网络结构
如图3所示,SGARDN的架构主要由三部分组成:SGIM、residual dense spectral attention block (RDSAB)和final reconstruction (REC)子网。第一部分旨在提取信息丰富的空间-光谱特征 SSF0。输入的 LR 图像 ILR 是基于光谱相关性自动划分的子空间,并且在子空间中和子空间之间采用组卷积来进行空间特征提取。然后通过光谱注意机制和卷积层使用整体光谱信息重新校准这些分组特征。上述过程可以表述如下:
SSF0 = HSGIM(ILR) (2) 其中 HSGIM 表示组卷积、谱注意力和卷积的复合操作,其示意图如图 4 所示。
下一部分包含 N 个 RDSAB 在 SSF0 上运行以产生深度空间-光谱特征。具体地,第n个RDSAB的输出SSFn可以由
中 HRDSAB,n 代表第 n 个 RDSAB 的操作,它可以是由卷积、整流线性单元 (ReLU) 和谱注意力形成的复合函数。稍后将给出更多细节。由于不同级别的特征图之间存在互补信息,最后一部分首先连接前面模块中生成的分层空间 - 光谱特征,表示为[SSF1,. . . , SSFN ], 接着是1×1卷积和3×3卷积, 自适应控制输出信息的同时减少特征图的数量, 进一步进行全局残差学习, 得到融合的空间-光谱特征SSF, 用于最终重建如下:
其中 HREC 由反卷积层和卷积层组成,可以随比例因子变化。例如,×4 网络有两个连续的反卷积层。
最近的工作通常采用反卷积 [41] 或亚像素卷积 [42] 作为后放大策略来学习一组放大滤波器,而不是使用固定插值的预放大策略,通过在 LR 中执行 SR 来实现更高的性能,同时以二次方式降低计算成本空间。 subpixel convolution通过将像素沿通道维度映射到空间域来重新排列元素,以增加指定比例因子的尺寸,即需要生成r 2 c feature maps。由于 HSI 的高光谱维数,这将是巨大的。因此,我们利用反卷积进行放大,这被认为是卷积的逆运算。
B. 频谱分组和积分模块
早期阶段的低级特征对网络很重要,因为它们被后续层重用。也就是说,有效的低级特征可以促进重建能力。正是出于这个原因,我们设计了用于浅层空间光谱特征提取的SGIM。该模块如图所示。4、由组内和组间特征提取和注意力引导光谱积分两部分组成.
1)组内和组间特征提取:由于具有高光谱维数的HSI包含大量冗余信息,因此将其划分为适当的子空间以更好地提取特征是明智的。通常的做法是根据相关系数表示的光谱相关性特性实现这种划分,如下所示:
其中i,j表示波段索引,上标,E分别表示均值和数学期望。根据(5),可以得到所有光谱带的相关矩阵 R ∈ Rc×c,从中可视化[图。 2(a)]块状特征明显。然后,我们按照 [43] 来实现基于相邻频带局部相关性的连续性和可传递性的自动子空间划分。具体来说,将 (c-1) 个相邻可传递相关系数的局部最小值用作阈值 [例如,图 2(b) 中有两个局部最小值]。因此,ILR 被细分为 G 子空间,写为
其中括号 [· · · ] 指本文中的操作。(6)串联ILR − ILR ILR − ILREach子空间通常具有不同的维数,但内部性质相似。为了充分利用子空间内的空间特征,该文采用群卷积GC1,其中每个子空间对应于独立的卷积
从群的角度来看,相邻群在某种程度上仍然具有紧密的联系,因此群卷积GC2进一步致力于两个顺序分组特征的串联。它支持组间交互以进一步提取信息丰富的空间特征。同时,它减少了特征图的冗余和后续操作的计算成本
其中第 g 个分组特征 F0g 是由 GC2 在两个相邻组的串联特征上的第 g 个独立卷积生成的。
请注意,特征 F0 中总共有 G − 1 个组。
此外,正常卷积对输入的所有光谱带进行求和,因此光谱依赖性隐式嵌入到特征图中,这将不利于 HSI 建模,因为如图 2(a) 所示,距离较远的波段有明显的区别。因此,普通卷积会通过一次处理所有光谱带而导致光谱无序,这可以通过组卷积来避免。
2)注意引导的光谱集成:为了光谱完整性,有必要访问整体信息所有光谱带。上面说了,普通卷积可以融合各个光谱波段的特征,但是光谱乱序是不可避免的。因此,注意力机制被用来重新校准具有整体图像信息的特征。在通用管道之后,有两个步骤,即挤压和激发,分别生成光谱描述符和捕获频带依赖性。图 4 的右侧显示了我们用于对特征进行分组的注意模块的示意图。
由于组内的特征是根据 HSI 的局部属性获得的,我们首先使用卷积进行全局自适应池化 AptPool 以生成每个组的代表性特征图嵌入局部光谱信息。它同时实现了降维,显着降低了后续操作的计算复杂度。所有组共享相同的参数以使聚合特征位于相同的语义嵌入空间
请注意,沿光谱维度的全局自适应池独立地对每个组进行操作以获得代表性特征 F0’∈Rh×w×(G−1)。然后我们探索协方差矩阵,它揭示了光谱带之间的相互关系和具有较强的建模能力和更多的判别表示
其中 COV 计算成对谱协方差以形成协方差矩阵 c ∈ R(G−1)×(G−1),其中的每一行表示特定波段与所有光谱波段的统计依赖性。与 [37] 类似,然后将协方差矩阵重塑为 3-D 张量 c ∈ R1×(G−1)×(G−1),这意味着 1×(G −1) 特征图具有 (G −1)简化后续操作的渠道,然后进行逐行规范化保持数据的顺序。
深度卷积 Convdepth 对协方差矩阵进行运算以生成光谱描述符 z ∈ R1×1×(G−1)。具体来说,它根据固有结构信息对每个波段应用大小为 1×(G -1) 的单个滤波器,可以自适应地为每个波段找到更合适的描述符,这与固定平均池化
为了从 z 中聚合的信息中完全捕获光谱依赖性,使用具有非互斥激活函数 sigmoid σ 的卷积 W 将描述符投影到每个组 w = σ 的权重 w ∈ R1×1×(G−1) 上
(12)最后,权重w和相应的分组特征F0之间的通道乘法得到SSF-1,由于与整体光谱信息的联系,它可以被看作是浅空间光谱特征。 SSF-1 用于稍后的全局残差学习以传递丰富的低级特征,这已在[44]中被证明是有效的。然后,我们生成浅层特征 SSF0,以通过 1×1 卷积进一步提取深度特征,从而实现特征交互并减少特征图的数量。
C.残余密集光谱注意力块
如图所示。3(红色虚线框中的内容)和图。5、提出的RDSAB将频谱注意力机制集成到RDB中,可以执行高级特征提取,受益于跳过连接。我们还通过实验表明,与IV-B节中其他常用的块相比,RDB可以更有效地处理空间光谱特征。当前RDSAB中的每个卷积层不仅可以访问所有后续层,还可以访问先前RDSAB的输出,从而产生连续的内存机制[17]。由于感受野的大小与深度成正比,因此堆叠了一组RDSAB,用于学习不同感受野下的分层空间光谱特征。第n个RDSAB的第l个卷积层的输出SSFln可以表述如下:
其中 Hl RDSAB,n 表示卷积操作,后跟 ReLU 激活函数。将 K 表示为增长rate,即每个卷积层产生的特征图的数量。第 n 个 RDSAB 的输出有 K0 个特征图。 RDSAB 中的密集跳跃连接实现了长期依赖并增强了特征传播,而特征图的串联结合了不同级别的特征,从而增加了后续层中输入的变化以提高重建性能 [45]。连接前面层的所有特征图将为后续层产生许多输入,因此减少特征图的数量至关重要。第 n 个 RDSAB 的本地融合输出 SSFnF 可以通过
其中 H F F 表示与 1 × 1RDSAB,n 卷积的特征融合。这是一种常见的操作,可以提高模型的紧凑性,同时自适应地保留更多有用的空间-光谱特征。这里,我们主要关注三个问题。首先,卷积核对所有类型的信息一视同仁,这会限制重建能力,因为很难在丰富的低频信息中区分有价值的高频空间细节[35]。其次,卷积核仅表达局部接受域内的连接模式,缺乏足够的上下文信息。第三,由于光谱信息对 HSI 具有重要意义,因此不能忽视对光谱相关性的全面探索。因此,我们将光谱注意力集成到 RDB 中,以帮助通过整体信息识别代表性部分。协方差统计被认为是光谱相关学习的光谱描述符。它本质上与前面提到的用于分组特征的光谱注意力相同。具体来说,我们计算成对光谱相关性以获得协方差矩阵 cn ∈ RK0×K0,然后在归一化协方差矩阵上使用深度卷积以在挤压过程中自适应地生成光谱描述符 zn ∈ R1×1×K0。我们应用门控机制通过在激励步骤中完全捕获带向依赖性来生成权重 wn ∈ R1×1×K0。门控机制是一个瓶颈,两个全连接层围绕着非线性
其中δ和σ分别指 ReLU 和 sigmoid 函数。WD 是一个降维层,具有减速比16,而WU是增维层。然后,利用这些权重通过通道乘法对局部融合输出SSFnF进行重标,得到SSFnA,最后,局部残差学习进一步提高了信息流和网络表示能力。第n个RDSAB的最终输出SSFn可以通过以下公式获得
D. 损失函数
总共 N 个训练图像的第 i 个,我们最小化以下 LR HRi 平均绝对误差 (MAE):
值得注意的是,尽管默认的均方误差(MSE)损失函数有利于峰值信噪比(PSNR),但它存在一些限制[46],例如收敛和过度平滑的问题。因此,我们采用 MAE 损失而不是 MSE 损失进行训练。为了确保光谱的一致性,有一种流行的方法可以同时最小化重建光谱和真实光谱之间的光谱角[21],如下所示:
其中上标 j 表示每个图像的总 NS 光谱向量的第 j 个。我们用 L 1 训练我们的网络,并分别与 L 1 和 L 光谱联合,其中存在平衡因子 λ。第 IV-B 节提供了对这种比较的评估。
四、实验
在本节中,我们对网络结构进行了深入的实验分析,并在合成数据集和真实场景数据集上与其他最先进的方法进行了比较,以验证所提出方法的性能。一般信息
1、 数据集:所提出方法的性能在合成和真实场景 HSI 上进行了评估。对于合成的 HSI,使用了 CAVE 数据集 [47],该数据集包含 32 个各种现实世界材料和物体的场景。在受控照明下,每幅图像具有 512 × 512 像素和 31 个波长范围为 400 nm 至 700 nm 的光谱带。我们随机选择四张图像进行评估,其余图像用于训练(选择 10% 的训练补丁对构成验证集)。真实场景 HSI 来自帕维亚中心和 Chikusei [48] 遥感数据。前者是通过反射光学系统成像光谱仪 (ROSIS) 传感器在意大利北部帕维亚上空的飞行活动中获得的。它包含 1096 × 715 个有效像素,具有几何丢弃无信息样品后分辨率为1.3 m,去除吸水带后分辨率为102条带。我们选择一个大小为 150×150 的具有丰富细节的原始区域,类似于 [19] 中的设置,以验证性能。后者是由 Headwall Hyperspec-VNIR-C 成像传感器在 Chikusei 的农业和城市地区拍摄的,日本茨城县。它包含2517×2335像素,128个波段,光谱范围为363~1018 nm,地面采样距离为2.5 m。按照[48]中的实验设置,我们提取了4个512×512×128像素的非重叠区域来形成测试数据,其余区域用于训练。以上三个数据集被认为是高空间分辨率的ground-truth HSIs,而 LR HSIs 是通过双三次下采样(opencv-python 函数调整大小)模拟具有不同缩放因子的原始 HSIs。
2)评估标准:利用三种流行的评估标准在空间和光谱方面全面验证所提出的方法.为了评估图像级别每个光谱带的空间重建质量,采用 PSNR 和结构相似性 (SSIM) 指数 [49]。前者描述基于 MSE 的相似性,而后者衡量结构一致性。我们使用它们在所有光谱带上的平均值作为整个 HSI 的空间质量指标。关于像素级每个光谱的光谱重建质量,利用了 SAM [18]。它通过计算重建的 HSI 的光谱矢量与地面实况的光谱矢量之间的角度来评估光谱保真度。我们还使用所有像素的 SAM 平均值作为整个 HSI 的光谱质量指标。给定一个真实HSI X∈RB×P包含具有B光谱波段的P像素和一个重建的X,这些评估标准可以定义如下:
其中 xi ∈ RP×1 和 xj ∈ RB × 1 分别是第 i 个波段图像和第 j 个像素的光谱向量。 max为最大操作,μ表示均值,σ表示方差或协方差。 c1和c2是两个常数,避免分母接近0时不稳定。<·>表示两个向量的点积,|| ·||2表示l2范数操作。一般来说,PSNR和SSIM的值越大,空间质量越好,而SAM的值越小,光谱失真越小。
3)竞争方法:七选择策略作为比较的基线:Bicubic、SRCNN [14]、SRDenseNet [16]、RDN [17]、3DFCNN [19]、GDRRN [21] 和 SSPSR [48]。其中,Bicubic是经典插值法; SRCNN、SRDenseNet 和 RDN 是最先进的基于 CNN 的自然图像 SR 方法,更具体地说,这些方法代表了不同层次的深度(从几层到一百多层)和网络结构(普通结构或跳过连接); 3DFCNN、GDRRN 和 SSPSR 是最近为 HSI 设计的基于 CNN 的成功 SR 方法。为了使自然图像 SR 的 CNN 适合 HSI,采用了逐带方式。也就是说,我们将 HSI 视为一系列独立的灰度图像。所有竞争方法都是通过公开发布的代码实现的。为了公平起见,我们遵循相应论文中的网络设置,并使用相同的训练集对它们进行训练,直到损失收敛。具体来说,SRCNN有3个卷积层,核大小分别为9×9×64、1×1×32、5×5×1。 SRDensenet 使用八个 DenseNet 块,增长率为 16,产生 64 个卷积层。 RDN 有 16 个 RDB,每个 RDB 有 8 个卷积层,每个卷积层有 64 个过滤器。 3DFCNN由四个卷积层组成,内核大小分别为9×9×7×64、1×1×1×32、1×1×1×9和5×5×3×64。请注意,由于 3DFCNN 会改变光谱波段的数量,因此我们通过复制第一个和最后几个波段来扩展原始波段作为输入。 GDRRN有九个递归块,其中每层的核大小为3×3×128。注意递归块中的原始卷积层被替换为组卷积(组数为2)以减少更多参数。 SSPSR的分支网络和全局网络分别具有三个空间-光谱块,除块内的光谱残差模块外,每层的核大小为3×3×256。为了直观理解,我们在图 16 中显示了网络参数的比较。
4)实现细节:在我们提出的网络中,除非另有说明,否则卷积层的内核大小为 3 × 3,并且零填充用于保留所有特征大小相同的地图。每个 RDSAB 的输出是 128 个特征图。稍后将通过实验研究基本参数。权重由 [50] 中提出的方法初始化。使用默认设置的 Adam 优化器 [51] 优化网络。在每个训练批次中,考虑到网络的规模,我们从训练图像中随机提取 32 个大小为 32×32×c 的 LR HSI 块作为输入。我们通过水平或垂直翻转并旋转 90° [17] 来随机增加补丁。初始学习率设置为 1 × 10-4,每 100 个 epoch 减半,而在真实场景 HSI 上固定为 5×10-5。我们在 NVIDIA RTX 2080Ti GPU 上使用 TensorFlow 框架实施建议的网络。
B. 网络结构分析
1)基本构建块的研究:请注意,这里的RDB没有连续内存机制进行公平比较,DB和RDB之间的唯一区别是局部残差学习。我们构建了五个架构相同的网络,这些网络具有大致相同数量的参数,但由不同的块堆叠,这些块将整个3D HSI作为输入。从表 I 的前三行,我们可以验证CNN 中常用的基本块的能力。 RB 在空间和光谱标准上都比其他的表现差,这表明密集连接更适合处理空间-光谱特征。当将局部残差学习添加到 DB(即 RDB)时,性能进一步大幅提升。这与我们在第 III-C 节中的分析一致。表 I 的最后两行显示了注意机制的效果。 RDB_SE 和 RDB_SA 分别表示配备挤压和激励块 [30] 的 RDB 和我们提出的频谱注意力。我们发现注意力机制有利于重建,并且通过考虑频谱相关性,所提出的频谱注意力优于经典的 HSI 挤压和激励块。
2)参数分析:在本节中,我们给出了选择的合理推理通过各种实验的参数。拟议网络涉及的基本参数包括RDSAB的数量(简称N)、每个RDSAB的卷积层数(简称L)、RDSAB的增长率(简称K),以及组卷积的过滤器数量(简称为 G F)。网络的深度主要取决于N和L,而网络的宽度主要取决于K和GF。从现有文献来看,这些变量的个数过少或过大都不利于网络的性能。因此,我们通过控制一个变量和其他变量固定在比例因子×2 的帕维亚中心数据集上,在合理的范围内验证它们的效果。如图 6 所示,我们显示了空间和光谱重建中不同设置的训练过程曲线。总体而言,较大的 N 、 L 、 K 或 GF 会导致 PSNR 和 SAM 标准中的性能更好。这主要是因为更深更广的网络可以利用更多层次特征并允许更多信息通过。具体来说,我们发现 N、L 和 K 对性能的影响是有限的。例如,可以明显观察到非常窄的层(即 K = 16)可以收敛到与较大的 K 几乎相同的状态。这可能是由于高光谱训练样本稀缺,并且模型具有大容量不可避免地容易过度拟合,尽管它可以模拟更复杂的映射。相反,较大的 GF 可以获得明显优越的结果,并且 GF 对网络性能的影响更大,这表明变化的低级特征对于 HSI 重建的重要性。鉴于以上,我们在其余实验中设置N=4,L=6,K=16,GF=128。
- Ablation Investigation:表 II 显示了对 SGIM 和光谱注意模块的影响的消融调查。粗体表示最佳性能。与 SGARDN 相比,SGARDN_NSG 将 SGIM 替换为参数数量相似的普通卷积层。具体来说,SGIM 采用三个卷积层来提取浅层特征,其中两个是 3×3 组卷积用于组内和组间特征提取,其余是 1×1 卷积。类似地,SGARDN_NSG 在浅层特征提取中采用两个 3×3 卷积和一个 1×1 卷积以进行公平比较。由于它将输入视为一组,因此使用普通卷积而不是组卷积。 SGARDN_NSA 移除了光谱注意力模块,而 SGARDN_NSGA 则没有这些模块。这四个网络具有相同的 RDB。我们看到基线 (SGARDN_NSGA) 相对成功,这表明将 3-D HSI 作为输入而不是一堆 2-D 波段图像使网络能够自动学习光谱相关性以及 RDB 对空间的有效性-光谱特征探索。当采用 SGIM 或光谱注意力(表 II 的中间两行)时,与基线相比,它们在所有标准上都取得了收益,尤其是在光谱一致性方面。我们可以验证每个模块都可以利用光谱相关性来实现更好的空间和光谱重建。当这些模块组合在一起时(即 SGARDN),性能会进一步大幅提升。这表明这些模块在同时学习有效的空间和光谱表示方面是互补的。所提出的光谱注意模块通过引入协方差变换(COV)和深度卷积(Convdepth)改进了常用的一种。表 III 显示了这两项改进的效果。更具体地说,基线(第一行)是通过一阶通道注意力获得的,使用特征图上的全局平均池来生成通道描述符。然后我们添加协方差变换,但使用协方差统计的平均池化来生成通道描述符(第二行)。我们进一步向基线(第三行)添加两个组件,即使用协方差统计上的深度卷积来自适应地生成通道描述符。我们可以验证这些组件可以有效地提高基线的性能。这主要是因为协方差变换可以探索光谱相关性并捕获比一阶池化更多的判别表示,而深度卷积可以从协方差统计中自适应地找到比固定平均池化更合适的光谱描述符。此外,我们证明了全局层次特征融合。通过删除 N RDSAB 之间的跳过连接,网络因此不可能连接所有级别的功能,表示为 SGARDN_NFF。我们通过使用 GF = 64 报告了 SGARDN 和 SGARDN_NFF 在帕维亚中心数据集上的 2× SR 的结果,因此它们具有大致相同数量的参数。在 PSNR/SSIM/SAM 中观察到改进(33.91/0.9952/3.9295 对比 34.05/0.9954/3.9220)。这表明 SR 重建性能可以通过分层特征的组合来提高,这在 [16] 和 [17] 中也被证明是有效的。
4)损失函数:MAE 损失函数和联合损失函数具有不同平衡因子的网络分别用于训练我们的 SGARDN。定量比较如表四所示。值得注意的是,联合训练的性能随平衡因素而变化。基于 SAM 准则的额外频谱损失可以进一步降低 SAM 的值,但是以空间性能为代价(PSNR 值的下降)。由于平衡的存在控制空间和光谱约束贡献的因素,需要不断调整以获得更好的结果。此外,当损失函数很复杂时,训练网络变得很重要。因此,我们在其他实验中仅使用 MAE 损失来训练网络。
C. 与现有技术的比较
- 来自 CAVE 数据集的合成 HSI 实验:表 V 列出了具有不同比例因子的定量结果。据观察,对于 CAVE 数据集中的所有情况,我们提出的 SGARDN 明显优于所有其他具有最佳 PSNR、SSIM 和 SAM 值的竞争方法。当比例因子变大(例如,×4 和×8)时,我们的方法仍然比竞争方法具有类似的优势,竞争方法的领先优势一直在快速缩小,因为 SR 过程可用的视觉信息较少。基于自然图像CNN的方法的定量比较表明,随着深度的增加,性能会更好。这是因为更深层次的网络可以显着提高所学表征的质量。至于基于 CNN 的 HSI SR 方法,由于模型容量的限制,3DFCNN 和 GDRRN 仍然难以取得优异的结果。 SSPSR 采用空间光谱块,由 RB 和光谱注意模块组成,因此可以很好地利用空间光谱信息(它比 3DFCNN 和 GDRRN 取得了更好的结果)。另一方面,CAVE 数据集中的 HSI 比真实场景 HSI 具有更精细的空间质量和更少的光谱带,更类似于自然图像。这就是为什么用于自然图像 SR 的 CNN 仍然运行良好的原因。值得注意的是,我们的方法在更小的深度上取得了与 RDN 相当的结果,这表明充分利用 HSI 特性使网络具有巨大的潜力来促进 HSI SR 的进程。上述定量分析也是由图中显示的定性结果支持。 7-9。在空间方面重建后,与其他竞争方法相比,所提出的方法产生了更锋利的边缘,没有明显的伪影。无花果。图7放大由红色矩形标记的相同区域,以分别显示来自CAVE数据集的两个测试图像的超分辨率输出的更多详细信息。可以看出,所提方法重建了更准确的结果,如左侧文本细节和右侧玻璃砖连接图案等,而其他方法未能还原这些信息。请注意,虽然RDN为假柠檬图像和真柠檬图像产生视觉上吸引人的输出,与其他方法一样,玻璃砖图像存在问题。这可能是由于图像的细节复杂,以及训练集中缺乏类似的纹理结构。对于光谱重建质量,我们将SAM可视化,以直观地显示图中每个光谱在像素级的一致性。8. 我们可以发现,我们提出的方法实现了最佳的光谱保真度,而其他竞争方法则会导致一些明显的光谱失真。由于SAM仍然有一些局限性[52],我们在图中显示了一些光谱曲线。9 作为补充。结果表明,所提方法比其他方法更能保留光谱特征,因为所提方法重建的光谱更接近相应的真实值。
2)帕维亚中心数据集的真实情景HSI实验:帕维亚中心的定量和定性结果显示在表VI和图中。分别为 10−12。我们有以下几点看法。如表VI所示,我们提出的方法在不同比例因子下的所有评价标准中均优于其他方法。
与CAVE数据集的结果相比,在帕维亚中心数据集上,用于自然图像SR的CNN不再比基于CNN的HSI SR方法具有优势。这可能是由于以下原因:首先,它们无法同时应对真实场景HSI的详细信息不足和光谱维数非常高的问题;其次,由于容量大(例如RDN),它们容易过度拟合。相反,考虑频谱相关性(例如,3-D卷积,SAM损失和空间光谱块)可以为基于CNN的HSI SR方法(即3DFCNN,GDRRN和SSPSR)带来更好的结果。为了评估感知质量,图。图10显示了帕维亚中心测试区域的超分辨率输出,并放大了由红色矩形标记的相同区域以详细显示。所提出的方法产生了更逼真的视觉结果,例如一些小物体,而其他竞争对象则相互竞争方法无法恢复这些细节。关于频谱,图。图 11 和 12 分别展示了 SAM 标准的可视化和选定像素的光谱分布。在现有方法的重建结果中发现了一些光谱失真,而我们的方法生成的光谱曲线与参考更加一致。
- Experiments on the Real-Scenario HSI From Chikusei Data Set: 我们进一步在 Chikusei 数据集上进行了实验验证所提出的方法在来自不同传感器的真实场景 HSI 上的性能。如上所述,用于自然图像 SR 的 CNN 在 HSI SR 中相对较差。因此,我们简单地选择两种稳定的方法(即 Bicubic 和 3DFCNN)和最新的高级方法(即 SSPSR)进行比较。从表 VII 中的定量结果来看,我们提出的方法在空间和光谱测量方面的性能明显优于其他竞争方法。可以看出,我们的方法的平均 PSNR 比 Bicubic 大 1.21 和 0.87 dB,而平均 SAM 分别比 Bicubic 的 3× 和 4× 比例因子小 0.40 和 0.50,这表明我们的模型在空间和光谱重建中对于较大的比例因子仍然表现良好。图。图 13 显示了三次重建 HSI 的视觉展示。 Bicubic插值和3DFCNN的结果类似,都是模糊的。 SSPSR 可以恢复一些细节,但仍然会产生模糊的边缘。相比之下,我们的具有更清晰的特征边界并且几乎恢复了道路的全部细节。在无花果。在图 14 和 15 中,我们将 SAM 准则可视化并在不同区域显示一些光谱曲线,以直观的方式比较 HR 和 SR 图像之间的光谱相似性。我们可以看到,所提出的方法获得了较低的光谱误差结果和更接近相应地面实况的光谱曲线,这表明我们的方法很好地保留了光谱信息。
4)模型参数和运行时间:我们展示了重建性能(在PSNR 项)与 Pavia 中心数据集上的网络参数数量和运行时间(10 次评估的平均值)对于无花果中的 2× SR。分别为 16 和 17。与最先进的方法(即 SSPSR 和 RDN)相比,拟议的 SGARDN 实现了最高质量,同时保持了具有竞争力的参数数量。 SSPSR 采用宽残差网络,每个卷积层有 256 个过滤器。 RDN 有 16 个 RDB,每个 RDB 有 8 个卷积层,每个卷积层有 64 个过滤器,从而形成一个具有大量参数的非常深的网络。因此,它们很难稳定训练过程,并且由于容量大而容易出现过度拟合。相反,由于模型容量的限制,方法(例如 3DFCNN 和 GDRRN)很难取得优异的结果。我们使用 2.20 GHz Intel Xeon Silver 4210 CPU(64- GB 内存)和 Nvidia GeForce RTX 2080Ti GPU。如图 17 所示,我们的 SGARDN 的速度比除 GDRRN 之外的所有竞争方法都快。由于自然图像 SR 的 CNN 是以带状方式应用的,我们将批量大小设置为光谱波段的数量,以同时实现所有波段的 SR。因此,它们在处理 HSI 的速度上没有优势。值得一提的是,3DFCNN的速度主要受限于以下两个原因。首先,3DFCNN 从插值的 LR 图像中提取特征(即在 HR 空间中执行 SR 操作),这增加了计算复杂度二次方。其次,3-D卷积的计算复杂度非常大。例如,3-D 卷积的滤波器和输出都比 2-D 卷积多一维(假设它们分别为 K 和 T)。因此,3-D卷积的运算次数是2-D卷积的K×T倍。进一步讨论一般情况下,真实场景HSI的某些频段经常由于传感器故障和大气干扰等原因而遭受严重的退化问题。如图1和图2所示。 18日和19日,Pavia Centre第一波段和Chikusei第三波段受各种噪声污染严重,难以区分各种地物。双三次插值重建结果模糊且过于平滑。虽然其他竞争方法可以在一定程度上提高空间分辨率,但它们仍然存在与 Bicubic 插值相同的问题。然而,SGARDN 可以恢复细节并去除整个图像的噪声,从而产生具有视觉吸引力的输出。我们推测这是因为我们的方法可以利用来自相邻波段的互补信息来处理严重退化的波段,并超越不利于通过光谱注意机制重建的特征。同时,根据上述第 IV-C 节的分析,SGARDN 可以很好地保存光谱信息。因此,我们相信我们的方法在 HSI 的联合去噪和 SR 方面很有前途。
五、结论
在本文中,我们提出了一种新颖的基于 CNN 的 HSI SR 方法。所提出的体系结构将频谱分组策略和频谱注意机制结合到剩余密集网络设计中。这种与 HSI 光谱相关性相关的分组策略有助于对所有波段进行建模。通过这种方式,通过组卷积有效地提取了信息空间特征,同时缓解了光谱紊乱。我们在光谱注意力的引导下进一步整合早期阶段的整体光谱信息,以进行更具代表性的特征学习。残差密集网络设计用于表征深层空间-光谱特征并结合层次特征。当配备来自协方差统计的光谱注意力时,它可以实现光谱相关和判别特征学习以提高重建性能。充分的消融研究验证了每个模块在空间分辨率增强和光谱一致性方面的有效性。所提出的 SGARDN 在合成和真实场景 HSI 上的进一步实验结果在评估标准和视觉效果方面优于竞争方法。
在未来的工作中,我们将研究更有效的学习结构(例如,半监督和无监督学习),以处理有限数量的训练样本和不同传感器获得的HSI的差异。