【论文阅读】HPRN: Holistic Prior-embedded Relation Network for Spectral Super-Resolution


论文地址

1、论文
2、源码


摘要

光谱超分辨率 (SSR) 是指从 RGB 对应物中恢复的高光谱图像 (HSI)。由于 SSR 问题的一对多性质,单个 RGB 图像可以重新投影到多个 HSI。解决这一不适定问题的关键是插入多源先验信息,如RGB图像的自然空间上下文先验、深度特征先验或HSI的固有统计先验,以有效减轻不适定程度。然而,目前大多数方法仅考虑其定制的卷积神经网络 (CNN) 中的一般和有限先验,这导致无法保证重建光谱的置信度和保真度。在本文中,我们提出了一种新的整体先验嵌入关系网络 (HPRN) 来集成综合先验以规范和优化 SSR 的解决方案空间。基本上,核心框架由多个多残差关系块 (MRB) 精心组装,充分促进了 RGB 之前低频内容的传输和利用。创新地,引入RGB输入的语义先验来标记类别属性,并发明了语义驱动的空间关系模块(SSRM)来执行聚类相似范围的特征聚合,以细化恢复的特征。此外,我们开发了一个基于transformer的channel relation module(TCRM),打破了以往deep feature prior中使用标量作为channelwise relations描述子的习惯,代之以特定的向量,使得映射函数更加鲁棒和平滑.为了保持数学相关性和光谱将高光谱波段之间的一致性、二阶先验约束(SOPC)纳入损失函数以指导HSI重建。最后,在四个基准上的大量实验结果表明,我们的HPRN在数量和质量上都可以达到SSR的最高性能。此外,通过遥感数据集上的分类结果验证了重建光谱的有效性和实用性。代码可在 https:/github.com/Deep-imagelab/HPRN

关键词 — 整体先验嵌入关系、多残差、二阶先验约束 (SOPC)、语义驱动、规范超分辨率 (SSR)、基于变压器的通道关系模块 (TCRM)。

一、介绍

超光谱成像可以覆盖比普通 RGB 相机更广泛的电磁波谱范围 [1]。捕获的高光谱图像 (HSI) 通常包含大量光谱带。如此丰富的光谱信息反映了物体的内在属性,促进了 HSI 在遥感 [2]、[3]、[4]、图像超分辨率 [5]、[6]、医学诊断 [7]、[7] 等领域的快速应用。 8]、图像分类 [9]、[10]、[11]、[12]、图像去噪 [13] 和解混 [14] 等等。然而,目前的高光谱成像技术从硬件角度来看存在一些实际瓶颈,这些瓶颈对高质量 HSI 的获取很敏感。通常,获得具有更高光谱分辨率的 HSI 立方体不可避免的损失是时间分辨率较差,例如扫帚和推扫式扫描 [15]、[16],或者空间分辨率较低,例如基于变量的集成设备-过滤器设计[17]。这种权衡在于这些类型的设备必须在一维或二维扫描模式下运行才能获取 3 维数据。以牺牲适度的空间或光谱分辨率为代价,快照 HSIs 成像的最新进展可以完成高光谱视频拍摄,这只能满足粗粒度的应用分析 [18]、[19]、[20]、[21]。此外,这些相关的成像设备不可避免地需要承担昂贵的硬件开销和负担。针对上述硬件因素的不足,研究人员将精力转向软件角度来挖掘解决方案,例如计算机断层成像光谱仪[28] 、压缩传感技术 [29] 和多路照明 [30]、[31]、[32]、[33]。然而,这些解决方案有时依赖于特殊环境,需要大量的后处理计算才能恢复完整的光谱特征。
后来,一些稀疏编码方案被提出来直接利用单个 RGB 图像来恢复相应的 HSI[34]、[35]、[36]。通过利用 HSI 的统计稀疏先验,他们首先构建了一个超完备字典,然后将光谱重建视为从 RGB 图像到 HSI 的线性变换。有利的是,这些算法不仅创造了一种获取 HSI 的便捷方式,而且还大大降低了从 HSI 成像设备到 RGB 相机的硬件成本。不幸的是,从 3-D RGB 信号预测高维光谱刺激是一种极其不适定的转换。因此,仅在 RGB 到 HSI 转换中涉及简单和手工制作的稀疏先验,这种稀疏编码方式不能保证生成光谱的真实性和可行性。更重要的是,线性变换不足以表征欠定光谱超分辨率(SSR)问题的假设空间。

近年来,深度 CNN 在 SSR 任务中得到了广泛的应用 [22]、[23]、 [37]、[38]、[39]、[40]。为了促进SSR技术的发展,图像恢复和增强新趋势(NTIRE)在2018年[41]和2020年[42]组织了两次SSR竞赛,其中提出了许多基于CNN的高光谱恢复方法[24]、[25]、[26]、[27]、[43]、[44]、[45]。通过从 RGB-HSI 对的数据集中提取抽象的深度特征,这些方法学习了 RGB 输入和 HSI 对应物之间的端到端非线性映射。与之前稀疏字典学习的线性过渡相比,基于 CNN 的算法可以大大提高估计光谱特征的精度。
然而,当前基于 CNN 的模型仍然存在一些缺点。特别是,大多数 CNN 技术几乎只探索 RGB 输入的一般上下文先验,并通过自定义网络先验学习隐式深度特征。由于考虑了通用的和有限的先验,这些网络只能在一定程度上减轻这个不适定问题的冗余,并从许多替代结果中提供可接受但精度相对较低的恢复谱。在此基础上,还有一些模型将更高级的深度特征先验引入 SSR,例如某些注意力模块 [27]、[46],以提高 CNN 的学习能力并从 RGB 输入到恒指输出。然而,现有的基于注意力的模块通常采用全局平均标量作为通道挤压器,这可能无法表征整个通道信息,因为全局平均很容易被背景杂波分散注意力。此外,这些方法很少进一步结合潜在的和优越的先验知识,例如 RGB 输入的语义先验和 HSI 的内在统计先验,使得 SSR 性能仍然有限。此外,还有一些SSR研究整合了已知的相机光谱灵敏度先验[47],[48],但这种先验在现实中并不总是可用的。

针对上述问题,我们充分利用多源先验信息对于 SSR,并提出了一种新颖的整体先验嵌入关系网络 (HPRN)。
• 具体来说,主干是通过几个重复堆叠的多残差关系块 (MRB)。受益于这种多残差连接范式,RGB 图像的低频上下文先验通过深度网络得到充分利用。
• 此外,语义驱动的空间关系模块 (SSRM) 在所呈现的 HPRN 的尾部进行了创新设计。以 RGB 输入的嵌入语义先验作为解析 HSI 的类别索引,该模块可以使用基于语义的关系矩阵对相似光谱特征进行特征聚合。这种 SSRM 可以选择性地模拟类别一致模式的相关学习,同时减少对差异模式的关注,从而进一步有效地提高重建光谱的质量。
• 此外,我们研究了基于变换器的通道关系模块 (TCRM),它利用某些向量而不是标量作为通道关系的挤压器来提取特征相互关系。结合 transformer 风格的特征交互,我们的 TCRM 可以使映射函数更加健壮,潜在地规范和平滑一对多解决方案空间。
• 注意,HSI 的波段相关性是由高光谱成像原理确定的固有且不可忽略的先验。为了加强高光谱波段统计相关性和光谱连续性,将二阶先验约束(SOPC)作为辅助项添加到损失函数中以辅助网络训练过程。
在这里插入图片描述

四个流行的 SSR 基准的实验结果表明,我们的 HPRN 可以在数量和质量上达到最先进的性能。同时,遥感数据集的分类结果验证了重建光谱的有效性和实用性。如图 1 所示,我们的 HPRN 可以获得比其他高级 SSR 方法更好的视觉质量和更少的重建错误。

本文的主要贡献可归纳如下。
1) 我们提出了一种用于 SSR 的新型 HPRN。多源和丰富的先验,包括 RGB 图像的空间上下文、RGB 信号的语义信息、深度特征先验和 HSI 的波段相关性,被纳入到端到端映射函数中,可以有效地缓解不适定性欠约束的 SSR 问题,进一步提高了恢复的 HSI 的准确性和保真度。
2)通过嵌入 RGB 输入的语义先验,创新地设计了可训练的 SSRM,以在重建的 HSI 的聚类相似特征之间执行特征聚合。这样的 SSRM 可以完成类别一致模式的语义引导相关学习,并在我们的 HPRN 结束时有效地实现估计 HSI 的频谱优化。
3)我们开发了一个 TCRM,它利用某些向量而不是标量作为通道关系的描述符探索特征相互依赖性。与 transformer 风格的特征交互一起,该模块可以获得更多的判别学习能力,以潜在地产生更健壮和更平滑的一对多映射函数。
4)SOPC还被纳入损失函数以辅助网络学习,在保持高光谱带统计相关性和频谱连续性方面发挥作用。在数学上,SOPC项可以进一步帮助L1损耗,使可能的一对多映射的空间更小,以实现高精度频谱恢复。
5)广泛的实验结果表明,我们的HPRN可以在四个既定基准的多个评估指标下超越最先进的SSR方法。此外,遥感数据集的分类结果也证明了重建频谱的有效性和有用性。

二 相关工作

A. 传统方法

在过去的几十年里,高光谱成像已被成功证明对环境、遥感、地理等领域的许多应用有益。随着科学技术的进步,高光谱成像也在不断发展和升级。传统的扫帚式或推扫式成像仪采用逐点或逐行扫描方式来收集场景辐射和反射 [15]、[16]。尽管这些设备可以在较大范围的电磁频谱中获取连续的频谱带,但它们极其缓慢且耗时。为了实现 HSI 的快速采集,设计了编码孔径快照高光谱相机,以视频速率对动态场景进行光谱成像 [18]、[19]、[20]、[21]。尽管速度更快,但通常会损失空间或光谱分辨率。不可避免的是,成像设备的硬件组件仍然很昂贵。因此,传统的 RGB 相机试图捕捉自然物体的光谱特征 [30]、[31]、[32]、[33]。例如,Goel 等人。 [32] 设计了一个低成本的多光谱系统,带有数码相机和一种软件方法,可以在受控照明下自动分析场景。哦等。 [33] 通过使用多个 RGB 相机构建了一个重建 HSI 的框架,并引入了一种算法来将这些不同的 RGB 测量值组合并转换为单个 HSI。然而,这些方法必须面对巨大的计算负担。

后来,一些研究人员提出了稀疏编码方法,用于从单个 RGB 图像重建相应的 HSI。首先,Robles-Kelly [34] 从训练集中提取了一组原型,并利用稀疏编码来预测 HSI 的辐照度。然后 Arad 和 Ben-Shahar [35] 发布了一个用于 SSR 的大型自然 HSI 数据库,并通过 K-SVD 算法 [49] 学习了一个超完备字典。给定一个 RGB 像素,高光谱特征的字典表示将通过正交匹配追踪迭代计算 [50]。有目的地,Aeschbacher 等人。 [36] 重新实现并提升了工作 [35] 的性能,然后引入了一种基于超分辨率方法 [51] 的新型浅层网络。最终,费时费力的高光谱成像被转换为​​具有成本效益且快速的 RGB 信号的光谱重建。遗憾的是,SSR 问题是不适定的,这意味着多个 HSI 解决方案可以投射相同的 RGB 输入。由于上述方法仅涉及 HSI 的手工稀疏先验,因此他们很难从众多候选者中选择高置信度和高质量的频谱。为了获得更准确的光谱估计,应该将更多的先验插入到 SSR 过程中以减轻不确定性。

B. 基于 CNN 的模型

深度 CNN 已成为许多任务的主流解决方案,例如超分辨率 [52]、[53]、全色锐化 [54]、[55]、[56]、分类 [57] 和去雾 [ 58], [59]。在早期的工作中,Galliani 等人。 [22] 为 SSR 提出了一个开创性的 CNN 模型。为了提高 SSR 的准确性,Yan 等人。 [23] 提出了一个多尺度 CNN (MSCNN) 来明确地将输入 RGB 图像映射到 HSI。改进了 HSCNN [37],Shi 等人。 [25] 构建了一个高光谱重建网络 HSCNN+,在 NTIRE 2018 光谱重建挑战赛 [41] 的“Clean”和“RealWorld”赛道上均获得第一名。 2020 年,NTIRE 组织了第二届光谱重建挑战赛 [42],并为 SSR 提出了一组新的基于 CNN 的模型。其中,李等人。 [43] 开发了一种自适应加权注意网络,用于更强大的特征表达。赵等。 [27] 采用 PixelShuffle 层作为层间交互,并提出了一个四级层次回归网络(HRNet)来探索频谱恢复的上下文信息。此外,张等人。 [26] 专注于以每个像素为中心的特定大小的感受野,并研究了一个像素感知的深度函数混合网络(FMNet)来解决 SSR 问题。他等人。 [39] 提出了一种优化驱动网络与数据驱动算法相结合的方法,以提高模型的可解释性。李等。 [47] 提出了一种具有双二阶注意力的深度混合 2-D-3-D CNN,可以挖掘足够的空间-光谱上下文信息。最近,朱等人。 [38] 明确地利用了经典的梯度下降算法并设计了一个轻量级的神经网络,即具有多级架构的 AGD-Net 来处理重建。黛安等人。 [60] 提出了一种成像模型引导网络,它利用了 SSR 的成像模型和空间光谱特征。受益于 CNN 从大型 RGB-HSI 对的数据集中先验隐式提取抽象深度特征的能力,基于 CNN 的方法有效地规范了一对多解决方案并提高了预测光谱特征的准确性。引入更先进的深度之前的特征,也有一些基于 CNN 的模型来设计某些注意模块来学习中间特征之间的相互依赖性。注意机制通常被认为是一种解释性的高级先验,它模仿人类视觉系统自动捕捉物体的显着部分[61]。在深度 CNN 中,注意力块可以探索深度特征之间的相关性,并自适应地关注信息量更大的特征。这可以提高网络的学习能力,并使端到端功能比普通 CNN 更流畅。内森等人。 [46]提出了一种基于注意力机制的轻量级剩余密集注意力网络。李等。 [62] 在他们的工作中提出了 2-D 通道和 3-D 带状注意模块。彭等。 [44] 设计了一个像素注意模块来重新缩放所有特征图中的像素特征。这些基于注意力的块习惯于采用全局平均池计算的标量作为通道挤压器。然而,这个全局平均标量可能无法表征整个通道信息,因为它很容易被背景杂乱和异常分散注意力。因此,为了获得更强大的特征表示,我们用某些向量替换标量以学习特征相互依赖性并开发 TCRM。同时,基于最近证明 transformer 模型是计算机视觉 [63]、[64] 中的有效工具,我们将 transformer 风格的特征交互引入到所提出的 TCRM 中,以增强表达能力。此外,一对多映射空间被间接正则化,因此,我们可以获得更稳健的 RGB 到 HSI 解决方案。此外,一些相关工作利用特定对象的先验类别信息进行光谱重建。韩等。 [65]采用无监督聚类将每个 RGB 图像划分为多个类,并为每个类建立非线性光谱映射。严等。 [66] 费力地标记了一个 C2H-Data,并直接将语义先验信息加载到他们的 C2H-Net 的中间层中。然而,前者低效地逐步执行分类和重建任务,而后者依赖劳动密集型手动标签。创新地,这种来自RGB信号的语义先验被巧妙地插入到我们的网络中,并且在HPRN的末端精心设计了一个SSRM。这种SSRM可以跨类别一致性范围进行相关性学习和特征聚合,其中类别索引由RGB信号的内置语义先验知识分配。SSRM模块无需大量的手动标记和低效地对每个类别进行光谱映射,就可以实现估算HSI的频谱优化,这可以与HSI的检索过程协同工作。通过HSI之前的额外统计带相关,我们的HPRN可以有效地减轻未确定SSR问题的不确定性,从而提高估计光谱的精度。

三、提议的方法

A. Preliminaries and Motivation预备知识和动机

让 IRGB ∈ R3×H×W 和 IHSI ∈ RB×H×W 分别表示给定的 RGB 图像和相应的地面 HSI,其中 B、H 和 W 是 HSI 立方体的波段、高度和宽度,分别。当相机光谱灵敏度先验 8 ∈ R3×B 已知时,RGB 信号可以从 HSI 测量转换如下 [67]:
在这里插入图片描述

HSI到IRGB的转换是从高维到低维的投影。相反,从 RGB 输入中恢复 HSI 显然是一个病态问题,表明一个 RGB 图像可以重新投影到多个 HSI。因此,将大量先验信息集成到 SSR 中有利于正则化解空间,从而进一步提高重构 HSI 的保真度。由于相机光谱灵敏度先验在现实中有时是未知的,在数学上,超分辨HSI ISSR∈RB×H×W可以通过以下公式获得:
在这里插入图片描述

其中P (·) 是包含来自 SSR 任务的各种可用先验信息的先验项。在我们提出的 HPRN 中,除了 RGB 输入的一般上下文先验之外,我们合并了丰富的先验,包括 RGB 信号的语义类别、更高级的深度特征先验和 HSI 的带状相关性,这可以约束和优化一对多解决方案域, 进一步提高了重投影光谱的质量。
在这里插入图片描述

B.网络架构

图 2 给出了所提出的 HPRN 的说明。最初,放置一个卷积层用于从输入 RGB 上下文进行浅层特征先验学习 prior
在这里插入图片描述

其中 HSPF(·) 代表卷积函数。然后,将获得的浅层特征先验 F0 馈入骨干网络进行深度特征先验提取。具体来说,基本框架由若干个MRB组成。整个过程表示为
在这里插入图片描述

其中HMRBs(·)表示深度特征先验提取。与经典残差模块相比,我们的 MRB 采用多残差连接,可以充分利用 RGB 图像的低频上下文先验。接下来,将FDFP之前的深层特征注入另一个卷积层,与F0之前的浅层特征相互作用,形成全局残差求和(GRS)
在这里插入图片描述

其中HGRS(·)为卷积权重.这样的操作可以避免造成梯度消失或爆炸,增强网络训练的稳定性。
在 HPRN 的最后,我们设置了由单个卷积和开发的 SSRM 组成的重建部分。卷积的输出特征记为FS,作为后面SSRM模块的输入之一。整个重构部分表示为一个函数如下:在这里插入图片描述

其中 ISSR 和 HHPRN(·) 分别表示最终重建的 HSI 和我们提出的 HPRN 的功能。 SSRM 的详细实现在第 III-D.C 节中进行了描述。

C. Transformer-Based Channel Relation Module

基于Transformer的通道关系模块
在这里插入图片描述

在本节中,我们将详细介绍开发的TCRM模块。理想情况下,给定输入特征图 F ∈ RC×H×W,F = [f1,f2,…,fC],其中 C 是通道数。如图 3 所示,特征 F 首先是沿空间维度均匀划分为4×4的网格。然后,采用局部范围平均池化为所有通道生成压缩向量
在这里插入图片描述

其中 HLAP(·) 表示局部平均池化函数。与表征整个通道信息的全局平均单数标量相比,一个局部范围平均多数向量可以提供更稳健的表示。原因是突出的目标通常存在于某个局部位置,而全局平均下采样可能会受到背景噪声和其他位置异常的影响。此外,乘法向量
数字包含比单个数字的标量更丰富、更精细的信息。
为了捕获通道之间的非局部(也是局部)关系,应用基于变压器的块来执行特征交互。具体来说,我们采用了它的核心组件,即多头自我注意层,可以在当前的 Pytorch 框架中直接调用 [68]。形式上,挤压矢量FSV∈R C×4×4被重塑为F′SV∈R C×(4×4),随后被馈送到基于变压器的块
在这里插入图片描述

其中HMSA(·)表示多头自注意力模块,包括四个全连接层,用于生成查询(Q),键(K),值(V)和输出向量。
为了获得每个通道的重标度因子,首先沿行平均输出向量FTr∈RC×(4×4),中间结果表示为s = [s1,s2, . . . ,sC]。然后,将s输入到一个简单的特征提取单元中
在这里插入图片描述

其中,HFEU(·)由两个1×1卷积和两个激活函数组成。Ld将s的通道映射到C/r,而另一个Lu则用于恢复通道大小C。
σ(·)和ρ(·)分别表示sigmoid和PReLU函数。前者用于将数值范围归一化到0-1,而后者旨在增强非线性适应性。最后,重缩放因子esc用于重新调整输入特征的每个通道fc。
在这里插入图片描述

其中,efc是精炼输出eF的第c个通道,⊙表示元素逐个相乘。通过所提出的TCRM,我们的HPRN模型可以自动重新校准信息特征并增强学习能力,从而可以间接地规范化和优化一对多映射空间。

D. Semantic-Driven Spatial Relation Module 语义驱动的空间关系模块

在这里插入图片描述

CNN 的相关学习原理通常是通过可学习权重的数量来模拟空间局部特征的相似模式。由于卷积核的形状是预先设定的,相关表达所涉及的特征被限制在一个正方形的邻域区域。这种限制不能阻止弱相关的特征参与特征聚合,也不能在范围之外引入更多高度相关的特征,这阻碍了 CNN 的学习能力。
语义信息是一种显式属性校准,它将原始数据(例如 RGB 图像)转换为具有不同突出显示的感兴趣区域的蒙版,其中图像的每个像素都被明确分配为一个唯一的类别。相同标识的位置自然倾向于具有很强的相关性和相似性。通常,局部类别属性和场景分布在给定的 RGB 图像和地面 HSI 之间在空间上是一致的。更具体地说,RGB 图像中空间相邻的像素可能对应于同一对象。此外,HSI 对应对象中同一对象内的这些对应的空间相邻像素可能共享相似的光谱特征。创新地,我们将 RGB 输入的语义先验引入 SSR,并精心设计了一个 SSRM 模块来实现类别一致的特征聚合,以细化预测光谱特征。
SSRM 的示意图如图 4 所示。直观地,SSRM 的输入模块由 RGB 图像的语义先验 SRGB 和特征 FS 构成。
• SRGB是通过广泛使用的简单线性迭代聚类(SLIC)超像素算法获得的[69]。
• F来自Section III-B中的重建部分。
形式上,我们将 FS 播种到两个 1×1 卷积层 φ(·) 和 ψ(·) 以分别生成两个新特征 D 和 E,其中 {D, E} ∈ R B×H×W。然后,嵌入SRGB作为索引,沿着H×W方向展开和排序特征{D,E}
在这里插入图片描述

其中 {D′,E′} ∈ R B×(H×W)。D′ 和 E′ 的每一行都根据类别索引进行排序。
为了并行聚合语义一致内容的特征,我们将 H × W 1-D B 长度特征从 {D′′,E′′} 重新划分为 G 组,结果表示为 {D′′, E′} ∈ R B×G×N 。理想情况下,H × W 应该能被 G 整除。当它实际上不能满足时,边界的镜像填充是必要的。
对于 {D′′,E′′},大多数组的 N 1-D B 长度项目属于同一标签。不可避免地,由于每个类别的特征数实际上是不平衡的,因此部分组中的N个元素包含相邻类别的几个特征。
接下来,我们将这两个特征重塑并转置为 {D′′ ∈ R G×N×B,E′′ ∈ R G×B×N}。
语义嵌入关系矩阵 Z 可由下式获得
在这里插入图片描述

其中⊗表示批量矩阵乘法和 Z ∈R G×N×N.简而言之,此计算沿地面维度广播。
对于第 g 群的 Zg ∈ R N×N,其第 i 行的 N 个权重编码了( D′′g ∈ R N×B 的第 i 个 1-D B 长度特征与 E′′g ∈ R B×N 中所有 1-D B 长度特征)之间的依赖关系。
类似地,采用另一个 1 × 1 卷积 χ (·) 来获取新特征 Y ∈ R B×H×W 。此外,实现与 D 相同的维度转换,成为 Y′′ ∈ R G×N×B。
最后,跨聚类相似特征的特征聚合由下式执行
在这里插入图片描述

其中 HFR(·) 是折叠和重新排序操作,是 HUO(·) 的逆过程。在这一点上,我们详细说明了具有一个尺度的 SSRM 的过程(即,类别的数量,图 4 显示了八个示例类别)。为了减少一次分割结果的误差,我们采用多尺度 SLIC 并行生成多个具有不同类别数量的聚类映射。最后,多尺度 SSRM 通过 1×1 卷积由每个单尺度结果组合。

E. Second-Order Prior Constraint 二阶先验约束

二阶统计在探索不同样本的相关性方面起着至关重要的作用[43],[70]。从 HSI 的成像原理来看,不同波段之间存在数学相关性,沿波段方向具有光谱一致性。
以重构后的光谱I S SR∈R B×H×W为例,我们将其整形为ISSR∈R B×(H×W),即有B个n=H×W长度的样本。然后,样本协方差矩阵可以计算为
在这里插入图片描述

其中 Σ平均 = (1/n)(Σ−(1/n)1)。Σ 和 1 是 n × n 个单位矩阵和所有 1 的矩阵。
⊗表示矩阵乘法。
矩阵 X SSR ∈ RB×B 的第 i 行和第 j 列中的元素表示 I SSR 的第 i 个波段和第 j 个波段之间的相关性。------------------(波段间吗??不同波段之间存在数学相关性
以同样的方式,我们可以得到地面HSI IHSI的归一化协方差矩阵X HSI。为了保持数学相关性和高光谱波段之间的光谱一致性,SOPC 被纳入损耗函数
在这里插入图片描述

其中 2 表示 HPRN 的参数集,τ 是权衡权重。在我们的实验设置中,使用 {0.2, 0.5, 1, 2, 5, 10} 实验尝试了权衡值,最终使用 NTIRE2018 验证集确定为 2。从数学角度来看,SOPC项可以帮助L1损耗压缩空间的可能一对多映射函数,实现高精度的频谱恢复。

四、实验

A.实验设置

1)SSR 基准数据集:所提出的 HPRN 在四个公共数据集上进行了评估,即两个 SSR 挑战 NTIRE20181 [41] 和 NTIRE20202 [42] 的“干净”和“真实世界”轨道。对于“干净”轨道,HSI 是根据无噪声 RGB 图像估计的,这些图像是使用地面实况 HSI 和给定的光谱灵敏度函数进行数值计算的。 “真实世界”轨迹模拟未校准和未知相机的捕捉,其中 HSI 从嘈杂的 JPEG 压缩 RGB 图像中恢复。当然,NTIRE2020的相同轨道的相机响应函数比NTIRE2018有所改变。 Specim PS Kappa DX4 高光谱相机用于收集带有用于空间扫描的旋转台的 NTIRE2018 数据集,而 NTIRE2020 数据集由配备有 Specim IQ 移动设备的独立电池供电推扫式光谱成像系统采集高光谱相机。 NTIRE2018 数据集包含 256 个训练 RGB-HSI 对、5 个验证 RGB-HSI 对和 10 个测试 RGB 输入。 HSI 包含 31 个光谱带(400-700 nm,大约 10 nm 增量),大小为 1392 × 1300。此外,还有 450 个训练 RGB-HSI 对、10 个验证 RGB-HSI 对和 20 个测试 RGB 图像。所有 HSI 都具有 512 × 482 的大小,具有从 400 到 700 nm 的 31 个波段,步长为 10 nm。由于无法获得官方测试光谱,我们决定以官方验证集作为我们的测试集,并从官方训练中随机选择几张图像作为我们在本文中的验证集。官方训练的其余部分被用作我们的训练集。具体说明参见表I和表II.
2)遥感数据集:选择帕维亚大学(UP)3数据集,验证基于分类结果[71]重建光谱的有效性。这反射光学系统成像光谱仪(ROSIS)传感器用于收集意大利北部帕维亚地区的这些数据。该场景有103个光谱波段,范围为430-860 nm,空间分辨率为1.3 m,大小为610 × 340。约有43 923个样本被标记为九个类别。根据[71],选择原始HSI的第53、31和7波段形成模拟的RGB数据。模拟RGB输入、HSI的假彩色图像、真实标签和标准训练样本如图所示。分别为第5(a)-(d)条。相应的测试集是除训练样本外的地面真实标签的剩余部分.
3)定量指标:为了定量评估HPRN的性能,使用了五个指标,包括平均相关绝对误差(MRAE),均方根误差(RMSE),光谱角度映射器(SAM),峰值信噪比(PSNR)和平均结构相似性(ASSIM)。
在这里插入图片描述

其中 I( p) 和 b=1I( p) 分别表示 pthHSIofM v=1 −I(v) I(v) HSI 2 SSR 2B b=11 XB ( b ) ( b ) SSIM IHSIISSRπlog MSE IHSI, ISSRpixel 超分辨和地面真实 HSI。

I(v) ,I(v) ⟩ 是ground truth 和估计谱之间的两个第v 个谱HSI SSR 向量的点积。∥·∥2 表示l2 范数函数。 N、M 和 B 分别是 HSI 立方体的像素数、光谱矢量和波段数。 I(b) 和 I(b) 是 ground truth HSI SSR 和恢复的 HSI 的第 b 个波段。 MSE(·) 计算输入的均方误差。 SSIM(·) 计算典型波段的 SSIM 值。从数学上讲,MRAE、RMSE 和 SAM 越小,HSI 的预测就越好。此外,PSNR 和 SSIM 越大,重建结果与地面实况之间的误差越小。
4)实施细节:对于 NTIRE2020 和 NTIRE2018 数据集,在训练过程中从原始 RGB-HSI 对应物裁剪出 64×64 块。期间。 ADAM [72] 被用作我们 HPRN 的优化器。对于一阶和二阶矩估计,指数衰减率分别设置为 β1 = 0.9 和 β2 = 0.99。学习率设置为 0.00012,并应用多项式函数作为幂 = 1.5 的衰减均值。至于主干框架,有 M = 10 个 MRB,其中所有中间特征都有 200 个通道。 TCRM 中的参数 r 为 16,SSRM 中的组大小 g = 64。此外,最好的结果在 100 个 epoch 内报告,所提出的 HPRN 网络已经通过 NVIDIA 2080Ti GPU 在 Pytorch 框架上实现。自动混合精度包也被用来加速网络的训练。对于遥感 UP 数据集,我们按照基于 CNN 的 HSI 分类方法 [71].

B. Results on SSR Benchmark

Datasets 的一般设置,根据训练和测试样本的位置安排 11 × 11 邻域块以合并光谱空间统计数据。 SSR 基准数据集的结果为了评估所提出网络的稳健性和泛化性,我们与七种最先进的方法进行了比较,包括 Galliani [22]、MSCNN [23]、UNet [24]、HSCNN+ [25]、FMNet [26]、HRNet [27] 和 AGDNet [38]。为了公平比较,我们在本文的训练集上运行他们发布的模型。此外,通过验证集选择最佳模型,并在四个既定基准的最终测试集上进一步评估。
1)定量结果:NTIRE2018 和 NTIRE2020 轨道的最终测试集的定量结果总结在表 III 和四、分别。正如我们所看到的,我们的方法在五个数值指标方面始终优于整个基准测试中的其他方法。从 MRAE 和 RMSE 评估中,我们的 HPRN 在所有数据集上获得了最小值,这表明我们估计的频谱是最准确的。值得注意的是,与 NTIRE2018“Clean”、NTIRE2018“Real World”、NTIRE2020“Clean”和 NTIRE2020“Real”上的第二好结果相比,所提出的网络将 SAM 提高了 18.5%、2.9%、4.9% 和 1.2%世界”轨道。这表明我们重建的 HSI 包含更好的光谱连续性和真实性。对于结构测量 PSNR 和 SSIM,与这些现有模型相比,我们的方法获得了更大的改进。原因可能是 HPRN 可以充分挖掘和利用RGB图像的空间上下文和语义类别先验.
2)定性评估:为了进一步说明我们网络的卓越性能,图。6显示了由我们的HPRN和其他最先进的方法生成的MRAE热图的某些示例。NTIRE2018的“BGU_HS_00263”HSI(530 nm) “清洁”,“BGU_HS_00265” NTIRE2018“真实世界的HSI(550 nm),NTIRE2020”清洁“的”ARAD_HS_ 00453“HSI(570 nm)和NTIRE2020的”ARAD_HS_00457“ HSI(590 nm) ”真实”世界”从上到下。在视觉上,显示的颜色越蓝,预测 HSI 的误差越低。总的来说,我们可以发现所呈现的 HPRN 产生了最佳的可视化效果,在各种具有挑战性的场景中都非常接近真实情况。特别是,与早期的两种方法 Galliani 和 MSCNN 相比,所提出的 HPRN 的优越性非常明显。视觉表现也符合数值对比。在光谱维度方面,图 7 显示了从重建的 HSI 中选择的几个空间点的光谱响应曲线。光谱曲线的变化更能代表地物的本质属性。从定性评估来看,我们恢复的 HSI 产生的光谱曲线更符合地面实况,这也可以通过表 III 和 IV 中的 SAM 标准反映出来。具体来说,这一观察可以推断出 SOPC 在维持高光谱带向统计相关性和光谱连续性方面起着重要作用。
3)模型效率分析:表 V 列出了最近基于 CNN 的深度 CNN 的计算参数和运行时间的比较SSR 方法。模型的实际内存占用在表 V 第二列中表示为“大小”,它指的是训练完成的基于 CNN 的模型的权重占用的内存大小。运行时间是指在 NVIDIA 2080ti GPU 和 Intel Core i9-9900 CPU 上多个 512 × 512 图像的平均推理时间。具体来说,分割预处理是同时进行的,同时在CPU上将原始图像裁剪成无数个patch,然后全部预存到磁盘上。我们模型的输入包括 RGB 图像和相应的分割预处理
结果从CPU到GPU,而其他比较方法的输入是RGB信号。此外,运行时表示基于 CNN 的模型在 GPU 上的推理效率,而不考虑 CPU 上的预处理操作。测量前,机器会提前预热。由于 SSRM 的频繁索引操作,所提出的 HPRN 的测试时间达到 12.72 毫秒。在这些网络中,Galliani、UNet、AGD-Net的参数较少,但性能不高。与 MSCNN、HSCNN+ 和 HRNet 相比,我们的方法包含更少的参数和更好的精度,这表明我们的方法可以平衡算法性能和模型复杂性。

C. Results on Remote Sensing Dataset遥感数据集的结果

为了研究重建的 HSI 的适用性,我们引入了高光谱分类任务来评估 SSR 性能。在这里,我们采用流行的 UP 数据集来比较不同的分类结果,并通过使用经典的基于 CNN 的高光谱分类网络将像素分为九类 [73]。该模型由三个卷积单元和两个全连接层组成。此外,表 VI 显示了相应的分数,包括总体准确度 (OA)、平均准确度 (AA) 和 Kappa 系数 (Kappa)。 OA是正确分类的像素占所有像素的比例。 AA 表示每个类的分类准确率的平均值。 Kappa表示​​分类结果与ground truth的一致性程度。这三个指标遵循
同样的规则:值越大,分类效果越好。我们可以观察到,我们重建的 HSI 比模拟的 RGB 图像实现了更好的 OA、AA 和 Kappa,并且更接近于使用地面真实标签的分类性能,这也反映在图 8 中。该测量表明所呈现的HPRN 可以有效地预测遥感数据集上的光谱信息。同时,由于 UP 数据集包含 103 个波段,比 NTIRE2018 和 NTIRE2020 的 31 个波段多,这一结果也验证了我们的算法具有重建更多波段的能力。为了实现这一点,只需要根据数据集中的波段数修改最后一个卷积层的输出通道数。

D.消融研究
在本节中,我们进行了广泛的消融研究,以彻底分析所提出的 HPRN。所有实验结果均使用 NTIRE2018 “Clean” 训练集进行训练,并在 NTIRE2018 “Clean” 验证数据上报告。基线模型是由十个 MRB 组成的主干网络,仅包含普通卷积层并由单个 L1 损失约束训练。对于 TCRM,我们探索了它的关键嵌入位置和压缩向量大小。相应地,我们评估共享嵌入函数、组大小和 SSRM 的比例设置的效果。随后,对 SSRM、TCRM 和 SOPC 的综合性能进行了详细研究。

  1. 探索 TCRM 的位置:我们调查了不同位置对已开发 TCRM 的影响,结果列于表 VII。 1-pos、2-pos和3-pos分别表示MRB的第一个、第二个和第三个剩余连接之前。当我们的 TCRM 在 MRB 的第三次残差求和之前嵌入时,它可以产生比其他两个更好的 MRAE 和 SAM 指标位置。 multi-pos表示TCRM模块被添加到三个剩余位置。虽然 multipos 可以进一步提高性能,但参数和计算量比单个 TCRM 增加了三倍。综合而言,我们选择 3-pos 作为我们的最终方案。
  2. 探索 TCRM 的压缩向量大小:如上所述,简单标量被某些向量替换为通道关系的压缩器,以提取特征相互依赖性。表 VIII 总结了不同压缩矢量大小的影响。 “Params”和“MACs”表示相对于基线模型的额外数量的参数和乘法累加操作。结果表明 4 × 4 = 16 长度向量可以提供更稳健的特征表示。一旦这个向量的尺寸进一步扩大,例如8×8,模型的复杂度也相应增加,这可能导致低效的transformer-style特征交互并降低SSR的准确性。
    3)共享嵌入函数的影响对于 SSRM:表 IX 探讨了共享嵌入函数权重对 SSRM 的影响。我们可以看到 φ(·) = ψ(·) 不仅实现了较低的 MRAE 和 SAM 测量,而且节省了参数的数量。主要原因在于共享嵌入函数更有可能生成更具辨别力的基于语义的关系矩阵。一旦两个嵌入函数不同,聚类相似的特征聚合可以通过他们改变的预测。因此,我们在 SSRM 中采用共享嵌入函数。
    4)SSRM 组大小的影响:SSRM 的特征聚合是基于语义驱动组进行的;因此,组大小密切影响 SSRM 的有效性。合适的 G 值可以尽可能地将类别一致的元素分配给每个组,从而实现高效的相关学习。具体来说,我们设G = {16, 36, 64, 100, 144, 256},实验结果如图9所示。从一开始,随着参与相关计算的像素越来越多,误差自然会继续减少。但是,当G进一步扩大时,一些新引入的相关性不大的部分会适得其反,导致误差越来越大。这表明选择信息性特征比考虑更多特征更重要。
    5)SSRM 尺度设置的影响:通过使用一个尺度(即类别数)运行一次 SLIC 算法,可能存在聚类边界上的一些错误).此外,不同的RGB信号也可能被识别为不一致数量的类别属性。由于这两个原因,多尺度SLIC被并行使用,最终的多尺度SSRM由每个单尺度1加权。表 X 显示了 SSRM 的比例设置。我们尝试了四种不同组合的量表来比较它们的效果,并根据实验结果采用 8、12、16 和 20 的量表设置。
    6)不同模块的有效性:所提出的方法由三个关键模块组成,包括开发的 TCRM、精心设计的 SSRM 和合并的 SOPC。
    为了确定这些组件的必要性,我们评估了HPRN的性能及其变体,这些变体去除了表XI中的一部分网络结构。使用 TCRM、使用 SSRM 和 SOPC 表示包含基线网络上单个密钥模块的变体。他们的结果相继证明了每个单独部分的有效性,与基线MRAE,SAM,PSNR和SSIM评分相比。紧接着,上述三个组件成对组合,相应的结果产生的误差比使用任何单个模块都要小。最后,所提包含所有部分的HPRN模型取得了最佳效果,表明所提方法需要所有模块才能有效缓解该欠约束SSR问题的不稳定性,提高回收HSI的准确性。

五、结论

在本文中,提出了一种用于 SSR 的新型 HPRN。多源丰富的先验,包括 RGB 图像的空间上下文、RGB 信号的语义类别、深度特征先验和 HSI 的波段相关性,被纳入一个端到端的映射函数,可以有效地缓解不适定性SSR问题。具体来说,主干网络由多个 MRB 重复堆叠,其中 RGB 图像的低频上下文先验被深度网络充分利用。通过嵌入 RGB 输入的语义先验信息,创新地设计了可训练的 SSRM,以执行类别引导的特征聚合,并有效地实现估计 HSI 的光谱优化。此外,还研究了 TCRM 以利用一个局部范围平均多数向量来表示深度特征的通道。结合 transformer-style 特征交互,TCRM 可以获得更多的判别学习能力,并使 RGB-to-HSI 解决方案更加稳健。最后,将 SOPC 纳入损失函数以指导 HSI 重建以保持高光谱波段之间的数学相关性和光谱一致性。广泛的实验结果表明,所提出的 HPRN 可以在定量和感知比较下的四个 SSR 基准上实现卓越的性能。此外,估计谱的有效性通过遥感数据集的分类结果得到验证。未来,这项研究的工作将主要集中在基于CNN的轻量级方法和无监督深度学习。

  • 9
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值