无监督高光谱图像超分辨率 :跨模态互学习功能的 X 形交互式自动编码器

X-Shaped Interactive Autoencoders With Cross-Modality Mutual Learning for Unsupervised Hyperspectral

具有跨模态互学习功能的 X 形交互式自动编码器,用于无监督高光谱图像超分辨率 

作者:  ; Ke ZhengZhi LiLianru GaoXiuping Jia

Published in: IEEE Transactions on Geoscience and Remote Sensing ( Volume: 61)

关键词:Hyperspectral image (HSI), spectral unmixing, super-resolution, unsupervised learning.

摘要-

高光谱图像超分辨率(HSI-SR)可以弥补单传感器成像的不完备性,提供高空间分辨率和高光谱分辨率的理想产品。其中,受拆分启发的网络由于其直截了当的无监督范式而引起了相当大的关注。然而,由于它们对所构建网络的表示能力有限,大多数算法没有充分捕捉和利用多通道信息,这给进一步改进留下了很大的空间。为此,我们提出了一种具有高光谱和多光谱数据跨通道互学习的X型交互式自动编码网络(简称XINet)来解决这个问题。它一般采用两个自动编码器的耦合结构,目的是从输入对应关系中提取潜在丰度和相应的端元。在网络内部,通过参数共享策略将两个互不相交的U网耦合在一起,设计了一种新颖的X形交互结构,不仅使两个通道之间有足够的信息流,而且产生了信息丰富的空间频谱特征。考虑到每个通道之间的互补性,构造了一个跨通道相互学习模块(CMMLM),以进一步将知识从一个通道传递到另一个通道,从而更好地利用多通道特征。此外,为了有效地优化我们提出的XINet,提出了一种联合自我监督损失,使得在没有外部三元组监督的情况下能够以无监督的方式进行。进行了大量的实验,包括在四个数据集上的超分辨结果、稳健性分析以及对其他应用的扩展,并证明了该方法的优越性。

Introduction:

1)通过参数共享策略将两个不相交的 U-Net 耦合在一起,设计了一种新颖的 X 形交互架构。 在架构内部,它进一步分为三个组件,其中 IFEM 在头部,DFIM 在主体,AGM 在尾部,这不仅可以实现两个独立模态之间充分的信息传播,还可以产生强大的多尺度特征表示 和多深度。

2)构建了CMMLM。 具体来说,它能够通过精心设计的五阶段方案将知识从一种模态传递到另一种模态,因此可以充分利用多模态信息以获得更好的融合性能。

3)我们构建了一个联合自监督损失,该损失完全取决于观察到的 HSI-MSI 对应关系。 通过考虑所研究场景的空间属性,引入了缩尾像素感知全变分(WPATV)来自适应地表征丰度的平滑度。 此外,提出了空间和光谱重建损失(SPE)来分别保证空间和光谱域的质量。 最后,通过三个损失项的联合配合,可以高度保证空间细节和光谱保真度。

4) 定性和定量地展示了 XINet 在四个公开数据集上的 SR 性能。 此外,它对高斯噪声干扰和比例因子变化的鲁棒性也得到了证实。 除此之外,它在其他应用(即超级锐化和分类)中的潜力也得到了验证。

借助线性光谱混合模型,HrHSI中的每个像素都可以由几个不同的特征(端元)及其相应的系数(丰度)线性表达,可以写为X = AE +N。 (2) 这里,E ε RP×C 和 A ε RWH×P 分别表示具有 P 个光谱特征的端元矩阵和相应的丰度矩阵。 N 是误差。

这里,A~∈RWH×P和E~∈Rp×c可以分别在空间域和谱域被处理为退化的A和E。因此,恢复HrHSI基本上等同于推断

解决以下问题,从输入 (Y, Z) 得到 (A, E):

A.整体网络架构

如图2所示,我们提出的XINet可以分为两个阶段,一个阶段用于丰度估计,另一个阶段用于联合模态重建和端元推断。 准确地说,第一阶段可以表示为

其中 Xen(·) 表示 X 形交互式编码器,旨在从输入 (Z) 生成未知数 (A, eA) ,Y)和Wen是相应的需要学习的参数。 为了在谱解混框架下从(A, eA)恢复输入(Z, Y),第二阶段采用没有任何偏差的1×1线性卷积作为解码器,可以将其表示为

其中 fde(·) 和 gde(·) 表示解码器,其中每个解码器中的可训练参数 Wf,de 和 Wg,de 可以自然地解释为 分别为 E~ 和 E。

在我们提出的自监督损失的指导下,可以通过纯粹利用观察到的 HSI-MSI 对应关系来获得未知的 E 和 A。 之后根据式(2)得到HrHSI X~

三个组件

  1. 初始特征提取模块IFEM、
  2. 特征交互DFIM、
  3. 丰度生成模块AGM

B. X 形交互式编码器

考虑到以前网络的表示能力较弱,我们设计了一个 X 形交互式架构作为 XINet 中编码器部分的主干,其中两个不相交的 U-Net 通过参数共享策略耦合在一起 。 尽管 U-Net 架构取得了巨大成功,但其在 HSI-SR 中的潜力仍有待探索。 因此,充分考虑输入数据的特点和现有HSI-SR网络面临的问题,精心构建了三个级联组件,即IFEM、DFIM和AGM。

1)初始特征提取模块IFEM:考虑到HSI-MSI对应关系中存在的差异,设计了两个面向模态的模块来保证初始提取特征的充分性,一个名为MIFEM的模块提取HrMSI的空间细节,另一个名为HIFEM的模块利用光谱信息 LrHSI。 详细信息分别如图3(a)和(b)所示。

具体来说,两个 3 × 3 层分别部署在 MIFEM 的头部和尾部,以适应通道尺寸。 在两层之间,三个多尺度残差块(MSRB)级联以进一步挖掘它们的多尺度空间信息。 准确地说,MSRB分为三个分支,每个分支都尝试提取具有特定感受野的相应特征,即3×3、5×5和7×7。然而,大的卷积核容易增加计算负担 我们的网络。 因此,我们将对称的 n × n 卷积分解为不对称的 1 × n 和 n × 1 卷积,例如,将 3 × 3 核分解为级联的 1 × 3 和 3 × 1 核,这不仅可以减少网络参数,还可以导致更多代表性特征[56],[57]。 之后,三个尺度的特征图被聚合以形成更紧凑的表示,然后通过残差学习策略添加到输入中

此外,类似的布局也被应用于HIFEM,以利用LrHSI的光谱特性。主要区别在于核的大小,用1×1的逐点卷积代替了MIFEM中原有的多尺度卷积。在每个SRB中,我们直接采用单流残差结构,这使得HIFEM能够在不涉及相邻像素的情况下强调谱域。

2)具有互学习的深度特征交互模块DFIM:具有互学习的DFIM是为了增强多模态信息的交互和利用而提出的,它由四个主要部分组成,即下采样路径、桥接路径、CMMLM和上采样路径。

3)下采样路径:第一部分尝试逐渐缩小提取的初始特征的空间维度并扩大其感受野以捕获全局信息。 在两个下采样算子之间,添加具有两个 1 × 1 层和两个 ReLU 非线性的特征提取块,以增加其通道大小,同时保持其空间分辨率不变。

4)桥接路径:考虑到多模态交互的重要性,桥接路径被构建为将两个不相交的U-Net耦合在一起,从而形成一种新颖的X形架构。 这种设计的优点如图 4 所示,每条曲线代表反向传播的方向。 从蓝色曲线可以看出,来自一个分支的梯度信息可以通过这一参数共享桥接路径自然地传输到另一个分支。 否则,信息流动将不可避免地受阻,导致两种模式之间的互动不足。

5)跨模态互学习模块:U-Nets最重要的部分是跳跃连接,它负责将下采样路径中每个阶段的特征图连接到上采样路径中的相应阶段,使网络能够 有效地结合低层和高层特征。 为了进一步利用跨模态互补信息,CMMLM 被设计来取代原来的跳跃连接,鼓励输入模态相互学习,以充分探索跨模态特征。

具体结构如图5所示。CMMLM的整个过程可以分为五个阶段,即多尺度特征提取、特征融合、特征自重校准、特征调整和特征注入。 我们以 Zin 和 Yin 生成的特征 F4 为例来演示这个量身定制的模块的工作机制。 具体来说,考虑到多尺度表示在处理具有不同结构的复杂场景中的潜力,我们在第一阶段有意采用具有三个感受野的三流布局,即3×3、5×5和7×7

然而,如果不考虑结果特征的相关性,结果特征的代表性能力仍然有限。 因此,第一阶段的特征图成对连接并输入第二阶段进行深度特征融合.

然而,简单地融合多尺度特征很容易产生冗余信息并导致重要表示的丢失。 考虑到这一缺陷,利用从第一阶段的输出导出的基于注意力的权重系数来重新校准融合特征,使网络能够抑制琐碎信息并突出显着信息.

其中 SAM 代表光谱注意模块,具体来说,每个 SAM 首先采用平均池化将输入特征缩小为向量,然后利用两个 1 × 1 层分别压缩和恢复其通道大小。 最后,一个 Sigmoid 单元产生最终的权重系数。 通过上述三个阶段,可以在很大程度上实现丰富的多尺度特征

 为了成功地将它们注入另一种模态,需要进行尺度调整以消除它们的空间光谱差异。使用两个 3 × 3 卷积层和 ReLU 激活单元调整光谱维度。

最后阶段是从 HrMSI 分支传输 Z4,1 来补充 LrHSI 分支的特征学习,以更好地利用多模态信息。

6)上采样路径:DFIM的最后一部分是上采样路径,在CMMLM的指导下逐渐恢复其空间分辨率,同时降低光谱维度。 在两个上采样算子之间,采用与下采样路径中结构相同的特征提取块来实现谱维数的收缩。 因此,我们将这个过程表述为

7) 丰度生成模块AGM:考虑到多模态信息已通过前两个组件得到充分开发和利用,因此优选采用简单的结构来构建AGM。 如图3(c)所示,首先采用3×3层来压缩输入特征的通道大小,然后是ReLU单元。 之后,第二个3×3层的目标是将通道大小映射到P。考虑到丰度的物理特性,在AGM的底部部署了Clamp函数以保证其非负约束。 通过这种方式,特征输出的每个通道都可以解释为一个光谱特征的分数丰度图。

实验

鲁棒性实验:

2) 噪声:为了评估它们对高斯噪声的鲁棒性,模拟了两种不同的强度,然后将其添加到输入的 HSI-MSI 对应中。 如图14所示,

高斯噪声对融合性能造成不同程度的破坏。 准确地说,MIAE 的质量在 25 dB 的强度下受到严重损害,而 CNMF 和 CSTF 比 MIAE 更稳健,部分原因在于它们的合理约束。 相比之下,XINet 在所有情况下仍然获得最高分,因为所提出的 LWPATV 能够消除丰度图中包含的潜在噪声。

1)超全色锐化:超全色锐化是HSI-SR任务的一种特例,其目的是融合一幅高空间分辨率的PAN图像和一幅低空间分辨率的HSI图像,以产生同时具有高空间和光谱分辨率的产品。 考虑到 PAN 图像和 MSI 之间的差异,现有的 HSI-SR 方法解决这个问题既有趣又具有挑战性。 为了评估 XINet 和三个选定竞争对手的性能,在 PRISMA 数据集上进行了模拟实验。 准确地说,采用比例因子为8的高斯核来生成LrHSI,并利用WorldView 2中PAN仪器的SRF来获取相应的PAN图像。 表 IX 和图 15 报告了四种方法的结果。一般来说,所有方法的性能都不如 MSI 辅助的 HSI-SR 中获得的性能好,主要是由于 PAN 图像携带的信息有限。

具体来说,HyCoNet 在这项具有挑战性的任务中表现出不令人满意的结果,部分原因是其特征提取能力有限。 相比之下,XINet 不仅在定量指标上而且在视觉结果上仍然实现了最佳性能,这很大程度上归功于其对多模态信息的充分利用。 然而,我们的方法在光谱保存方面仍然存在很大的进步空间,这反映了无监督超全锐化的挑战。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值