SpectralFormer: Rethinking Hyperspectral Image Classification With Transformers

Danfeng Hong , Senior Member, IEEE, Zhu Han , Student Member, IEEE, Jing Yao ,
Lianru Gao , Senior Member, IEEE, Bing Zhang , Fellow, IEEE, Antonio Plaza , Fellow, IEEE, and Jocelyn Chanussot , Fellow, IEEE

Abstract

  • 高光谱(HS)图像具有连续的光谱信息,通过捕获微妙的光谱差异来精细地识别材料。由于卷积神经网络出色的局部上下文建模能力,已被证明是HS图像分类中强大的特征提取器。然而,由于其固有网络主干的局限性,CNN无法很好地挖掘和代表光谱特征的序列属性。
  • 为了解决这个问题,我们从序列的角度重新思考HS图像分类,并提出了一个名为SpectralFormer的新型骨干网络:
    1. 除了经典transformer中的逐带表示外,SpectralFormer还能够从HS图像的相邻带中学习光谱局部序列信息,从而产生分组光谱嵌入。
    1. 更重要的是,为了减少在分层传播过程中丢失宝贵信息的可能性,我们设计了一种跨层跳跃连接,通过自适应学习在外层之间融合“软”残差,将类似记忆的组件从浅层传输到深层。
  • 所提出的SpectralFormer是一个高度灵活的骨干网络,可以适用于像素级和块级输入。我们通过进行广泛的实验,在三个HS数据集上评估spectralFormer的分类性能,显示其优于经典transformers并与最先进的骨干网络相比取得了显著的提升。

HSI介绍

高光谱在整个或可见光、近红外和短波红外波波长(350nm至2500nm)的子集上进行测量。在这个光谱范围内到达传感器的辐射度由场景中物体反射的太阳能主导,它与物体表面材料的定向反射率成正比。光谱是根据观测到的辐射度和表面反射率来测量的。反射率作为光谱单位通常是首选的,因为它是独立于光照的内在物质属性。使用大气补偿技术从观测到的辐射度中估计表面反射率。
在这里插入图片描述
图1显示高光谱图像为三维数据立方体,空间轴采样为像素,每个像素的反射率光谱采样为带。数据立方体中的每个元素代表在特定像素覆盖的区域(按行和列号索引)上平均的反射率值,并集成在给定波长带(按带号索引)上。反射光谱的形状,有时称为光谱特征,通常是材料所独有的,可用于识别和研究材料。

I. Introduction

在高光谱(HS)成像中,在整个电磁频谱的每个像素处收集数百个波长波段,从而能够在细粒度水平上识别或检测材料,特别是对于那些在视觉线索中具有极其相似光谱特征的材料(例如RGB)[1]。这在各种高水平地球观测(EO)任务中提供了巨大的潜力,例如准确的土地覆盖测绘、精确农业、目标/物体检测、城市规划、树种分类和矿物勘探。

在过去的十年中,已经提出了大量的先进手工设计和子空间学习的特征提取方法,用于高光谱图像分类。这些方法能够在小样本分类问题中表现良好。然而,当训练规模逐渐增加,训练集变得更加复杂时,他们往往会遇到性能瓶颈。可能的原因是这些传统方法的数据拟合和表示能力有限。受深度学习(DL)的巨大成功的启发,深度学习能够从大量多元数据中找到内涵、内在和潜在有价值的知识。

近年来,许多公认的骨干网络已被广泛成功应用于HS图像分类任务[28],如自动编码器(AE)、CNN、循环神经网络(RNN)、生成对抗网络(GAN)、胶囊网络(CapsNet)和图形卷积网络(GCN)。
Chen等人[21]堆叠的多重自编码器网络,从主成分分析(PCA)生成的降维HS图像中提取深度特征表示,并应用于HS图像分类。
Chen等人[22]使用CNN,通过考虑HS图像的局部上下文信息来从语义上提取空间光谱特征,从而实现更高的分类准确性。
Hang等人[23]利用RNN设计了一种用于HS图像分类的级联RNN,RNN可以模拟顺序,以有效表示相邻光谱带的关系。
在[24]中,GAN得到了改进,使其适用于HS图像分类任务,并输入了三个PCA组件和随机噪声。
Paoletti等人[25]通过定义一个新的空间-光谱胶囊单元扩展了基于CNN的模型,产生了HS图像的高性能分类框架,同时降低了网络设计的复杂性。
Hong等人[26]对CNN和GCN对HS图像的定性和定量分类进行了全面比较,并提出了一个mini batch GCN,为解决GCN中大图问题提供了可行的解决方案,用于最先进的HS图像分类。

尽管这些骨干网络及其变体能够获得有希望的分类结果,但它们表征光谱序列信息的能力(特别是在沿光谱尺寸捕获微妙的光谱差异)方面仍然不足。图1概述了HS图像分类任务中这些最先进的骨干网络。具体限制可以大致总结如下。
在这里插入图片描述

  • 作为主流的骨干架构,CNN在从HS图像中提取空间结构信息和局部上下文信息方面表现出强大的能力。然而,一方面,CNN很难很好地捕获序列属性,特别是中长期依赖性。这不可避免地产生了HS图像分类任务中的performance瓶颈,特别是当要分类的类别种类繁多,在光谱特征上非常相似时。另一方面,CNN过度关注空间内容信息,这会在光谱上忽略学习特征中的序列信息。在很大程度上,这使得挖掘诊断光谱属性变得更加困难。
  • 与CNN不同,RNN是为序列数据设计的,它以有序的方式从HS图像中逐段地逐段地学习光谱特征。这种模式极其取决于光谱带的顺序,并倾向于产生梯度消失,因此很难学习长期依赖性[30]。这可能会进一步导致难以捕获时间序列中的光谱显著变化。更重要的是,在真实的HS图像场景中通常有大量的HS样本(或像素),但RNN无法并行训练模型,限制了实际应用中的分类性能。
  • 对于其他骨干网络,即GAN、CapsNet和GCN,尽管它们在学习光谱表示方面具有各自的优势(例如,鲁棒性、等效性和样本之间的远程相关性),但一个共同点是,几乎所有它们都可能本质上不能够有效地对顺序信息进行建模。也就是说,光谱信息的利用不足(是精细土地覆盖分类或使用HS数据测绘的关键瓶颈)。

针对上述局限性,我们用当前最先进的transformer[27]从序列数据角度重新思考HS图像分类过程。与CNN和RNN完全不同,由于使用了自注意力技术,transformer是尖端的骨干网络之一,这些技术可以更有效地处理和分析序列数据。transformer中的自注意块可以通过位置编码来捕获全局顺序信息。然而,transformer也存在一些缺点,阻碍了其性能的进一步提高。例如,

  • 尽管变压器在解决光谱特征的长期依赖性问题方面表现优异,他们失去了捕获局部上下文或语义特征的能力;
  • 跳跃连接(SC)在变压器中起着至关重要的作用。这可以通过使用“残差”使梯度更好地传播或增强“记忆”以减少关键信息的遗忘或丢失来很好地解释这一点。然而,不幸的是,简单的加法SC操作只发生在每个变压器块内,削弱了不同层或块之间的连接。

出于这些原因,我们的目标是开发一种新颖的基于变压器的网络架构,简称SpectralFormer,实现高性能HS图像分类任务。SpectralFormer提供了与上述两个缺点相对应的点对点解决方案。更具体地说,SpectralFormer能够从多个相邻波段而不是每个编码位置的单个波段学习局部光谱表示,例如,分组与带向嵌入。此外,在SpectralFormer中设计了一个cross-layer,通过自适应学习融合其“软”残差,逐步将类似内存的组件从浅层传输到深层。本文的主要贡献可以总结如下:

  • 我们从序列的角度重新审视HS图像分类问题,并提出了一个新的基于变压器的骨干网络,称为SpectralFormer,以取代基于CNN或RNN的架构。据我们所知,这是变压器首次纯粹应用于HS图像分类任务。
  • 我们在SpectralFormer中设计了两个简单但有效的模块,即分组光谱嵌入(GSE)和跨层自适应融合(CAF),以学习局部详细的光谱表示,并分别从浅层到深层传输类似记忆的组件。
  • 我们通过广泛的消融研究,定性和定量地评估了SpectralFormer在三个具有代表性的HS数据集上的分类性能,即印第安松树、帕维亚大学和休斯顿大学。实验结果大大优于经典ViT(OA增加约10%)和其他最先进的骨干网络(至少2%的OA改进)。

II. SPECTRALFORMER

Overview of SpectralFormer

我们的目标是开发一种新颖和通用的基于ViT的基线网络(即SpectralFormer),重点是光谱度量特性,使其适用于HS图像的高度准确和精细分类。为此,我们设计了两个关键模块,即GSE和CAF,并将其集成到ViT框架中,以提高微妙光谱差异的细节捕捉能力,并分别增强层之间的信息传递性(或连接性)(即随着层的逐渐加深减少信息丢失)。
此外,SpectralFormer不仅应用于像素HS图像分类,还可以扩展到具有批量输入的空间-光谱分类,产生空间-光谱SpectralFormer版本。图3说明了HS图像分类任务中的SpectralFormer的概述。
在这里插入图片描述

Groupwise Spectral Embedding

与经典变压器或ViT中的离散顺序不同,HS图像中的数百或数千个光谱通道以微妙的间隔(例如10纳米)从电磁频谱中密集采样,产生大量连续的光谱特征。不同位置的光谱信息反映了对应于不同波长的不同吸收特性。这在很大程度上显示了当前材料的物理性质。捕获此类光谱特征的局部详细吸收(或变化)是准确和精细地对HS场景中的材料进行分类的关键因素。为此,我们建议学习分组光谱嵌入,即GSE,而不是带向输入和表示。给定一个光谱特征(HS图像中的像素) x = [ x 1 , x 2 , . . . , x m ] ∈ R 1 × m x = [x_1,x_2,...,x_m] ∈ R^{1×m} x=[x1,x2,...,xm]R1×m,由经典ViT获得的特征嵌入为 A = w x A=wx A=wx其中 w ∈ R d × 1 w ∈ \mathbb{R}^{d×1} wRd×1表示等价地用于光谱特征中所有波段的线性变换, A ∈ R d × m A ∈ \mathbb{R}^{d×m} ARd×m收集输出特征,而所提出的GSE从相邻波段学习特征嵌入。因此,GSE模块可以表示为 A = W X = W g ( x ) A = W X = Wg (x) A=WX=Wg(x)函数g(·)表示与变量 x x x相关的重叠分组操作,即 X = g ( x ) = [ x 1 , . . . , x q , . . . , x m ] X =g(x)=[x_1,...,x_q,...,x_m] X=g(x)=[x1,...,xq,...,xm]其中 x q = [ x q − ⌊ ( n / 2 ) ⌋ , . . . , x q , . . . , x q + ⌊ ( n / 2 ) ⌋ ] ∈ R n × 1 x_q= [x_{q-\lfloor (n/2) \rfloor},..., x_q ,...,x_{q+\lfloor (n/2) \rfloor}] \in \mathbb{R}^{n×1} xq=[xq⌊(n/2)⌋,...,xq,...,xq+⌊(n/2)⌋]Rn×1
在这里插入图片描述

Cross-Layer Adaptive Fusion

SC机制已被证明是深度网络的有效策略,可以加强层间的信息交换,并减少网络学习过程中的信息丢失。使用SC最近在图像识别和分割方面取得了巨大成功,例如,ResNet的短SC[35]和U-Net的长SC[36]。然而,应该指出的是,短SC的信息“记忆”能力仍然有限,而由于高水平和低水平特征之间的巨大差距,长SC往往会产生不足的融合。这也是变压器中存在的一个关键问题,这将对变压器的架构设计构成新的挑战。为此,我们在SpectralFormer中设计了一个中程SC,以自适应地学习跨层特征融合。
在这里插入图片描述

应该注意的是,我们的CAF只跳过一个编码器,这样设置的原因主要有两个,一方面,分别从浅层和深层获得的低层和深层特征之间存在很大的语义差距。如果使用相对较长的SC,例如两个、三个甚至更多的编码器,那么这可能会导致融合不足和潜在的信息丢失。另一方面,由于可用的训练(需要手动标记)样本有限,HS图像分类通常可以被视为小样本问题。“小”或“浅”的骨干网络,例如四层或五层,可能已经非常适合HS图像分类任务。因此,这在某种程度上可以解释为什么我们建议在CAF模块中只跳过一个编码器(因为四层或五层浅网络很小,无法添加多个CAF模块)。

Spatial–Spectral SpectralFormer

除了像素级HS图像分类外,我们同样研究了patchwise输入,产生了空间-光谱光谱前版本,与直接输入三维补丁立方体的CNN不同,我们将每个波段的二维补丁展开到相应的一维矢量表示。给定一个三维立方体 X ∈ R m × w × h X ∈ R^{m×w×h} XRm×w×h(w和h是补丁的宽度和长度,m为通道数),它可以随着空间方向展开,我们有 X ^ = [ x ⃗ 1 , . . . , x ⃗ i , . . . , x ⃗ m ] \hat{X}=[\vec{x}_1,...,\vec{x}_i,...,\vec{x}_m] X^=[x 1,...,x i,...,x m]其中 x i ∈ R w h × 1 x_i ∈\mathbb{R}^{wh×1} xiRwh×1表示第i个波段的展开patch。这种输入方式在很大程度上可以保留网络学习中的光谱序列信息,同时考虑空间上下文信息。

注:胶囊网络和图卷积网络

胶囊网络【25】

  • 胶囊网络概述:胶囊网络是一种基于神经网络的模型,与传统的卷积神经网络(CNN)相比,它引入了胶囊(Capsule)的概念,用于表示图像中的特征或对象。胶囊是一组向量,其中每个向量代表一个特定的特征。通过胶囊之间的动态路由机制,胶囊网络可以学习到特征的层次化表示。
  • 胶囊网络结构:在该方法中,研究人员提出了一种特定的胶囊网络结构,用于高光谱图像分类。该网络由多个胶囊层组成,其中每个胶囊层包含多个胶囊单元。每个胶囊单元通过动态路由机制与前一层的胶囊单元进行交互,并通过计算向量之间的相似性来更新权重。 胶囊表示的特征提取:通过训练过程,胶囊网络能够学习到高光谱图像中的层次化特征表示。每个胶囊单元可以捕获不同频谱带的信息,并在胶囊层之间传递这些信息。这种层次化表示可以更好地捕捉高光谱数据中的空间和光谱关系。
  • 分类器:在胶囊网络的最后一层,研究人员采用了一个全连接层作为分类器,用于将提取到的特征映射到不同类别的概率。然后使用交叉熵损失函数来优化网络,并进行分类任务。

流程:
输入层:接受高光谱图像作为输入。卷积层:通过一系列的卷积操作,提取输入图像的低级特征。
主胶囊层:主胶囊层是胶囊网络的核心部分。每个主胶囊单元包含多个胶囊。这些胶囊单元表示不同的特征,例如不同频谱带的信息。
动态路由:主胶囊层与前一层的胶囊单元之间通过动态路由进行交互。动态路由根据胶囊单元之间的相似性,更新权重并传递信息。
胶囊层堆叠:胶囊网络可以包含多个胶囊层,每一层都进行胶囊的学习和特征提取。
分类器:在胶囊网络的最后一层,使用全连接层作为分类器,将提取到的特征映射到不同类别的概率。

GCN【26】

  • 数据准备:首先,将高光谱图像表示为一个图的形式,其中每个像素被看作图中的一个节点,像素之间的空间关系和光谱相似性被看作图中的边。
  • 图构建:根据高光谱图像中像素之间的空间关系和光谱相似性,构建图结构。常见的图构建方法包括基于邻域的图构建和基于相似性的图构建。邻域图构建方法使用像素周围的邻居像素作为图中的节点,相似性图构建方法根据像素之间的光谱相似性来构建图。
  • 图卷积操作:在图卷积网络中,每个图卷积层对图中的节点进行特征传播和聚合操作。图卷积操作利用节点之间的连接和节点自身的特征来更新节点的表示。这样,每个节点都能够利用其邻居节点的信息来更新自身的特征表示。
  • 分类器:在最后一个图卷积层之后,使用一个全连接层或其他适当的分类器对提取到的特征进行分类。分类器将学习到的节点特征映射到不同类别的概率。
  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值