论文笔记：SpectralFormer Rethinking Hyperspectral Image Classification With Transformers_外文翻译

AiCharm

已于 2022-10-22 08:49:54 修改

阅读量7.4k

点赞数 17

分类专栏：深度学习论文阅读文章标签：计算机视觉深度学习人工智能

于 2022-03-13 19:41:17 首次发布

本文链接：https://blog.csdn.net/muye_IT/article/details/123464262

版权

深度学习论文阅读专栏收录该内容

19 篇文章 39 订阅

订阅专栏

本文提出了一种名为SpectralFormer的新颖网络架构，用于高光谱图像分类。SpectralFormer利用Transformer的优势，同时通过GroupWise频谱嵌入和跨层自适应融合模块来增强对光谱序列信息的捕捉和层间信息传递。实验结果显示，SpectralFormer在三个HS数据集上的分类性能优于传统的CNN、RNN和Transformer，证明了其在HS图像分类任务中的优越性。

摘要由CSDN通过智能技术生成

论文笔记：SpectralFormer Rethinking Hyperspectral Image Classification With Transformers_外文翻译

摘要：
关键字：
1.介绍：
2.SpectralFormer
3.实验
4.结论

摘要：

高光谱(HS)图像具有近似连续的光谱信息，能够通过捕获细微的光谱差异来精确识别物质。卷积神经网络(CNNs)由于具有良好的局部上下文建模能力，在HS图像分类中是一种强有力的特征提取器。然而，由于其固有的网络骨干网的限制，CNN不能很好地挖掘和表示谱特征的序列属性。为了解决这个问题，我们提出了一种新的主干网络–SpectralFormer网络，并从序列的角度对HS图像分类进行了重新思考除了经典变压器中的频带表示之外，SpectralFormer还能够从HS图像的相邻频带中学习频谱局部序列信息，从而产生GroupWise频谱嵌入。更重要的是，为了减少在LayerWise传播过程中丢失有价值信息的可能性，我们设计了一种跨层跳跃连接，通过自适应地学习在各层之间融合“软”残差，将类似记忆的组件从浅层传输到深层。值得注意的是，所提出的SpectralFormer是一个高度灵活的骨干网络，它既可以应用于像素级输入，也可以应用于补丁级输入。我们通过大量的实验对提出的SpectralFormer在三个HS数据集上的分类性能进行了评估，表明了该算法的优越性，并与目前最先进的骨干网络进行了比较，取得了显著的改善。出于可再现性的考虑，这部作品的代码将在https://github.com/danfenghong/IEEE_TGRS_SpectralFormer上提供。

关键字：

卷积神经网络、深度学习、高光谱(HS)图像分类、局部上下文信息、遥感、序列数据、跳跃融合、变换

1.介绍：

在高光谱(HS)成像中，在整个电磁光谱的每个像素处收集数百个(nar行)波长带，这使得能够在细粒度水平上识别或检测材料，视觉线索中极其相似的光谱特征(例如，RGB)[1]。这为各种高级别地球观测(EO)任务提供了巨大的潜力，如精确的土地覆盖测绘、精准农业、目标/对象检测、城市规划、树种分类和矿产勘探。
HS图像分类系统中的一般顺序过程包括图像恢复(例如，去噪和丢失数据恢复)[2]-[5]、降维[6]、[7]、光谱分解[8]-[12]和特征提取[13]-[16]。其中，特征提取是HS图像分类的关键步骤，越来越受到研究者的关注。在过去的十年中，已经提出了大量先进的基于手工和子空间学习的特征提取方法用于HS图像分类[17]。这些方法能够很好地解决小样本分类问题。。然而，当训练规模逐渐增大，训练集变得更加复杂时，它们往往会遇到性能瓶颈。可能的原因是这些传统方法的数据拟合和表示能力有限。深度学习(DL)能够从海量的多元数据中发现隐含的、内在的和潜在的有价值的知识[18]，受到深度学习的巨大成功的启发，人们在设计和增加网络中的高级模块以从遥感数据中提取更多的诊断特征方面做出了巨大的努力。例如，赵等人。[19]开发了一种利用HS和光探测与测距(LiDAR)数据的联合分类框架，该框架已被证明在从多源遥感数据中提取特征方面表现出色。张等人。[20]设计了一种非同寻常的逐块卷积神经网络(CNN)，取得了明显优于其他技术的效果。在这里插入图片描述

近年来，许多公认的骨干网络已经被广泛并成功地应用于HS图像分类任务[28]，如自动编码器(AEs)、CNN、递归神经网络(RNNs)、生成对抗网络(GANS)、胶囊网络(CapsNet)和图卷积网络(GCNS)。Chen等人。[21]堆叠的多重自动编码器网络，用于从降维的HS图像(由主成分分析(PCA)[29]生成)中提取深层特征表示，并将其应用于HS图像分类。Chen等人。[22]通过考虑HS图像的局部上下文信息，采用CNN代替堆叠的AEs进行空间光谱特征的语义提取，达到了较高的分类精度。Hang等人。[23]设计了一种级联RNN用于HS图像分类，利用RNN能够对光谱序列进行建模的特点，有效地表示相邻波段之间的关系。在[24]中，改进了遗传算法，使其适用于HS图像分类任务，输入了三个PCA分量和随机噪声。Paoletti等人。[25]通过定义一种新的空间光谱胶囊单元，对基于CNN的模型进行了扩展，得到了一个高性能的HS图像分类框架，同时降低了网络设计的复杂度。Hongetal.[26]从定性和定量两个方面综合比较了CNNS和GCNS对HS图像的分类效果，提出了一种小批量GCN(MiniGCNs)，为解决GCNS中的大图形问题提供了一种可行的解决方案，适用于目前最先进的HS图像分类。
虽然这些骨干网络及其变体已经取得了很好的分类结果，但它们表征光谱序列信息的能力(特别是捕捉沿光谱方向的细微光谱差异的能力)仍然不足。图1概述了HS图像分类任务中的这些最先进的骨干网络。具体的限制可以大致概括如下：

作为主流的骨干结构，CNNs在从HS图像中提取空间结构信息和局部上下文信息方面表现出了强大的能力。然而，一方面，CNN很难很好地捕捉序列属性，特别是中长期依赖关系。这不可避免地会遇到HS图像分类任务中的性能瓶颈，特别是当待分类的类别种类繁多且在光谱特征上极其相似时。另一方面，CNN过于关注空间内容信息，这在频谱上扭曲了学习特征中的顺序信息。这在很大程度上增加了诊断光谱属性挖掘的难度。
与CNN不同的是，RNN是为序列数据设计的，它从HS图像中有序地逐波段累积学习光谱特征。这种模式极大地依赖于谱带的顺序，并且倾向于产生梯度消失，因此很难学习长期依赖关系[30]。这可能进一步导致捕获时间序列中的光谱显著变化的困难。更重要的是，在真实的HS图像场景中，通常有大量的HS样本(或像素)可用，而RNN却不能并行训练这些模型，从而限制了实际应用中的分类性能。
其他骨干网，即Gans、CapsNet和GCN尽管在学习光谱表示方面具有各自的优势(例如样本之间的稳健性、等价性和长程相关性)，但有一个共同点是，几乎所有的GCN都可能天生不适合对序列信息进行有效建模。也就是说，光谱信息的利用不足(这是利用HS数据进行精细土地覆盖分类或制图的一个关键瓶颈)。

针对上述限制，我们用当前最先进的变压器从序列数据的角度重新思考HS图像分类过程[27]。变压器完全不同于CNN和RNN，由于采用了自我注意技术，变压器是目前最前沿的骨干网络之一，这种技术是为了更有效地处理和分析序列(或时间序列)数据而设计的。这将为HS数据处理和分析(例如HS图像分类)提供很好的匹配。众所周知，变压器中的自我注意挡路能够通过位置编码的方式捕获全局顺序信息[31]。但是，变压器也存在一些不足之处，阻碍了其性能的进一步提高。例如：

虽然变压器在解决频谱长期依赖问题方面表现突出签名时，它们失去了捕获本地上下文或语义特征的能力。
如[32]中所述，跳接(SC)在变压器中起着至关重要的作用。这可以通过使用“残差”来更好地传播梯度，或者通过增强“记忆”来减少关键信息的遗忘或丢失来很好地解释这一点。然而，不幸的是，简单的SC加法操作仅在每个变压器挡路内进行，削弱了不同层或块之间的连通性。

一种新颖的基于变压器的网络架构，简称SpectralFormer，能够实现高性能的HS图像分类任务。点对点解决方案对应上述两个缺点。更具体地说，来自每个编码位置中的多个相邻频带而不是单个频带(在原始变压器中)的局部频谱表示，例如与此外，在SpectralFormer中设计了跨层SC，以通过自适应地学习融合它们的“软”残差，从浅层到深层。本文的主要贡献可以概括为以下几个方面:

我们从序贯角度对问题进行分类，提出了一种新的基于变压器的骨干网–谱形成器，以使替身适用于基于CNNOR或RNN的体系结构。据我们所知，这是第一次变压器(没有任何预处理操作，例如…、使用卷积和递归单元的特征提取或其他变换技术)纯粹应用于HS图像分类任务。
在SpectralFormer中设计了两个简单而有效的模块，即GroupWise谱嵌入(GSE)和分别学习局部详细的光谱表示和从浅层到深层的记忆类分量。
通过大量的烧蚀实验，对提出的SpectralFormer算法在三个具有代表性的HS数据集上的分类性能进行了定性和定量的评估，这三个数据集分别是印第安纳松树、帕维亚大学和休斯顿大学。实验结果表明，与传统变压器(OA提高了约10%)和其他最先进的骨干网络(OA提高至少2%)相比，该方案具有明显的优势。

论文的其余部分组织如下。第二节首先回顾了经典的变压器相关文献，然后详细介绍了提出的SpectralFormer和两个设计良好的HS图像分类模块。第三节对烧蚀的研究和讨论进行了广泛的实验研究。第四节对未来可能的研究方向进行了全面的总结和简要的展望。

2.SpectralFormer

在这一部分中，我们开始回顾一些经典变压器的预备知识。在此基础上，我们提出了频谱形成器设计了GSE和CAF两个模块，使其更适用于HS图像分类任务。最后，我们还考察了所提出的SpectralFormer在输入图像块的情况下对空间上下文信息进行建模的能力。

2.1.Transformer简评

众所周知，Transformer[27]在处理自然语言处理(NLP)(例如机器翻译)中的序列到序列问题时具有显著的地位。由于它们摒弃了RNN的序列依赖特性，而是引入了一种全新的自我注意机制，使得对任意位置单元的全局信息(长期依赖)捕获成为可能，极大地推动了时序数据处理模型的发展。甚至不仅限于NLP，图像处理和计算机视觉领域也开始了对变压器架构的探索。最近，视觉转换器(VIT)[33]似乎已经在各种视觉领域任务上实现或接近了基于CNN的最新效果，为与视觉相关的任务提供了新的洞察力、灵感和创造性空间。在这里插入图片描述

Transformer的成功在很大程度上取决于多头注意的使用，多个自注意层(SA)[34]被堆叠和整合。顾名思义，SA机制更善于捕捉数据或特征的内部相关性，从而减少对外部信息的依赖。图2(A)说明了变压器中SA模块的处理过程。更具体地说，SA层可以根据以下六个步骤来执行。

使用(1)，可以将多个不同的SA层组装成多头显示器，如图2(B)所示。具体地，我们首先获得多个注意力表示(例如，h=8)，表示为z^h,h=1,…,8,，并将它们连接成更大的特征矩阵。最后使用线性变换矩阵(即W_o)来使特征尺寸与输入数据相同。然而，应当注意，在SA层中没有位置信息，这不能利用序列信息。为此，将位置信息编码到特征嵌入中。因此，与时间信号的嵌入可以被表示为a_i+e_i，其中，e_i表示手动给出的唯一位置矢量。

2.2.SpectralFormer综述

我们的目标是开发一种新的基于VIT的通用基线网络(即SpectralFormer)，重点关注光谱特性，使其能够很好地适用于HS图像的高精度和精细分类。为此，我们设计了两个关键模块，即…、GSE和CAF，并将它们集成到转换器框架中，以分别提高对细微光谱差异的细节捕捉能力和增强层间的信息传递性(或连通性)(即随着层的逐渐加深来减少信息损失)。此外，所提出的SpectralFormer不仅适用于按像素划分的HS图像分类，而且还可扩展到按批次输入的空间-光谱分类，从而产生空间-光谱SpectralFormer版本。图3显示了在HS图像分类任务中所提出的SpectralFormer的概况，而表一则详细说明了所提出的SpectralForme中所使用的符号的定义。
在这里插入图片描述

2.3.GroupWise频谱嵌入

与传统VIT中的离散顺序不同，HS图像中的数百或数千个光谱通道以微妙的间隔(例如，10nm)从电磁光谱中密集采样，从而产生近似连续的光谱特征。不同位置的光谱信息反映了不同波长对应的不同吸收特性。这在很大程度上反映了当前材料的物理性质。捕捉这种光谱特征的局部详细吸收(或变化)是准确和精细地对位于HS场景中的材料进行分类的关键因素。为此，我们建议学习GroupWise谱嵌入，即GSE，而不是带宽输入和表示。给定光谱签名(HS图像中的像素)[x_1,x_2,…,x_m ]∈R^(1×m)，由经典变换得到的特征嵌入a由下式表示：
在这里插入图片描述

图4说明了基于变压器的主干网络中的带式和GroupWise频谱嵌入之间的差异，即BSE与GSE。

2.4.跨层自适应融合

在深度网络中，SC机制被证明是一种有效的策略，它可以加强层之间的信息交换，减少网络学习过程中的信息损失。最近，SC的使用在图像识别和分割方面取得了巨大的成功，例如，短SC用于ResNet[35]，长SC用于U-Net[36]。然而，需要注意的是，短SC的信息“记忆”能力仍然有限，而长SC由于高、低水平特征之间的巨大差距，往往会产生不充分的融合。这也是变压器存在的一个关键问题，这将对变压器的建筑设计提出新的挑战。为此，我们在SpectralFormer中设计了一个中端SC，以自适应地学习跨层特征融合(即CAF，见图5)。
设z^((l-2))∈R(1×d_z )和z^((l))∈R(1×d_z )分别为(l-2)层和(l)层的输出，CAF可以表示为
在这里插入图片描述
为其中z ˆ^((l))表示与所提出的CAF在第(l)层中的融合表示，并且w ¨∈R^(1×2)是可学网络中用于自适应融合的参数。需要注意的是，我们的CAF只跳过一个编码器，例如，从图5中的z(l2)(编码器1的输出)跳到z(L)(编码器3的输出)。一方面，分别从浅层和深层提取的低层特征和深层特征之间存在较大的语义鸿沟。如果使用相对较长的SC，例如两个、三个甚至更多编码器，则这可能导致不充分的融合和潜在的信息丢失。另一方面，由于可用的训练样本有限(需要人工标注)，HS图像分类通常可以看作是一个小样本问题。“小”或“浅”骨干网，例如四层或五层，可能已经很适合HS图像分类任务。因此，这在某种程度上可以解释为什么我们建议仅跳过CAF模块中的一个编码器(因为四层或五层的浅网络较小，其不能添加多个CAF模块。
在这里插入图片描述

2.6.Spatial–SpectralSpectralFormer

除了像素级HS图像分类之外，我们还类似地研究了斑块状输入(受CNNs启发)，产生了空间光谱形式版本，即斑块状光谱形式。与直接输入三维面片立方体的CNN不同，我们将每个波段的二维面片展开为相应的一维矢量表示。给定一个三维立方体X∈R^(m×w×h)(w和h是面片的宽度和长度)，它可以沿空间方向展开，然后我们得到在这里插入图片描述
其中x ⃗_i∈R^(wh×1)表示第i个带的未折叠贴片。这种输入方式可以在很大程度上保留网络学习中的频谱顺序信息，同时考虑空间上下文信息。

3.实验

在这一部分中，首先描述了三个著名的HS数据集，然后介绍了它们的实现细节和比较的最新方法。最后，利用烧蚀分析进行了大量的实验，以评估所提出的HS图像的分类性能光谱形成既有定量的，也有定性的。

3.1.数据描述

印第安松数据：第一批HS数据是1992年在美国印第安纳州西北部使用机载可见光/红外成像光谱仪(AVIRIS)传感器收集的。HS图像由145×145个像素组成，地面采样距离(GSD)为20m，220个光谱波段覆盖400-2500nm的波长范围，光谱分辨率为10-m。在去除20个噪声和水吸收带之后，保留了200个光谱带，即1-103、109-149和164-219。在这一研究场景中，主要调查的类别有16个。。分类任务中用于训练和测试的类名和样本数量如表II所示，而图6还给出了训练和测试集的空间分布，以再现分类结果。
帕维亚大学资料：第二幅HS场景是由反射光学系统成像光谱仪(ROSIS)传感器在帕维亚大学及其周围地区拍摄的，位于意大利帕维亚。该传感器可以捕获103个光谱波段，范围从430到860nm，图像由610×340个像素组成，GSD为1。这个场景包括9个土地覆盖类，固定数量的训练和测试样本在表III中详细说明，并在图7中空间可视化。
休斯顿2013年的数据：第三个数据集是由ITRESCASI-1500传感器在美国得克萨斯州休斯顿大学及其邻近农村地区的校园上空获取的，作为基准数据集，已被广泛用于评估土地覆盖分类的性能[37]。HS立方体由349×1905个像素组成，具有144个波长带，间隔10nm，范围为364-1046nm。然而，值得注意的是，我们使用的Houston2013数据集是一个无云版本，处理后通过生成与照明相关的阈值贴图来恢复丢失的数据或移除遮挡。1表四列出了15个具有挑战性的土地覆盖和土地利用类别，以及相应的培训和测试集样本数量。类似地，关于假彩色HS图像和由2013提供的发布的训练和测试样本的可视化结果IEEEGRSS数据融合竞赛2如图8所示。

3.2.实验设置

3.2.1评价指标：

从总体准确率(OA)、平均准确率(AA)和卡帕系数(κ)三个常用指标对每个模型的分类性能进行定量评价。并将不同模型得到的分类图可视化，进行定性比较。

3.2.2与最先进的主干网络进行比较：

选择了几个具有代表性的基线和骨干网进行了后续的对比实验。它们是K-近邻(KNN)、支持向量机(SVM)、随机森林(RF)、一维CNN[17]、二维CNN[22]、RNN[23]、MiniGCN[26]、变压器[27]和提出的SpectralFormer。下面详细介绍这些比较方法的参数配置：

对于k近邻网络，最近邻数目(K)是一个重要因素，它对分类性能有很大影响。我们将其设置为10。
对于RF，在我们的实验中使用了200个决策树。
对于支持向量机，选择libsvm工具箱3来实现HS图像分类任务。支持向量机采用径向基函数(RBF)核。在径向基函数中，σ和λ这两个超参数可以在σ=[2^(-3),2(-2),…,2^4
]和λ=[10^(-2),10(-1),…,10^4 ]。
对于一维CNN，定义一个卷积挡路为基本网络单元，包括一组输出大小为128时的一维卷积滤波器、批归一化(BN)层和RELU激活函数。最后在1-DCNN的顶层增加了Softmax功能。2-DCNN结构具有3个2-D卷积块和1个Softmax层。与1-DCNN类似，2-DCNN的每个卷积挡路由2-D常规层、BN层、最大合并层和RELU激活函数组成。此外，每个二维卷积层的空间接受场和光谱接受场分别为3×3×32、3×3×64和1×1×128。
对于RNN，有两个带门控递归单元(GRU)的递归层。它们中的每一个都有128个神经元单元。使用的代码可从https://github.com/danfenghong/HyFTech.公开获得对于微型GCN，网络挡路依次包含BN层、128个神经元单元的卷积层和一个RELU层。注意，GCN中的邻接矩阵可以使用基于KNN的图来生成(K的数目与KNN分类器相同，即，K=10)。MiniGCN和1-DCNN共享相同的网络架构(为了进行公平比较)。顾名思义，MiniGCN可以以小批量方式进行训练。我们参考[26]了解更多细节，代码4是为了重现性。
对于Transformer，我们遵循VIT网络架构[33]，即仅包括变压器编码器。具体地，在基于VIT的网络中使用了五个编码块来进行HS图像分类。
对于提出的SpectralFormer，我们采用与上述变压器相同的主干架构，以进行公平的比较。更具体地说，64个单元的嵌入频谱被馈送到5个级联的变压器编码块中，用于HS图像分类。每个编码器挡路由一个四头SA层、一个8个隐藏维度的多层处理机和一个GELU[38]非线性激活层组成。在编码位置嵌入之后使用丢失层，并且在MLP中用于抑制10%的神经元。考虑到参数大小从像素谱形式明显增加到面片形式(经验上将面片大小设置为7×7)，我们另外采用了由5e-3参数化的l_2权衰减正则化[39]，以防止后者潜在的过拟合风险。

3.2.3实现细节：

我们提出的SpectralFormer是在PyTorch平台上使用i7-6850KCPU,128-GBRAM和NVIDIAGTX1080Ti11-GBGPU的工作站实现的。我们采用小批量大小为64的ADAM优化器[40]。学习速率用5e-4初始化，在总周期的十分之一之后通过乘以0.9的因子衰减。我们粗略地设在三个数据集上设置为1000。6然而，值得注意的是，我们发现，在实践中，我们使用CAF模块的SpectralFormer能够通过使用更少的训练周期(即印第安松数据集的300次和其他两个数据集的600次)的收敛来实现明显的效率改进。

3.2.4计算复杂度分析：

对于给定的光谱长度为m的HS图像，提出的SpectralFormer算法的每层计算复杂度主要由自注和多头操作决定，总体复杂度为O(m^2 d+md^2 )，其中d是隐藏特征的大小，这些特征也用于深度竞争对手进行公平的理论比较。在m次顺序运算后，RNN的复杂度为O(md^2 )，而核宽度为k的CNN的复杂度大大提高到O(kmd^2 ).。GCN(即MiniGCN)由于其批次图抽样而需要O(bmd+b^2 m)，其中b表示小批次的大小。

3.3.模型分析

3.3.1消融研究：

通过在网络中逐步添加不同的模块(即GSE和CAF)，考察了所提出的SpectralFormer在分类精度方面的性能增益。为此，我们在印第安松数据集上进行了广泛的消融实验，以验证SpectralFormer中这些组件(或模块)对于HS图像分类应用的有效性，如表V所列。详细地说，传统变压器(VIT)没有GSE和CAF模块产生的分类精度最低，这在一定程度上表明VIT架构可能不太适合HS图像分类。通过将GSE或CAF插入到VIT中，像素化SpectralFormer的分类结果优于VIT(高出分别约4%和3%的OAS)。更好的是，GSE和CAF的联合开发可以进一步带来显著的性能提升(OA超过4%)。更值得注意的是，我们的SpectralFormer还能够通过简单地展开补丁输入来捕获HS图像的局部空间语义。结果，在至少增加3%的OA(与第二个记录相比，即78%)时，斑片式SpectralFormer的性能明显好于像素式SpectralFormer。55%)。在这里插入图片描述

有趣的是，在表V中有一个值得注意的趋势，即与单独使用GSE相比，当在GSE中仅使用较少数量的相邻频带时，联合使用GSE和CAF往往获得最佳性能。这可以很好地解释为，在加入CAF之后，能够更有效和更容易地学习光谱信息。换言之，频带之间的重叠越少(即…，在激活CAF模块之后，在GSE中相邻频带的数目较小)可以足以获得更好的分类性能。

3.3.2参数敏感度分析：

除了网络中的可学习参数和训练过程中需要的超参数外，GES中相邻波段的数量对最终的分类性能起着至关重要的作用。因此，探索合适的参数范围是必不可少的。类似地，我们以一种烧蚀的方式，即只使用GSE和联合使用GSE和CAF，研究了印地松数据集上的参数敏感性。表VI列出了分类精度随OA、AA和κ分组波段数量的逐渐增加而变化的趋势。一个普遍的结论是，GSE通过有效地捕获相邻波段的局部光谱嵌入，可以更好地挖掘细微的光谱差异。在一定范围内，该参数对分类性能不敏感。这为所提出的模型在实际应用中提供了巨大的潜力。换句话说，该参数可以简单而直接地用于其他数据集。在这里插入图片描述

我们还对短程和短程进行了定量比较。为了验证拟议的SpectralFormer在处理频谱数据方面的有效性，我们将在变压器中使用远程SC(例如ResNet中的SC)、远程SC(例如U网中的SC)和中程SC(即我们的CAF模块)。表VII量化了在印第安松数据集上分别使用短期、中期和远程SC的分类性能比较。一般而言，具有远程SC的VIT产生较差的性能，可能是因为这样的SC策略可能不能充分融合和传达远程跨层特征，倾向于丢失部分“重要”信息。这证明了caf模块的优越性，它可以更有效地跨不同层交换信息(请参阅短程SC)，减少信息丢失(参见远程SC)。此外，我们从印地安松数据集上的给定训练集中随机选择了不同数量的训练样本，从10次运行中按[10%，20%，.。…，100%]，间隔为10%。建议的SpectralFormer获得的OA的标准偏差值的平均结果（包括像素和补丁（参见短程SC）并减少信息损失（参见长程SC）。此外，我们随机选择了一个不同的数字在IndianPines数据集上以[10%,20%,…,100%]的比例以10%的间隔运行10次中来自给定训练集的训练样本。具有标准偏差值的平均结果在图9中报告了由提议的SpectralFormer获得的OA（包括逐像素和逐补丁版本）。结果有一个基本合理的趋势。也就是说，随着训练样本使用率的增加，分类性能逐渐提高。注意，当涉及更多的训练样本(例如80%、90%和100%)时，OAS趋于稳定，这在很大程度上显示了所提出的SpectralFormer的稳定性。此外，正如预期的那样，斑块式SpectralFormer的性能明显优于像素式SpectralFormer。
在这里插入图片描述

3.4.量化结果和分析

在这里插入图片描述

根据三个总体指数(即OA、AA和κ)的定量分类结果和每个类别的精度在表VIII-X中报告，用于帕维亚的印第安松树University和Houston2013HS数据集。总体而言，传统分类器，例如，KNN、RF和支持向量机在所有三个数据集上都取得了相似的分类性能，除了在印第安松数据集上使用kNN的OA、AA和κ方面的精度(远远低于使用RF和SVM的分类性能)。由于DL技术强大的学习能力，经典的骨干网络，如一维CNN、二维CNN、RNN和MiniGCN，表现出明显优于上述传统分类器(即KNN、RF和SVM)的性能。实验结果在很大程度上证明了基于DL的分类方法在HS图像分类中的价值和实用性。在没有任何卷积和递归运算的情况下，转换器从序列透视图中提取更精细的频谱表示，其性能可与基于CNN、RNN或GCN的模型媲美。
虽然变压器能够捕获全局顺序信息，但对一些关键因素局部频谱差异-建模的能力仍然有限，并导致性能瓶颈。为了克服这一问题，提出的SpectralFormer充分提取了相邻波段的局部光谱信息，极大地提高了分类性能。特别值得一提的是，即使与考虑空间内容的基于CNN的方法相比，像素级的SpectralFormer仍出人意料地优于其他方法。毫无疑问，斑块式SpectralFormer在顺序特征提取过程中综合考虑了空间和上下文信息，获得了比其他竞争者更高的分类精度。
此外，对于那些在印第安松数据上具有有限训练样本(例如修剪的草地和燕麦)和不平衡(或噪声)样本(例如玉米收割机、草地牧场和干草缠绕)的具有挑战性的类别，SpectralFormer，无论是像素输入还是斑块输入，都倾向于通过关注光谱剖面的特定吸收位置来获得更好的分类性能。相反，尽管变换(VIT)对光谱序列数据具有很好的表示能力，但由于对局部光谱差异的建模能力较弱，无法准确捕捉到细节的光谱吸收或变化。

3.5.视觉评估

在这里插入图片描述

通过对不同方法得到的分类图进行可视化，进行定性评价。图6、图7和图8分别提供了印第安松、帕维亚大学和休斯顿2013数据集的获得结果。粗略地说，传统的分类模型(例如，KNN、RF和SVM)倾向于在三个考虑的数据集的分类图中产生盐和胡椒噪声。这间接表明这些量词不能准确地识别物体的材料。不足为奇的是，基于DL的模型，例如CNN、RNN和GCNS，由于其强大的非线性数据拟合能力，获得了相对平滑的分类图。作为一种新兴的网络体系结构，转换器(在我们的案例中使用VIT)可以从HS图像中提取高度连续的表示，从而产生可与上述经典骨干网络相媲美的可视化分类图。通过增强光谱相邻信息和更有效地跨层传递“记忆”信息，我们提出的SpectralFormer获得了非常理想的分类图，特别是在纹理和边缘细节方面。此外，我们还选择了感兴趣区域(ROI)(来自图6、7和8)放大两次以突出显示不同模型之间的分类地图的差异，进一步更直观地评估它们的分类性能。作为从这些可以看出ROI，一个值得注意的现象是，我们的方法，即像素化和斑块化的频谱形成器，显示了更真实和更精细的细节。具体地说，与KNN、RF、SVM、一维CNN、RNN、MiniGCN和VIT等像素化方法相比，我们的方法的结果具有较少的噪声点，但也避免了边缘或一些小语义对象的过度平滑(cf.2-DCNN)，它产生了更准确的分类性能。特征可视化：图10使用所提出的仅具有CAF和不具有CAF(即，VIT)的SpectralFormer框架来可视化所选择的编码器输出特征。我们有选择地挑选了一些有代表性的特征地图进行视觉比较，其中使用CAF模块的可视化结果具有更好的外观(例如…、对象的边缘或轮廓、纹理结构等)。这也证明了从视觉角度看CAF模块设计的有效性和优越性。
在这里插入图片描述

4.结论

HS图像通常被收集(或表示)为具有空间光谱信息的数据立方体，其通常可以被视为沿着光谱维度的数据序列。与主要关注上下文信息建模的CNN不同，转换器已被证明是一种在全球范围内表征序列属性的强大体系结构。然而，传统的基于变压器的视觉网络，例如VIT，在处理类似HS的数据时不可避免地受到性能下降的影响。可以很好地解释这一事实，即VIT未能对局部详细的光谱差异进行建模，并有效地传达类似“记忆”的成分(从浅层到深层)。为此，本文提出了一种新的基于变压器的主干网–SpectralFormer，它更侧重于光谱信息的提取。在不使用任何卷积或递归单元的情况下，所提出的SpectralFormer可以获得最先进的HS图像分类结果。在未来，我们将研究如何利用更先进的技术，如注意力、自监督学习等，进一步完善基于变压器的体系结构，使其更适用于HS图像分类任务，并尝试建立一个轻量级的基于变压器的网络，在保持网络复杂度的同时降低网络复杂度。此外，我们还希望将更多的光谱波段物理特征和HS图像的先验知识嵌入到所提出的框架中，从而产生更多可解释的深层模型。此外，CAF模块中跳过和连接的编码器的数量是提高SpectralFormer分类性能的一个重要因素，这在今后的工作中应该得到更多的关注。

**图表、致谢及参考文献已略去
原文出处：Hong D , Han Z , Yao J , et al. SpectralFormer: Rethinking Hyperspectral Image Classification with Transformers[J]. 2021