摘要
注意力机制驱动的深度模型最近取得了成功,如最具代表性的视觉转换器(ViT),吸引了一波高级研究来探索它们对更广泛领域的适应。然而,遥感(RS)领域中基于Transformer的方法更关注单模态数据,这可能会在充分利用不断增长的多模态地球观测数据时失去可扩展性。为此,我们提出了一种新的多模式深度学习框架,通过在最小修改的情况下扩展传统的ViT,针对土地利用和土地覆盖(LULC) 分类任务。
与采用线性patch投影或深度区域嵌入器的常见主干不同,我们的方法处理多模式RS图像补丁,该补丁具有用可分离卷积模块扩展的位置共享ViT的平行分支,这为利用空间和模态特定的通道信息提供了一个经济的解决方案。
此外,为了促进异构模态之间的信息交换,通过利用RS场景中的像素级空间相关性,通过跨模态注意力(CMA)模块来融合它们的标记化嵌入。
这两种修改都显著提高了分类标记在每个模态中的辨别能力,因此通过基于完全标记的决策级融合模块可以最终实现进一步的性能提高。我们在两个多模式RS基准数据集上进行了广泛的实验,即包含高光谱(HS)和光探测与测距(LiDAR)数据的Houston2013数据集,以及包含HS和合成孔径雷达(SAR)数据的Berlin数据集,以证明我们的 扩展视觉Transfoemer(ExViT) 优于基于转换器或卷积神经网络(CNN)主干的并发竞争对手,此外还有几个具有竞争力的基于机器学习的模型。
代码:https://github.com/jingyao16/ExViT
Introduction
过去十年见证了航空航天和遥感技术的快速发展,为地球科学分析师提供了大量多源和多模式遥感数据[1]。这些数据的可用性不断增加,不仅为更好地理解智能地球观测开辟了新的可能性,而且在各种遥感应用中也提出了新的方法学挑战,如地表物质识别[2]、[3]、矿产勘探和测绘[4]、场景理解[5]、[6]、物体探测[7]和变化监测[8]、[9]。在这篇文章中,我们特别关注土地利用和土地覆盖(LULC)分类[10]这一最具挑战性的任务之一,它在满足精准农业和林业、城市规划、环境监测以及跨行业和社会治理的灾害响应方面变得越来越重要。
给定一张遥感图像,LULC分类的目的是根据每个像素的地面覆盖信息,人为或自然原因,为其分配一个唯一的标签。在实践中,高光谱(HS)图像在应用于LULC分类任务时已成为最受关注的遥感数据类型之一,因为它在捕捉丰富的光谱信息方面具有卓越的能力,可以精确地表征感兴趣的地面物体[11]。多年来,研究人员一直致力于开发更有效的HS图像特征提取器:例如,Tuia等人[12]定义了一个层次设置下的主动集特征学习器,允许生成复杂的滤波器,更好地解释HS数据的非线性;Hsu[13]采用小波变换和匹配追踪提取鲁棒的HS图像特征进行分类;Ghamisi等人[14]提出了一种新的基于属性轮廓的方法,该方法能够学习空间不变特征,从而提高分类性能。如果不采用先进的机器学习和图像处理技术,就无法成功地提出这类多样化的例子。
有了上述精心设计的特征提取器,HS数据在材料级别识别混合像素的潜力大大提高。然而,仅依靠这种被动HS传感模式仍然容易受到不稳定成像条件的影响,例如变化的照明和云扰动,因此不能保证准确稳定的LULC映射结果。在这方面,一些最新的方法设法进一步利用现行文书获得的其他模式。由于异质模态(如光探测和测距(LiDAR)数据中包含的高度信息和合成孔径雷达(SAR)数据中所包含的几何信息)背后的互补线索,这些像素不仅从光学角度看具有不可分辨的模式,而且具有不同的语义,但具有相似的空间和光谱模式,可以获得区分的机会,如图1中的证据。
图1 示例说明了我们的方法在用多模式RS图像输入映射LULC类别时实现的卓越分类性能。(a) 以及(b)分别对混浊的HS图像和LiDAR衍生的DSM进行伪彩色可视化。(c) –(g)通过具有代表性的并行多模式分类方法,即CoSpace[15]、CCR Net[16]和RS Transformer[17]、[18]获得的分类映射结果,然而,由于在云或阴影干扰下对互补多模式相关性的利用不足,地面物体的完整性无法得到很好的保留。从我们在(h)中提出的ExViT的结果可以得出关于这个问题的明显改进。
由于深度学习在过去几年盛行,通过广泛尝试利用具有独特架构和学习策略的端到端神经网络,分离特征提取和决策的传统方式发生了革命性的变化。例如,Paoletti等人[19]早些时候尝试构建一种新的空间-光谱卷积神经网络(CNN),该网络可有效实现HS图像的快速分类。Hang等人[20]通过挖掘RS场景中丰富的未标记信息,开发了一种基于补丁的重建任务辅助生成对抗性网络方法。洪等人[21]解决了利用非网格关系正则化的大规模图计算负担问题,并提出了一种用于高效HS图像分类的图卷积网络的迷你版本。受神经科学中模拟认知智能的类注意力机制[22]的启发,人们曾尝试将注意力引导引入传统的细胞神经网络[23],最近还努力调整RS任务的转换器架构,因为它在建模长期依赖性方面具有显著的优势。此外,还分别考虑了基于不确定性的主动学习和物理约束迁移学习的思想,以缓解困扰“数据饥饿”深度分类器的有限训练样本问题[24],[25]。
然而,尽管上述方法取得了显著的改进,但在实现更准确的LULC映射的过程中,仍然存在需要指出的关键问题。举几个例子,先进的单模态模型的实用性和可移植性仍然受到其专用模块化设计的限制,而现有的深度多模态方法很少有效地建模跨模态依赖性,从而阻碍了它们进一步突破性能瓶颈。为此,我们在本文中提出了一个通用的多模式转换器框架,用于根据多模式RS数据的LULC属性对其进行分类,从而更好地进行信息融合。与传统的线性投影和基于深度区域嵌入的tokenizor不同,我们将我们的方法建立在轻量级的可分离卷积主干上,分别通过空间和通道维度的局部和全局感知来处理多模式图像块,如图2所示。然后,设计了一种混合空间视觉变换器(ViT)主干,该主干由自注意和跨模态注意(CMA)机制实现,以同时绘制标记化特征之间的帧内和帧间长程相关性。为了进一步鼓励异构数据的模态交互,在多层感知器(MLP)头部之前融合模态特定的分类标记,这可以摆脱对主模态(分支)的决策,并从多模态中聚合判别信息以进行最终决策。正如预期的那样,通过我们对ViTs进行的这种最小但合理的扩展,所提出的方法的分类结果,如图1所示,在定量准确性和视觉保真度方面都得到了显著提高。更具体地说,我们在本文中的主要贡献总结如下。
- 扩展视觉变换器(ExViT)是一种新的用于RS图像LULC分类的多模式DL框架。它可以在经典网格特性的基础上实现理想的性能,同时展现出整洁和通用的架构。
- 我们通过探索与香草空间ViT编码风格相匹配的CMA来解决多模式RS之间的信息交换问题,在该编码风格中,异构模态的标记化嵌入可以从早期到晚期有效地融合,以提高其判别能力。
- 为了解决真实RS场景中的模态不完全问题,我们为我们的框架建立了一个跨模态多任务学习机制,该机制不仅比以前的方式更具可解释性,而且易于实现。
图2 图中显示了基于ViT的代表与我们提出的ExViT之间的网络连接差异,ExViT显示了良好的模态不可知扩展性,对训练数据量的要求较少。
相关工作
多模态LULC分类:从浅到深
多模式RS数据的不断增加引起了对多模式LULC分类的广泛研究。一种典型的传统多模态特征提取方法是建立在公共子空间线性投影的流形对齐正则化学习基础上的;洪等人[26]提出了一种具有模态特定参数化的共享和特定特征学习模型,该模型具有清晰的可解释性,在LULC分类中具有很大的潜力。Pournemat等人[27]将流形局部修补的思想与不同模态的图拉普拉斯算子的联合谱分析相结合,用于半监督分类。
广泛研究的形态学轮廓及其变体,如属性轮廓和消光轮廓[28],[29],也被引入来联合提取多模式输入图像的层次特征。另一方面,深度学习技术也因其在学习紧凑多模式表示方面的强大能力而在处理多模式RS数据方面占据了一席之地。洪等人[30]首次建立了一个通用的多模式网络框架,探索了异构遥感数据的广泛融合策略。同一研究人员还设计了一种基于多模式生成对抗性网络的方法,以避免交叉传感器设置下的分布差异和对抗性干扰的固有问题[31]。受类脑分裂自动编码器[32]的启发,吴等人[16]设计了一种具有跨通道重建的多模式CNN,用于对多模式RS数据进行更准确的联合分类。最近引入了更先进的智能思想,如协作和自监督学习,并产生了代表性的思想,例如,李等人[33],马等人[34]从不同的建模角度精心呈现了主导和交互式特征学习模块,希望缓解多模态特征的语义偏差,Xue等人[35]提出了一种掩蔽多模态自监督训练方案来学习关键特征表示。
基于Transformer的LULC分类:从单一模态到多模态
毫无疑问,过去几年已经成为基于转换器的模型渗透到广泛的视觉感知和语言识别领域的里程碑。然而,他们首次对LULC分类的RS应用进行了新的研究,这并不是很久以前的事了。在这方面最新提出的开创性工作中,SpectralFormer[17],顾名思义,是第一个从光谱域内的顺序视角揭示HS图像的工作。Qing等人[36]还准备了一个光谱注意力模块,从光谱信号中提取更多信息。两个模型都考虑了变压器编码器之间的连接,旨在实现更稳定的信息交换和更好的特征提取。后来,Sun等人[37]主要关注标记化过程,并开发了一种能够更充分地表达特征语义的2-D和3-D卷积集成转换器。Jamali和Mahdianpari[38]还将更先进的Swin变换器与VGGNet区域特征提取器结合使用,使用Sentinel-1、Sentinel-2和LiDAR数据对复杂的RS景观进行分类,适用于湿地测绘、监测等任务。特定中心位置编码最初由赵等人[39]在混合卷积变换器中引入。此外,Dong等人[40]首次探索了ViT在对比学习方案下使用极化SAR数据进行LULC分类的潜力。Xue等人[18]和Roy等人[41]也首次尝试分别通过修改变压器来融合HS和LiDAR数据。
在上述相关工作中,尽管通过LULC分类性能评估已经取得了显著的改进,但大多数改进仍然局限于通过遵循传统编码规则对网络架构的排他性设计。因此,我们需要一个更通用的框架,该框架与模态无关,适用于多模态和跨模态环境下更实际的场景。
方法
在本节中,我们首先给出了我们提出的深层框架的全貌,该框架为我们设计三个突出的组成模块提供了信息。然后,我们展示了通过考虑具有两种RS模态的输入数据的情况来构建我们的LULC分类网络的细节。最后,我们对该方法的体系结构进行了必要的分析,以说明其合理性。
图三 整体的框架
Attention fusion 的具体设计
实验
数据
Houston2013 HS-LiDAR Dataset:下载链接
Berlin HS-SAR Dataset
Augsburg HS-SAR-LiDAR Dataset
结果分析
结论
在本文中,我们探索了一种新的基于多模式转换的框架,称为ExViT,以有效地解决LULC分类的实际任务。为了促进多模态特征提取和标记化,我们的ExViT引入了可分离的卷积茎,然后是子空间投影和共享的位置嵌入层,旨在同时利用模态特定信息(从空间到通道,从局部到全局)和互调关系(特征和位置对齐)。不同级别的self-和CMA融合以及分类令牌融合prehead的通用组合进一步使空间ViT作为我们ExViT的支柱,能够充分利用其建模跨模态长期相关性的能力。总的来说,所提出的ExViT的优势不仅在于其整洁的架构,具有良好的可扩展性,而且还在于广泛的烧蚀研究和对比实验,显示了SOTA的性能。
未来,针对脆弱的模态不完整地球观测,开发更稳健的基于注意力的多模态DL模型,能够在具有复杂地理空间语义的实际情况下高效解释和反应的遥感图像分割方法,以及建立更多具有可靠和可分离地面标记的多新世多模式RS数据集是值得我们努力的。