源自:测绘学报
作者:薛志祥, 余旭初, 刘景正, 杨国鹏, 刘冰, 余岸竹, 周嘉男, 金上鸿
摘
要
近年来,深度学习改变了遥感图像处理的方法。由于标注高质量样本费时费力,标签样本数量不足的现实问题会严重影响深层神经网络模型的性能。为解决这一突出矛盾,本文提出了用于多源异质遥感影像地物分类的自监督预训练和微调分类方案,旨在缓解模型对于标签样本的严重依赖。具体来讲,生成式自监督学习模型由非对称的编码器-解码器结构组成,其中深度编码器从多源遥感数据中学习高阶关键特征,任务特定的解码器用于重建原始遥感影像。为提升特性表示能力,交叉注意力机制模型用于融合异源特征中的信息,进而从多源异质遥感影像中学习更多的互补信息。在微调分类阶段,预训练好的编码器作为无监督特征提取器,基于Transformer结构的轻量级分类器将学习到的特征与光谱信息结合并用于地物分类。这种自监督预训练方案能够从多源异质遥感影像中学习到刻画原始数据的高级关键特征,并且此过程不需要任何人工标注信息,从而缓解了对标签样本的依赖。与现有的分类范式相比,本文提出的自监督预训练和微调方案在多源遥感影像地物分类中能够取得更优的分类结果。
关键词
遥感, 多源异质数据, 预训练, 自监督学习, 土地覆盖分类
随着遥感技术的快速发展,同一观测场景中存在多种类型的遥感数据。被动式遥感技术可以获取地物的波谱反射特性,其得到的高光谱图像(HSI)、多光谱图像(MSI)和高空间分辨率图像(VHR)包含丰富的光谱和空间结构信息。主动遥感技术通过发射并接收电磁波的方式以探测目标场景,合成孔径雷达(SAR)及机载激光雷达(LiDAR)数据能够记录目标在特定波谱段的辐射特性,并且具有全天时和全天候的观测特点。多源遥感数据在表征内容上具有互补性和冗余性,在获取时间上具有很强的互补性,多源异质遥感数据融合旨在克服单一传感器在观测内容和获取时间上的局限性,综合利用多维度的观测信息对观测场景进行更加精准的解译,已成功应用于土地覆盖分类[1]和农作物精细分类[2]等领域。不同类型的遥感数据包含互补的地物信息,综合利用多源异质遥感影像进行地物分类具有重要意义[3]。
监督分类方法是遥感影像地物分类中常用的学习范式。早期的研究工作主要集中在图像分析技术上,如波段选择[4]、特征提取[5]和分类器设计[6]等方面。深度学习模型具有强大的特征提取能力,卷积神经网络(CNN)可以提取层次化的空间特征,1D CNN[7]、2D CNN[8]和3D CNN[9]模型成功应用于高光谱影像分类。为了更好地挖掘高光谱影像中的光谱序列信息,循环神经网络(RNN)[10]及Transformer结构[11]也用于地物分类任务。同时,注意力机制[12]、知识蒸馏[13]和多尺度学习[14]等机器学习策略旨在进一步提升分类性能。对于多源遥感影像协同分类,主要有高光谱和LiDAR数据分类[15]、高光谱和多光谱图像分类[16],以及高光谱图像和SAR影像协同分类[17]。这些模型都是数据驱动的方法,其分类精度严重依赖于标签样本的数量,因此解决标记样本稀缺性的难题是遥感影像分类领域的重要研究方向之一[18]。半监督学习范式同时利用标签样本和无标签样本进行分类,图卷积神经网络[19]和生成对抗网络[20]通过构图和样本生成的方式来同时利用标签样本和无标签样本,但是这些半监督分类方法在解决样本生成和大影像构图方面存在不足。深度小样例方法在大量预收集的标签样本上进行预训练,然后将训练好的特征提取器迁移至目标数据集进行特征提取[21]。这种预训练方案是监督学习方法,同样需要搜集大量的标签样本,并且不同数据集在光谱分辨率和空间分辨率方面存在很大的差异,因而其特征学习能力有限。
尽管目前的监督学习模型和半监督学习模型取得了较好效果,但这些方法仍然无法解决最突出的问题,即分类过程中存在大量的无标签多源遥感数据,但是有标签的样本数量有限。自监督学习利用数据的固有特性来学习高级关键特征,并将学习到的特征用于下游的分类识别任务,主要分为对比式和生成式两类方法[22]。对比学习通过比对样本增强后的视图,旨在学习到一个潜在特征空间,其中同类的样本聚集在一起,不同类别的样本相互分离,从而学习到兼具不变形和区分性的特征表示。对比学习已成功应用于高光谱影像分类[23]、遥感图像场景分类[24]、PolSAR地物分类[25]及遥感图像变化检测[26]等领域。这些对比学习模型通常使用CNN作为特征提取器,在长距离特征提取和异构特征处理方面存在局限性[27]。生成式自监督学习通过恢复人为破坏后的数据来达到特征学习的目的,其动机是如果模型可以从受损的数据中恢复到原始信号,这意味着模型学习到表征原始信号的关键特征。通过将整幅影像切分为若干子块,并使用视觉Transformer模型来获取影像的全局感受野,掩膜自编码器(MAE)[28]和SimMIM模型[29]能够从掩膜后的图像中学习到高级特征表示,这类方法在自然图像自监督学习领域取得较好的结果。此外,为了从视频数据和多模态数据中学习到有意义的特征,面向多维数据的自监督学习模型尝试在这些数据中进行自监督学习[30-32]。由于遥感影像在内容和结构上与自然图像存在较大差异,遥感图像覆盖的地物类型更加复杂,并且光谱特征和空间特征在结构上存在很大的不同,现有的自监督预训练和分类模型无法有效地利用多源遥感影像中的空间和光谱信息进行特征学习,造成其异构特征学习能力有限。
标注高质量的样本费时费力,使用自监督预训练的方法可以从大量无标记样本中进行特征学习,能够为解决标签样本不足的问题提供一种解决思路。本文提出一种多源遥感影像自监督预训练和微调分类方案,用于多源异质遥感影像的地物协同分类。即面向多源遥感影像的自监督学习模型由非对称的编码器和解码器组成,其中深层编码器利用掩膜后的局部遥感影像进行特征学习,对应每类遥感数据的浅层解码器用于重建原始影像,从而学习到刻画原始多源遥感数据的关键特征。为进一步提升特征的表示能力,采用交叉注意力机制对编码器提取的异质特征进行信息融合。在微调分类阶段,构建基于Transformer结构的轻量级分类器,利用预训练好的编码器作为特征提取器,将提取的特征与光谱特征进行融合并用于地物分类。与常用的监督、半监督和自监督学习方法相比,所提自监督预训练和微调分类方案具有更优的特征学习和分类性能。
1 本文方法
本文方法主要包括多源异质遥感影像自监督预训练和微调分类这两个阶段。在预训练过程中,以局部多源异质遥感影像(如HSI、DSM和VHR)作为处理单元进行特征学习,首先将每种影像在空间维度上划分为若干规则的子块,随机选取一部分的子块进行掩膜处理,未掩膜的影像子块进行特征嵌入,并将所有类型影像的嵌入特征进行堆叠并输入深层编码器进行特征学习;交叉注意力机制模型在学习到的异质特征之间进行信息交换和融合,以进一步提升特征表示能力;任务特定的解码器将每种影像对应的特征和掩膜数据重建为原始的遥感数据。在微调分类阶段,使用预训练好的编码器和交叉注意力机制模型作为无监督特征提取器,利用轻量级分类器将学习到的特征和光谱信息进行融合并分类。由于自监督预训练过程不需要任何人工标注信息,试验中使用所有的遥感数据进行自监督特征学习,在分类阶段ÿ