研究背景:光谱成像能够捕捉丰富的光谱信息,使物体和场景的分析与识别更加准确,多/高光谱遥感数据在诸多地球观测应用中具有重要作用。
光谱数据的增长带来了两个挑战:从海量光谱数据中提取和挖掘信息的能力有限;下游地球观测任务中预测和解释能力有限,标记数据稀缺。
现有模型的不足
现有遥感基础模型难以捕捉三维张量数据中的空间-光谱表示,在处理多波段数据时能力有限。
用于视频数据的基础模型不适用于光谱数据,因为视频数据和光谱数据在连续帧内容和冗余方面存在显著差异。
针对光谱数据的基础模型研究相对较少,如SatMAE在利用预训练变换器时,通过分组相邻光谱带来处理光谱卫星图像,这破坏了光谱连续性,导致对三维空间-光谱耦合特征和光谱序列数据的捕获不理想,且受预训练样本数量和有效训练策略的限制。
SpectralGPT 模型
结构:包括用于处理光谱数据的3D掩码、学习光谱视觉表示的编码器和用于多目标重建的解码器,采用渐进式训练方式,使用来自 Sentinel - 2卫星的超过一百万张光谱图像进行训练,创建了 Base、Large 和 Huge 三个不同模型迭代,分别包含约 1 亿、3 亿和 6 亿参数。
实验
对比实验:与几个 SOTA 基础模型(ResNet50、SeCo、ViT、SatMAE)进行对比,在四个下游地球观测任务(单标签场景分类、多标签场景分类、语义分割、变化检测)中评估 SpectralGPT