【可见光遥感+prompt一】Rethinking Remote Sensing Pretrained Model:Instance-Aware Visual Prompting for Remot-CSDN博客

本文链接：https://blog.csdn.net/m0_60231311/article/details/135573193

本文提出了一种名为实例感知视觉提示(IVP)的方法，用于改进遥感场景分类。针对预训练模型在不同RS场景分类任务中的可移植性问题，IVP在输入空间中引入特定于实例的提示向量，仅更新少量参数，从而有效降低计算和存储负担。通过在三个RS场景分类数据集上的实验，IVP方法显示出优于传统微调方法的性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

论文：Rethinking Remote Sensing Pretrained Model:Instance-Aware Visual Prompting for Remote Sensing Scene Classification

1.motivation

大规模预训练模型，如vision transformer(ViTs)，在遥感场景分类任务中取得了重大进展。对于新的场景分类任务，常用的方法是对预训练好的模型参数进行完全微调，以避免从头开始训练。虽然这种方法取得了令人满意的结果，但它会带来沉重的计算和存储负担，限制了大型预训练模型在不同RS场景分类任务中的可移植性。

为了解决这一挑战，本文提出了一种参数高效调优方法，称为实例感知视觉提示(IVP)，这是在RS场景分类领域首次探索提示的工作。该方法基于RS图像复杂的背景和高度多变的特征，自适应生成提示信息，仅更新少量参数，将预训练好的RS变换模型转移到不同的场景分类任务中。具体来说，没有调整整个模型参数，而是在输入空间中引入了一些特定于实例的提示向量。然后，考虑到RS图像的显著可变性，引入了一个实例级提示生成模块，通过聚合来自输入的上下文信息为每个RS图像生成特定的提示。最后，这些提示向量将校准预训练的特征来编码特定于实例的信息。在三个RS场景分类数据集上进行的大量实验证明了IVP算法相对于其他微调方法的优越性。

2.introduce

随着对地观测技术的进步，获取包含地球表面复杂而丰富的结构信息的高空间分辨率图像变得更加容易。然而，对这些图像的进一步解读和辨别是一个巨大的挑战。遥感场景分类是遥感解译的重要组成部分，已引起遥感界的广泛关注。近年来，场景分类在自然灾害检测、地理空间目标检测、地理图像检索、环境监测、城市规划等诸多领域得到了广泛应用，成为重要的研究领域。

迁移学习已经成为解决这一问题的一种流行策略。它采用在ImageNet等大规模数据集上进行预训练的模型[17]，并用有限的RS图像对模型进行微调，从而在下游的RS场景分类任务中获得满意的性能。考虑到航空图像与自然图像在视图、颜色、纹理、布局、对象等方面存在显著的域差异，使用ImageNet预训练的权值来初始化模型可能会限制下游RS场景任务的微调性能。为了克服这一限制，Wang等[18]，[19]用百万级RS数据集重新训练了一些经典的大型网络，消除了预训练数据集与下游数据集之间的差距。随着大型RS模型的出现，下游RS任务实现了更好的性能和更快的收敛速度。然而，对每个下游任务的预训练模型的所有参数进行微调需要大量的计算和存储负担，限制了其在不同RS分类任务中的可移植性。随着预训练模型规模的不断扩大，这个问题变得尤为突出。此外，由于下游训练数据的规模较小，在预训练模型中对大量权重进行微调容易导致过拟合。另一个简单的解决方案是线性探测，这是一种直接的方法，通过为不同的任务调整特定的轻量级分类头来保持预训练模型的固定。虽然线性探测在计算上和参数上是高效的，但由于其性能较差，它通常不具有吸引力。

在自然语言处理(NLP)领域，提示学习是一种有效且高效的解决方案。提示是一个可训练的或预定义的自然语言句子，作为模型的额外输入，引导神经网络学习特定的任务或目标。受此启发，本文提出了实例感知视觉提示(instance-aware visual prompt, IVP)，这是在遥感场景分类领域首次对提示进行探索。此外，由于RS图像中土地覆盖分布的复杂性，不同类别的场景可能表现出相似的特征，而同一类别内的场景也可能存在显著差异。

为所有图像学习特定于任务的固定提示将导致次优性能。本文的方法自适应地为每张RS图像生成特定的提示，并仅更新几个参数，将预训练的RS模型转移到不同的场景分类任务中。总体框架如图1所示。具体来说，没有对模型参数进行微调或添加特定于任务的头部，而是在输入空间中引入了一些特定于实例的提示向量。然后，考虑到RS图像的显著可变性，引入了一个实例级提示生成模块，称为Meta-Net，通过聚合来自输入的上下文信息为每个RS图像生成特定的提示。在训练阶段，冻结骨干网的参数，并根据输入的RS图像自适应生成提示。然后将这些提示与图像和类标记(CLS)一起输入网络，以校准预训练的特征。。为了评估IVP方法的有效性，在三个RS分类数据集上进行了实验。本文的方法仅更新少量参数就优于其他微调方法，证明了本文方法在提高RS模型调整效率方面的潜力。特别是，将IVP应用于Swin transformer(Swin- t)骨干网上，在所有数据集上都优于完全微调。