论文作者:Shabnam Choudhury,Yash Salunkhe,Sarthak Mehrotra,Biplab Banerjee
作者单位:Indian Institute of Technology Bombay
论文链接:http://arxiv.org/abs/2504.03169v1
内容简介:
1)方向:遥感图像检索(RS-CBIR)
2)应用:遥感图像检索(RS-CBIR)
3)背景:随着遥感影像库的快速扩展,传统的基于内容的图像检索方法面临着计算复杂性和精度挑战。现有的生成方法多依赖像素重建,或通过对比学习依赖负样本对,这些方法在计算效率和检索准确性上存在局限性。因此,需要一种新方法来提高检索性能,同时降低计算复杂性。
4)方法:本文提出了一种创新的自监督框架REJEPA(Retrieval with Joint-Embedding Predictive Architecture),该框架旨在优化单一模态的遥感影像检索效率。REJEPA通过空间分布的上下文标记编码来预测目标标记的抽象表示,从而有效捕获高级语义特征,并去除不必要的像素级细节。与依赖像素重建的生成方法和负样本对的对比方法不同,REJEPA在特征空间内进行操作,结合了方差-不变性-协方差正则化(VICReg)以增强特征的多样性,减少冗余,并防止编码器崩溃。该方法在减少计算复杂性的同时,仍能确保强大且多样化的特征表示。
5)结果:实验证明,REJEPA在多个遥感数据集上显著提高了检索准确性,相较于现有的自监督学习方法,BEN-14K(S1)提高了5.1%,BEN-14K(S2)提高了7.4%,FMoW-RGB提高了6.0%,FMoW-Sentinel提高了10.1%。此外,与像素重建基准方法(如Masked Autoencoders)相比,REJEPA减少了40-60%的计算复杂性,证明了其在多传感器模态下的有效泛化能力,能够应对分辨率变化、高物体密度和复杂背景等挑战。