自监督论文阅读笔记 RingMo: A Remote Sensing Foundation Model with Masked Image Modeling

最新推荐文章于 2024-07-23 19:28:21 发布

YoooooL_

最新推荐文章于 2024-07-23 19:28:21 发布

阅读量2.9k

点赞数 6

分类专栏：论文阅读笔记文章标签：人工智能 python 深度学习计算机视觉机器学习

本文链接：https://blog.csdn.net/YoooooL_/article/details/126993338

版权

本文提出了一种遥感领域的生成式自监督学习框架——RingMo，通过大规模遥感图像数据集训练基础模型，解决自然场景与遥感场景之间的领域差距和模型泛化能力差的问题。RingMo采用了针对复杂RS场景的PIMask策略，以保留小物体信息。实验结果显示，RingMo在四个下游任务的八个数据集上实现了最先进的性能，证明了这种方法的有效性。

摘要由CSDN通过智能技术生成

深度学习方法促进了遥感 (RS) 图像解释的快速发展。最广泛使用的训练范式是利用 ImageNet 预训练模型来处理指定任务的 RS 数据。然而，存在自然场景与RS场景之间的领域差距，以及 RS模型泛化能力差等问题。开发具有通用 RS 特征表示的基础模型是有意义的。由于有大量未标记的数据可用，自监督方法在遥感方面比全监督方法具有更大的发展意义。

然而，目前大多数自监督方法都使用对比学习，其性能对数据增强、附加信息以及正负对的选择很敏感。

在本文中，利用生成式自监督学习对 RS 图像的好处，提出了一个名为 RingMo 的遥感基础模型框架，它由两部分组成。

首先，通过从卫星和航空平台收集200万张RS图像，构建一个大规模的数据集，覆盖全球多个场景和物体。
其次，提出了一种 针对复杂 RS 场景中密集和小型物体的 RS 基础模型训练方法。

本文展示了使用 RingMo 方法在本文的数据集上训练的基础模型在四个下游任务的八个数据集上实现了最先进的模型，证明了所提出框架的有效性。通过深入探索，本文认为 RS 研究人员是时候拥抱生成式自监督学习并利用其通用的表示能力来加速 RS 应用程序的开发了。

近年来，卫星发射的数量呈爆炸式增长[1-6]。根据相关的科学家联盟发布的报告1，截至 2021 年 12 月，有 1,000 多颗地球观测卫星在轨道上运行。随之而来的是 获取大量遥感 (RS) 卫星数据的潜力。例如，珠海一号群卫星每天可以下载近 20TB 的数据[7]。海量的 RS 数据需要经过处理和分析才能在应用任务中发挥作用。受益于深度学习，许多利用 RS 数据的任务取得了显著进展 [8-17]。目前，RS图像解译的一般范式是加载ImageNet预训练的权重，然后在指定的任务中使用RS数据和标签信息进行模型训练[18-21]。尽管这些方法在特定任务中针对特定目标表现良好，但仍存在以下问题。

1）如图1所示，由于自然场景和RS场景的差异，ImageNet预训练的权重存在域偏差，这在一定程度上影响了RS模型的性能。
2）由于受限的RS训练数据只能提供少量的场景和物体，模型的泛化能力相对较弱，难以适应其他任务。
3）为了扩展到更多的目标和任务，研究人员需要不断地注释数据，这降低了实际应用的效率。

综上所述，使用海量的 RS 数据并设计具有通用 RS 特征表示的基础模型 有望解决上述问题。

现有的 RS 基础模型训练方法 包括监督学习和自监督学习两大主流。

对于监督学习[22]，需要大量标记数据来训练基础模型。尽管这些方法效果很好，但获取标记数据需要 RS 专家花费大量时间。由于数据标注和数据采集速度之间的巨大差距，大量的RS数据无法使用。

自监督方法 [23-25] 可以利用大量未标记的数据，并且是 RS 基础模型的主流方法。对比学习 [26, 27 SimCLR v1,v2 ] 在 RS 自监督方法领域占据主导地位。

如图2所示，对比学习的核心思想是 缩小相似样本的特征距离。由于没有标签，研究人员 [23, 28] 通过对同一图像进行数据增强来创建正对，而其他图像则作为该图像的负对。此外，一些研究人员 [24, 25, 29, 30] 通过仔细搜索或匹配 引入 特定于 RS 的附加信息（地理信息、时间序列数据、音频数据等），并鼓励模型通过数据增强之外的其他信息来学习相似性。对比学习方法取得了很好的性能，但它们 默认将不同的图像作为负对，并且 RS 数据集中的不同图像经常包含同一类的实例。

在自然场景中，生成式自监督方法稳步普及。掩码图像建模 (MIM) [31, 32] 是一种应用生成模型的自监督学习方法。它旨在重建被掩蔽的像素并学习数据分布中的一般特征表示。

一方面，它避免了引入额外的信息，从而更容易利用大量数据。基础模型随着更多数据用于建模，对不同场景的适应性更强。
另一方面，它的目标是从原始图像重建像素级信号。在没有任何数据增强和负对的情况下，该模型也可以导出优越的特征表示。因此，生成式自监督方法更适合开发 RS 基础模型。

目前，大多数 MIM 方法都是 基于自然图像进行训练的 [31, 32]。与自然场景相比，RS图像存在以下难点：

大的分辨率和方向范围。受 RS 传感器的影响，图像具有多种空间分辨率。此外，与实例通常由于重力而具有固定方向的自然图像不同，RS 图像中的对象从鸟瞰角度具有较大的角度分布范围。因此，由于尺度和角度的多样性，同一物体在不同的RS图像中具有不同的特征。
许多密集和小的物体。大部分自然图像包含一些对象。例如，ImageNet 数据集平均每个图像包含少于 3 个对象实例 [33]。如图所示，RS图像通

最低0.47元/天解锁文章

YoooooL_

关注

6
点赞
踩
20

收藏

觉得还不错? 一键收藏
3
评论
自监督论文阅读笔记 RingMo: A Remote Sensing Foundation Model with Masked Image Modeling

对比学习方法取得了很好的性能，但它们默认将不同的图像作为负对，并且 RS 数据集中的不同图像经常包含同一类的实例。RS图像解译的一般范式是加载ImageNet预训练的权重，然后在指定的任务中使用RS数据和标签信息进行模型训练。本文展示了使用 RingMo 方法在本文的数据集上训练的基础模型在四个下游任务的八个数据集上。由于有大量未标记的数据可用，自监督方法在遥感方面比全监督方法具有更大的发展意义。受益于深度学习，许多利用 RS 数据的任务取得了显著进展 [8-17]。，证明了所提出框架的有效性。
复制链接

扫一扫