自监督论文阅读笔记 RingMo: A Remote Sensing Foundation Model with Masked Image Modeling

        深度学习方法促进了遥感 (RS) 图像解释的快速发展。最广泛使用的训练范式是利用 ImageNet 预训练模型来处理指定任务的 RS 数据。然而,存在 自然场景与RS场景之间的领域差距,以及 RS模型泛化能力差 等问题。开发具有通用 RS 特征表示的基础模型是有意义的。由于有大量未标记的数据可用,自监督方法在遥感方面比全监督方法具有更大的发展意义。

        然而,目前大多数自监督方法都使用 对比学习,其 性能 对数据增强、附加信息以及正负对的选择很敏感

        在本文中,利用 生成式自监督学习 对 RS 图像的好处,提出了一个名为 RingMo 的遥感基础模型框架,它由两部分组成

  • 首先,通过从卫星和航空平台收集200万张RS图像,构建一个大规模的数据集,覆盖全球多个场景和物体。
  • 其次,提出了一种 针对 复杂 RS 场景中 密集和小型物体的  RS 基础模型训练方法

        本文展示了使用 RingMo 方法在本文的数据集上训练的基础模型在四个下游任务的八个数据集上实现了最先进的模型,证明了所提出框架的有效性。通过深入探索,本文认为 RS 研究人员是时候 拥抱生成式自监督学习 并利用其通用的表示能力 来加速 RS 应用程序的开发了。


                近年来,卫星发射的数量呈爆炸式增长[1-6]。根据相关的科学家联盟发布的报告1,截至 2021 年 12 月,有 1,000 多颗地球观测卫星在轨道上运行。随之而来的是 获取大量遥感 (RS) 卫星数据的潜力。例如,珠海一号群卫星每天可以下载近 20TB 的数据[7]。海量的 RS 数据 需要经过处理和分析 才能在应用任务中发挥作用。受益于深度学习,许多利用 RS 数据的任务取得了显著进展 [8-17]。目前,RS图像解译 的一般范式是 加载ImageNet预训练的权重,然后在指定的任务中使用RS数据和标签信息进行模型训练[18-21]。尽管这些方法在特定任务中 针对特定目标 表现良好,但仍存在以下问题

  • 1)如图1所示,由于自然场景和RS场景的差异,ImageNet预训练的权重存在域偏差,这在一定程度上影响了RS模型的性能。
  • 2)由于受限的RS训练数据 只能 提供少量的场景和物体模型的泛化能力相对较弱,难以适应其他任务。
  • 3)为了扩展到更多的目标和任务,研究人员需要不断地注释数据,这降低了实际应用的效率。

综上所述,使用海量的 RS 数据 并设计具有通用 RS 特征表示的基础模型 有望解决上述问题。

        现有的 RS 基础模型训练方法 包括 监督学习 和 自监督学习 两大主流。

        对于监督学习[22],需要大量标记数据来训练基础模型。尽管这些方法效果很好,但获取标记数据需要 RS 专家花费大量时间由于 数据标注 和 数据采集速度之间的巨大差距,大量的RS数据无法使用

        自监督方法 [23-25] 可以利用大量未标记的数据,并且是 RS 基础模型的主流方法比学习 [26, 27 SimCLR v1,v2 ] 在 RS 自监督方法领域占据主导地位

        如图2所示,对比学习的核心思想是 缩小相似样本的特征距离。由于没有标签,研究人员 [23, 28] 通过 对同一图像进行数据增强 来创建正对而其他图像则作为该图像的负对。此外,一些研究人员 [24, 25, 29, 30] 通过 仔细搜索 或 匹配 引入 特定于 RS 的附加信息(地理信息、时间序列数据、音频数据等),并鼓励模型 通过数据增强之外的其他信息 来学习相似性。对比学习方法取得了很好的性能,但它们 默认将不同的图像作为负对,并且 RS 数据集中的不同图像 经常包含同一类的实例

        在自然场景中,生成式自监督方法稳步普及。掩码图像建模 (MIM) [31, 32] 是一种应用生成模型的自监督学习方法。它旨在 重建被掩蔽的像素 并 学习数据分布中的一般特征表示。

  • 一方面,它避免了引入额外的信息,从而更容易利用大量数据。基础模型 随着更多数据用于建模,对不同场景的适应性更强
  • 另一方面,它的目标是 从原始图像重建像素级信号。在没有任何数据增强和负对的情况下,该模型也可以导出优越的特征表示。因此,生成式自监督方法更适合开发 RS 基础模型

        目前,大多数 MIM 方法都是 基于自然图像进行训练的 [31, 32]。与自然场景相比,RS图像存在以下难点

  • 大的分辨率和方向范围。受 RS 传感器的影响,图像具有多种空间分辨率。此外,与实例 通常由于重力 而具有固定方向的 自然图像 不同,RS 图像中的对象 从鸟瞰角度 具有较大的角度分布范围。因此,由于尺度和角度的多样性,同一物体在不同的RS图像中具有不同的特征
  • 许多密集和小的物体。大部分自然图像包含一些对象。例如,ImageNet 数据集平均每个图像包含少于 3 个对象实例 [33]。如图所示,RS图像通
  • 6
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值