自监督论文阅读笔记Index Your Position: A Novel Self-Supervised Learning Method for Remote Sensing Images Sema

本文提出了一种名为IndexNet的新型自监督学习方法,专门针对遥感图像(RSI)的语义分割任务。传统自监督学习方法通常基于图像级别的比较,而IndexNet则考虑了RSI的多目标特性,通过索引对比和实例对比学习像素级和图像级表示,以适应RSI中目标的空间位置变化。实验结果显示,IndexNet在RSI语义分割任务上优于ImageNet预训练模型和其他自监督学习方法。
摘要由CSDN通过智能技术生成

Index Your Position: A Novel Self-Supervised Learning Method for Remote Sensing Images Semantic Segmentation

        在没有人工监督的情况下 学习有效的视觉表示 是遥感图像(RSI)语义分割任务的一个关键问题,其中 像素级注释 很难获得。自监督学习 (SSL) 通过创建人工监督学习问题来学习有用的表示,最近已成为一种从未标记数据中学习的有效方法。当前的 SSL 方法通常是 通过图像级预测任务在 ImageNet 上进行训练的。我们认为这对于 RSI 语义分割中的应用不是最优的,因为它没有考虑 目标之间的空间位置信息,这对于 以多对象为特征的 RSI 的分割至关重要。

        在这项研究中,我们提出了一种新的 自监督密集表示学习方法 IndexNet,用于 RSI 的语义分割。一方面,考虑到 RSI 的多目标特性,IndexNet 通过 跟踪对象位置 来学习 像素级表示,同时保持对 对象位置 变化的敏感性,以确保不造成不匹配。另一方面,通过结合 图像级对比 和 像素级对比,IndexNet可以 学习时空不变特征

        实验结果表明,我们的方法比 ImageNet 预训练效果更好,并且优于最先进的 (SOTA) SSL 方法。


        Introduction:

                遥感图像 (RSI) 的语义分割旨在 为图像中的每个像素分配一个地理标签,是广泛的实际应用中的关键任务,例如土地覆盖映射 [1]、[2 ]、基础设施管理 [3]、[4] 和精准农业 [5]、[6]。由不同传感器、角度和天气引起的 多个物体的 复杂光谱响应 使得 RSI 的语义分割特别具有挑战性。得益于近年来深度学习研究的蓬勃发展,RSI 的语义分割性能取得了很大的进步 [7]-[9]。

                然而,语义分割需要 像素级的类标签 的收集,这很繁琐,需要丰富的经验 和 扎实的地理知识。尽管有许多公开可用的注释数据集 [10]-[12],但 RSI 在时间和位置上差异很大,现有的标记数据只是 图像的截取,而且,收集大量 具有异常高丰富度的 注释样本,包括全球区域、多分辨率、多季节和多光谱是困难的。解决此问题的一种方法是使用 迁移学习 [13] 来迁移从更大领域学习的知识,以提高目标领域的性能  减少对标记样本的依赖。最广泛使用的 RSI 语义分割 迁移学习方法是基于 ImageNet [14]。然而,这种迁移学习策略 并没有显著提高性能,也没有利用大量未标记的数据。

                自监督学习 (SSL) 的引入解决了这个问题,并利用了大量未标记的数据。 SSL 方法可以首先通过解决 预先设计的任务(称为前置任务)从未标记的源数据中 学习有用的表示,然后将它们迁移到目标任务(例如语义分割)。这种使用未标记图像进行表示学习的可能性引起了相当大的关注,导致 SSL [15]-[19] 取得了实质性进展。在当前方法中 指导表示学习的自监督是 基于图像级别的比较。该学习流程的潜在先验是 同一图像的不同视图(裁剪)对应于同一对象,如图1(a)所示。

                 然而,由于 高空成像RSI 通常代表 较宽的空间范围,这导致在一张图像中包含不同目标的可能性。结果,不同的随机裁剪 可能对应不同的对象,如图1(b)和(c)所示。此外,当前的 SSL 方法主要是为 只需要 图像级表示 的图像分类任务 而设计的。然而,语义分割 需要图像级 和 像素级的表示 才能产生有希望的结果。尽管越来越多的研究 [20]-[23] 研究了用于 密集预测任务的 SSL 预训练,但这些方法并未考虑 RSI 的独特特征。例如,DenseCL [20] 和 Self-EMD [23] 通过基于 特征相似性 匹配像素 来学习像素级表示,但由于 RSI 中 目标的复杂多变的光谱响应  在预训练期间图像的 人工增强 [见图 1(d)],这些方法容易导致 对应像素不匹配。 DetCon [21] 需要对图像进行额外的 SSL 预训练分割,这既耗时又不适合 RSI 的实际应用。

                本文提出了一种新的 SSL 方法 IndexNet,用于 RSI 的语义分割。首先,引入 索引对比 来解释 RSI 中目标的广泛的光谱响应,这允许我们的模型 学习像素级表示 并保留空间位置信息 以使学习的表示 对于不同的目标 不同。其次,考虑到 RSI 的 巨大时间差异 和 语义分割任务对 全局信息 的需求,我们将实例对比方法 BYOL [18] 与索引对比相结合,以学习 像素级 和 图像级 时空不变表示

   

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值