【自监督论文阅读笔记】Self-Supervised Pretraining on Satellite Imagery: a Case Study on Label-Efficient Vehicle

《Self-Supervised Pretraining on Satellite Imagery: a Case Study on Label-Efficient Vehicle Detection》

        在与国防相关的遥感应用中,例如卫星图像上的车辆检测,监督学习需要大量标记示例才能达到操作性能。这些数据很难获得,因为它需要军事专家,而且一些可观测的数据本质上是罕见的。这种有限的标记能力,以及由于传感器数量不断增加 而提供的 大量未标记图像,使得遥感图像上的 目标检测 与自监督学习高度相关。

        本文研究了 域内的自监督表示学习,用于在 非常高分辨率的光学卫星图像上 进行目标检测,这还没有得到很好的探索。据本文所知,本文第一次研究了 这项任务的 标签效率 问题。本文使用 大型土地利用分类数据集 Functional Map of the World 通过 Momentum Contrast 动量对比框架的扩展 预训练表示。然后,本文研究了该模型在对 Preligens 专有数据 进行 细粒度车辆检测和分类的实际任务中的可迁移性,该数据旨在代表 战略站点监视 的操作用例。本文表明,本文的域内自监督学习模型与 ImageNet 预训练具有竞争力,并且 在低标签制度下 表现优于它。


INTRODUCTION:

        超高分辨率 (VHR) 卫星图像 是可以从中 收集 地理空间情报 的关键数据之一。它是 在非常大的区域 和 非常频繁 的基础上 检测和识别各种目标的重要工具。

        最近,本文看到 可用传感器的成倍增加,这导致 可用数据量大幅增加。这使得人类分​​析师 在不求助于自动解决方案的情况下 利用这些数据 非常具有挑战性。

        今天的深度学习技术对于执行此类任务非常有效。然而,训练这些模型 需要 非常大的标记数据集。在 VHR 图像中注释感兴趣的对象 可能会非常昂贵,既困难又耗时,并且需要 良好的领域专业知识。在地理空间情报等特定环境中,目标本质上可能很少见,难以定位和准确识别。这使得获取数千个示例 变得不切实际,而经典的监督深度学习方法 通​​常需要进行泛化。因此,一个主要挑战是 开发 label-efficient 标签高效 的方法,即能够 用很少的注释示例 学习的 模型

        为了减少 目标检测 等困难视觉任务的训练样本数量,广泛使用 预训练神经网络的迁移学习。这个想法是在一个 大型、来源多样的 数据集上 重用一个在上游训练的网络。 ImageNet [18] 已成为预训练的事实标准:由于其 大规模 和 通用性,ImageNet 预训练模型 显示出 对其源域之外的适应性,包括遥感图像 [16]。尽管如此,当手头的任务 样本很少时,ImageNet 和遥感领域之间的 领域差距 带来了关于这种迁移的局限性的问题,例如,从卫星图像中 检测 稀有的可观测物。为了以最大效率 拟合下游任务的分布,理想情况下,可以使用 通过 对大量遥感数据 进行预训练 获得的 通用的域内表示。由于难以在 ImageNet 的规模上 管理和标记这些数据,这在遥感领域是不可行的。然而,成像卫星提供了越来越多的未标记数据,这使得它与 以无监督的方式 学习视觉表示 高度相关

        自监督学习(SSL)最近已成为 学习 未标记数据表示 的有效范例。它通过在这些输入数据上 解决 前置任务,使用 未标记的数据 作为监督信号,以学习语义表示。然后可以使用 与 在下游监督任务上 预训练的网络 相同的方法 来迁移 以自监督方式训练的模型。在过去的两年里,SSL 已经展示了令人印象深刻的结果,在多个基准测试 [2]、[3]、[7]、[8] 中,它们缩小了差距,甚至超过了监督学习。最近,SSL 已应用于遥感领域 以利用现成的未标记数据,并被证明可以减少 甚至缩小 与 ImageNet 迁移的差距 [1]、[15]、[25] 。尽管如此,在 VHR 卫星图像中目标检测 的重要问题上,并没有探索这些方法 从 少数标签 进行泛化 的能力。

        在本文中,探索了 域内自监督表示学习,用于 VHR 光学卫星图像上的目标检测任务。本文使用 大型土地利用分类数据集 Functional Map of the World (fMoW) [5] 来使用 MoCo [8] 无监督框架 预训练表示。然后,本文研究了 对 专有数据 进行 细粒度车辆检测 这一艰巨的现实世界任务的可迁移性,该任务旨在代表 战略站点监视 的操作用例。


Contributions:

        • 本文应用了一种基于 MoCo 的具有时域正样本的方法 [1] 来学习遥感图像的自监督表示,使用 (i) 旋转不变性的额外增强 ; (ii) 一个固定的损失函数 ,用于 移除学习过程中的假时域负样本 来改进该方法。

        本文调查 域内自监督预训练 作为注释工作的函数的好处,使用注释实例的不同预算 来检测车辆。

        本文表明,尽管 没有使用上游标签 且 上游数据少 3 倍,但本文的方法 优于或至少与有监督的 ImageNet 预训练相比具有竞争力

        此外,本文的 域内 SSL 模型比 ImageNet 更具有标签效率:当使用非常有限的注释预算('20 图像总计 '12k 可观察量)时,本文在车辆检测方面优于 ImageNet 预训练 4 点 AP,在联合检测和分类方面 优于 0.5 点 mAP。


RELATED WORK:

自监督表示学习:

        SSL 方法使用 未标记的数据 来学习 可迁移到 注释数据样本不足 的下游任务(例如 图像分类或 目标检测)的表示。近年来,这些方法已成功应用于计算机视觉,在包括分类、分割 和 目标检测 [2], [3], [7], [8] 在内的多个基准测试中,这些方法已成功地缩小了差距,甚至超越了 ImageNet 上的监督表示学习。它们通常 依赖于预训练阶段, 用来 训练神经网络(表示编码器)来解决 前置任务,为此 生成标签 不需要 任何努力 或 人工参与。解决前置任务的 真正目的是 学习良好的数据表示,以便对 真正感兴趣的 下游任务 进行有效训练。


对比学习:

        对比学习最近已成为最具竞争力的无监督表示学习框架,其方法包括 MoCo [8]、SimCLR [3] 和 SwAV [2]。对比方法的工作原理是 吸引已知语义相似的样本对(正对)的嵌入,同时排斥不同样本对(负对)。定义相似度 最常见的方法是使用 实​​例判别 前置任务 [6]、[23],其中正例是在同一图像上作为随机数据增强生成的,而负例则简单地从不同图像中生成。由于这个前置任务,编码器学习了图像中 同一对象实例的 多个视图的 相似表示 以及 不同实例的 远距离表示。 Momentum Contrast (MoCo) [8] 是一种强大的对比方法,它实现了一个带有队列和移动平均编码器的动态字典,它可以在运行中构建一个大而一致的字典(有关更多详细信息,请参见第 III-A 节)。在本文中,采用了最近由 [1] 对这种方法进行的地理感知改造


遥感中的表征学习:

        基于计算机视觉方面的成功,SSL 最近被应用于遥感,并被证明可以减少甚至缩小与 ImageNet 传输的差距。 [11]首先将 对比学习 用于遥感表示学习,[12] 还在MoCo [8]之上应用了空间增强标准。这些工作利用了有关遥感领域的 相关先验知识:假设地理上接近的图像 在语义上 应该 比远距离的图像 更相似。

        使学习过程具有地理感知的 另一种方法是 利用 由于 卫星的频繁重访 而可以 从给定地理区域获得的 图像时间序列。 [1] 采用了这种方法,随着时间的推移 使用空间对齐的图像 来构建时域的正对。temporal positive pairs

        凭借在 fMoW 数据集 [5] 上学习的地理感知表示,它们在分类、分割 和 目标检测下游任务上显著改进。但是,这些方法不研究标签效率

        在本文中,将这种称为 MoCoTP 的方法 应用于操作用例。本文研究了 标签效率 并 对该模型进行了小的扩展,从而进一步提高了其性能。同样,[15] 提出了一种用于 对未经处理的遥感数据进行自监督预训练的流程,并提出了一种学习 对时间变化 同时 变化和不变的 表示 的方法。它们在中等分辨率图像(10m)上的少数标签 分类方面 明显优于 ImageNet 预训练。

        人们还可以 利用遥感的 多光谱和多传感器特性。 [19] 将 多光谱图像 分成两个不同的通道子集,并将它们用作增强(正)视图。 [20] 将其扩展到多个传感器,采用所有波段组合的子集。关于遥感中预训练数据的领域,[16] 表明 预训练分布与下游任务的相关性 可以提高 低标记 设置中的性能。然而,他们只研究 有监督的预训练和分类任务,并表明 迁移性能 非常依赖于 预训练数据集中的标记和数据管理质量。因此,这留下了获得 对标签依赖较少的 通用表示的问题,这就是 SSL 可以提供帮助的地方


METHOD:

        在本节中,详细介绍了探索 SSL 在光学卫星图像上的车辆检测和分类中的适用性的方法。整个过程如图 1 所示。本文首先使用最近的 SSL 方法 MoCoTP [1],以无监督方式在 fMoW 数据集 [5] 上预训练 ResNet-50 主干。有关该方法的详细信息,请参见第 III-A 节,有关实施详细信息,请参见第 IV-A2 节。

917dea9b1a3c4460abb4969985a708fe.png

        本文在两个下游任务中 使用这个预训练主干的权重:

(i)fMoW 图像识别任务:本文将 权重 注入 分类器,并执行 线性探测 和 微调。有关详细信息,请参阅第 IV -A 节。

(ii) Preligens 专有数据的车辆检测 和 分类:本文将 权重 注入 RetinaNet 检测器 [14],并对整个模型进行微调。有关实施细节,请参阅第 IV-B2 节。


使用 MoCo 和 Temporal Positives 进行自监督学习:

        本文将 MoCo [8] 框架 用于 对比 SSL。本文使用的基本方法来自 改进的变体 MoCo-V2 [4]。 MoCo 使用 实例判别 前置任务 [23] 学习将 输入查询 q 与一组负key k- 中的key k+(表示同一样本的编码视图)进行匹配。它使用 深度编码器(例如 ResNet [9])将 输入图像query 和 key 映射到向量表示空间。使用 移动平均网络(动量编码器)提取负key 以在训练期间保持一致的表示,并从 内存队列 中提取。本文建议读者参考 [8] 了解这方面的详细信息。 MoCo 使用 InfoNCE [17] 的流行选择来进行对比损失:

92a932822fed4b1fba61476d19ff7aa0.png

其中 τ 是温度缩放参数。

        在 MoCo 之上,本文采用了对 [1] 中提出的 时间视图的扩展,即 MoCo with Temporal Positives (MoCoTP)。它扩展了实例辨别前置任务,以 使用来自不同时间的 空间对齐的图像 作为正例。最大化 时间视图之间的相似性 可以提供更丰富的语义信息,随着时间的推移 提取持久的场景特征。与 MoCo-V2 中相同的随机增强 也应用于时间样本。

对 MoCoTP 的改进:

        与 MoCoTP 相比,本文在 [1] 的框架中进一步 添加了两个修改 以改进它:

(i) 除了 MoCoV2 的几何 和 颜色扰动 之外,本文还 应用了 90° 倍数的 随机水平翻转 和 旋转。由于 数据增强方案 在对比学习中起着主导作用[21],本文的目标是学习 由于旋转不变性 而更适合 空中图像的表示。

(ii) [1] 引入时域正样本 作为式 (1) 中 q 和 k+ 的替代品。但是,这可能会引入假负样本。实际上,在每次训练迭代中,可能会发生 否负样本集 k- 包含 当前小批量query样本的时间视图。这种 假负样本 会导致 相似样本的嵌入之间 产生不正确的排斥。这在多大程度上 对 学习表示 有害 取决于 在训练集中 采样时间对的 概率,以及 队列的大小。为了避免 假负样本 干扰学习目标,本文简单地屏蔽掉(1)中 InfoNCE 损失中的 logits q·k-,对于每个恰好是 q 的时间视图的 k-

        在对给定次数的迭代 进行前置任务训练后,query编码器被提取 并可以迁移到下游任务


迁移到下游任务:

        在 fMoW 上的 MoCoTP 预训练之后,本文将 获得的权重 迁移到 两个下游任务:fMoW 图像识别任务 和 真实世界用例:Preligens 专有数据的车辆检测和分类。本文将使用在 fMoW 数据集上学习的 SSL 权重 初始化的下游训练 称为 fMoW-MoCoTP init。对于每个下游任务,本文将 fMoW-MoCoTP init 与两个基线进行比较:

• IN-sup init:主干已在 ImageNet 上以监督方式进行预训练;

• 随机初始化:主干随机初始化(即 没有预训练)。


EXPERIMENTAL SETUP:

fMoW 的预训练和评估:

        1)数据集:为了学习遥感中的语义表示,本文采用 fMoW数据集[5],遵循[1]。 fMoW 是来自 Maxar 地球观测卫星的 VHR 图像的公共数据集,拥有 363,571 张训练图像,覆盖 207 个国家/地区。随着时间的推移,它提供来自相同位置的图像。本文使用这些可用的时间视图 应用自监督 MoCoTP 方法 对 fMoW 进行预训练。 fMoW 还包括 具有长尾分布的  62 个不同类别的 功能性土地利用分类 的真值标签。本文不将这些标签用于自监督的预训练,而是在下游使用它们来直接评估 为 在预训练期间看到的图像分类 而学习的表示。遵循 [5] 和 [1] ,本文使用 fMoW-RGB 产品进行实验,它提供 0.5m 地面分辨率的 3 波段图像。预处理与 [5] 相同,将输入图像调整为 224×224 像素。

        在预训练阶段之后,使用 线性探测(在来自预训练编码器的 冻结特征之上 训练线性分类器)或 微调(更新网络的所有参数)这两种协议 对 土地利用分类任务 评估模型。为了研究学习表示的标记效率,对 1%、10% 和 100% 的 标记的训练数据 执行监督评估。对于 1% 和 10% 的标签,本文通过 保留基类分布 进行二次抽样。评估指标是类的平均 F1 分数。在验证集上进行测试,以与 [1] 进行比较,其中包含 53,041 张图像。


        2) 实施细节:在本文所有的实验中,使用 带有 ResNet-50 作为query 和 key 编码器的  MoCoTP 。使用以下超参数执行自监督预训练:学习率为 3e-2,余弦调度,批量大小为 256,字典队列大小为 65536,温度缩放为 0.2,SGD 优化器的动量为 0.9,权重衰减为 1e -4。预训练执行 200 个 epoch。

        对于线性探测,本文使用 1 的学习率,没有权重衰减,并且仅使用 随机调整大小的裁剪 用于增强。

        对于微调,本文对 ResNet 权重使用 3e-4 的学习率,对最终分类层使用 1,权重衰减为 1e-4,以及用于预训练的相同增强。本文在不同的标签制度下将 自监督预训练 与 Random init 和 IN-sup init 进行比较。模型使用 交叉熵损失 进行训练,并在验证集上以 最高的 top-1 准确度进行评估。


迁移到车辆实例检测:

        1) 数据集:本文在这里描述 用于 迁移到目标检测的 Preligens 专有数据集。本文称 “S” 为本文的基础数据集。它由 204 张分辨率为 0.3m 的 Maxar WorldView-3 卫星图像 和 大约 12 万辆汽车组成。

        为了研究标签效率,本文 将这个基础数据集 S 子采样 成更小的数据集 “XS”和“XXS”,分别针对 S 中存在的 50% 和 10% 的可观察数据。本文确保 XXS 包含在 XS 中,这样本文的数据集遵循“Matriochka”结构模拟注释工作的增量性质。抽样策略 使得 类分布 得到令人满意的保留。为了对本文的结果进行 方差实验,本文执行 三次采样 并获得 XS 和 XXS 数据集的三个不同变体。本文通过 选择 与初始 S 数据集的 类分布 相匹配的其他卫星图像,对 S 训练集进行类似的处理。

        本文在整个实验过程中保持相同的验证和测试集,并确保图像的地理位置 在训练和测试分割之间 是不同的。训练和验证光栅图像被分成 512x512 像素的图像块tiles,重叠 128 像素。正样本图块(即包含至少一个实例的图块)都被保留,但只有一些负样本图块被随机保留,以便 将训练工作 集中在 正样本图块上,同时 保留相当数量的负样本图块

        真值标签是 带有类标签的 目标可观察对象的 无定向的边界框。本文的分类问题 由 8 个车辆类别组成:民用、军用、装甲、发射器、地面支持设备 (GSE)、电子设备、重型设备 (HE) 和起重设备 (LE)。数据集统计数据见表 I。


        2)实现细节

        检测模型:使用的目标检测模型是 具有 ResNet-50 主干的 RetinaNet [14]。 RetinaNet 采用 ResNet-FPN [13] 架构。主干使用在 fMoW 上使用 MoCoTP 学习的预训练权重 进行初始化,并且 RetinaNet 的特定层是 随机初始化的。本文端到端微调 RetinaNet 模型,并使用 焦点损失目标 进行分类 [14]。

        超参数:本文选择了 1e-4 的学习率、一个 Adam 优化器和 8 的批量大小。本文使用 传统的旋转和翻转 以及 CLAHE 作为数据增强。一旦验证损失收敛,选择用于模型评估的epoch 是在验证集上 计算出的最佳 F1 分数的epoch ,固定检测分数阈值为 0.15。

        评估: F1 分数是根据 通过将检测阈值 从 0.15 变化到 0.9 获得的 精确-召回 曲线计算得出的。在下文中,本文 将车辆检测任务(不考虑类别)的结果 称为 level-1 1 级结果,将 联合检测 和 分类 任务的结果称为 2 级结果。将 预测 与 真值 相匹配的 IoU 阈值设置为 0.0,这在操作上与可观察的计数目的相关。除了 F1 分数,本文还计算了  1 级平均精度(AP)和 2 级平均精度(mAP),它们是 评估检测模型的常用指标。 Level-1 AP 测量 level-1检测的precision-recall曲线下的面积,level-2 mAP 是每类AP的平均值。


RESULTS:

fMoW 分类:

        表二显示了对 fMoW 的 62 类土地利用分类任务进行线性探测和微调的结果。使用 100% 标签,可以看到本文改进的 MoCoTP 再现 与线性探测中的 [1] 和 微调 相比,性能分别提高了 4.36 分 和 1.92 points。这表明 在损失函数中 使用 旋转增强 和 校正假负样本 是有帮助的,特别是对于线性探测,它通过微调完全缩小了差距。

9a8ce0e1ecc045faaa722aa672084d0b.png

        需要注意的是,唯一的额外增强也将 [1] 的基线 Random init 和 IN-sup init 分别提高了 1.29 分和 0.68 分。此外,MoCoTP 显示出令人印象深刻的标签效率:在 1% 和 10% 标签的半监督设置中,可以看到它分别提供了使用 100% 标签训练的网络的 96% 和 87% 的性能,并且大幅超过 IN-sup init。这些结果表明 MoCoTP 在从上游数据集中 学习语义特征 方面非常有效。因此,为了迁移到 标记数据稀缺 的下游操作任务,这是令人鼓舞的。


迁移到车辆检测:

        标签效率

        表 III 和图 2 显示了车辆检测的结果。 fMoW-MoCoTP init 的 F1 分数始终高于 IN-sup init 或 Random init。 fMoW-MoCoTP init 在数据集 XXS 上只有 12k 的可观察值达到了 65.1% 的 F1 分数。在数据集 XS 上,示例比在数据集 S 上少 50%,fMoW-MoCoTP init 仅比在数据集 S 上获得的分数低 3.8 分。此外,数据集越小,fMoW-MoCoTP init 和 IN-sup init 或 Random init 之间的差距越大:在数据集 S上 ,fMoWMoCoTP init 的 F1-score 平均比 Random init 好 5.20 分,也比 IN-sup init 好 0.40 分,而在 XXS 数据集上,fMoW-MoCoTP init 的 F1-score 为 39比 Random init 好 3.7 分,比 IN-sup init 好 3.7 分。这些结果表明,自监督的域内预训练 可以与 ImageNet 上的监督预训练竞争,甚至在低标签制度下 能提供 更好的结果

8da2550bcb5f48e69c8047ad95bf5c8c.png


        主要类 与 稀有类

        表 IV 显示了 2 级的 AP。 fMoW-MoCoTP init 在这六个类上取得了明显高于 Random init 的结果。 fMoW-MoCoTP init 在三个主要类别(民用、军用和装甲)上实现了比 IN-sup init 更高的 AP,覆盖了本文数据集中约 96.5% 的车辆。然而,IN-sup init 在发射器、电子和重型设备类上的表现优于 fMoW-MoCoTP init。这些是非常罕见的类别,涵盖了本文数据集中约 2.2% 的车辆。

        由于 mAP 对所有类 都给予同等重视,这意味着 mAP 分数的值 比 fMoW-MoCoTP init 和 IN-sup init 方法之间的 level1 AP 分数更接近,如图 2 所示。这可能表明 fMoW-MoCoTP init 比较懒,主要关注优势类。用于预训练的 fMoW 数据集 包含语义类别的长尾分布。可以假设 这导致 表示 比 ImageNet 更倾向于 过度表示的视觉概念,因为后者 包含一组平衡的类别,并且 这种偏差也可能 对 向下游 表示不足的类别 的迁移 产生负面影响。然而,需要进一步的工作来为这一假设提供基础。

b25b6d78074c465eb82a2df17cabb951.png


CONCLUSION:

        在这项工作中,本文探索了 域内 SSL 对 现实世界国防相关遥感应用的 附加价值VHR 光学卫星图像上的 车辆检测 和 分类。考虑到这一下游任务,本文将 fMoW 数据集上的 域内预训练 与传统的监督 ImageNet 预训练进行了比较。展示了 fMoW 上的自监督预训练 与 有监督的 ImageNet 预训练相比 具有竞争力 或 更好,尽管没有使用上游标签 并且 上游数据少了 3 倍。为了研究标签效率,对不同的下游数据集大小进行了实验,从而模拟了不同的注释预算。本文展示了 域内 SSL 预训练 比  ImageNet 上的监督预训练 带来更好的标签效率。该结果 特别适用于标记数据具有挑战性的 国防工业用例

        进一步的工作可能包括额外的研究,例如 增加域内预训练数据的数量,使用在类别方面更加平衡(或剥夺其主要类别)的车辆数据集扩展下游数据集的大小范围,以及 试验其他 SSL 方法,包括专门为密集下游任务设计的方法,如检测,如 [10]、[22]、[24]

        

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值