用于遥感自监督学习的特征引导掩码自编码器

Feature Guided Masked Autoencoder for Self-supervised Learning in Remote Sensing

2310.18653 (arxiv.org)

Self-supervised learning guided by masked image modelling, such as Masked AutoEncoder (MAE), has attracted wide attention for pretraining vision transformers in remote sensing. However, MAE tends to excessively focus on pixel details, thereby limiting the model’s capacity for semantic understanding, in particular for noisy SAR images. In this paper, we explore spectral and spatial remote sensing image features as improved MAE-reconstruction targets. We first conduct a study on reconstructing various image features, all performing comparably well or better than raw pixels. Based on such observations, we propose Feature Guided Masked Autoencoder (FG-MAE): reconstructing a combination of Histograms of Oriented Graidents (HOG) and Normalized Difference Indices (NDI) for multispectral images, and reconstructing HOG for SAR images. Experimental results on three downstream tasks illustrate the effectiveness of FG-MAE with a particular boost for SAR imagery. Furthermore, we demonstrate the well-inherited scalability of FG-MAE and release a first series of pretrained vision transformers for medium resolution SAR and multispectral images.

以掩码图像建模(如掩码自动编码器(MAE))为指导的自监督学习在遥感领域的视觉转换器预训练中引起了广泛关注。然而,MAE往往过于关注像素细节,从而限制了模型对语义理解的能力,尤其是在嘈杂的合成孔径雷达(SAR)图像中。

本文探索了光谱和空间遥感图像特征作为改进的MAE重建目标。本文首先对重建各种图像特征进行了研究,这些特征的表现与原始像素相当或更好。基于这些观察,本文提出了特征引导掩码自动编码器(FG-MAE):对于多光谱图像,重建方向梯度直方图(HOG)和归一化差异指数(NDI)的组合;对于SAR图像,则重建HOG。

在三个下游任务上的实验结果表明,FG-MAE的有效性显著,尤其是在SAR图像上。此外,本文还展示了FG-MAE良好的可扩展性,并发布了一系列针对中分辨率SAR和多光谱图像的预训练视觉转换器。

INTRODUCTION

MAE的工作原理是掩盖输入图像中的一些块,对未掩盖的块进行编码,并重建被掩盖的块。这种非对称的编码器-解码器设计使得它相比于对比学习具有更高的效率。然而,重建原始输入使得MAE过于关注像素细节,对伪影和噪声敏感,并可能分散对高级语义表示的注意力。在合成孔径雷达(SAR)场景中,这些问题更加严重,因为斑点噪声(表现为颗粒状干扰,通常被建模为乘性噪声)的存在限制了MAE的性能。

本文提出了一种针对遥感(RS)图像的新型简单MAE变体,称为特征引导掩码自动编码器(FG-MAE),它通过用图像特征作为重建目标来替代原始图像。回顾传统的遥感图像分析,人类设计的特征描述符(如边缘或植被指数)已被广泛用于提取地球表面的语义信息。这些图像特征融入了专家知识,并在引入MAE时能够指导模型的学习过程。

为了证明这一点,本文对多光谱和SAR图像中流行的特征进行了研究:1) CannyEdge;2) 方向梯度直方图(HOG);3) 尺度不变特征变换(SIFT);以及4) 归一化差异指数(NDI)。本文表明,这些特征中的每一个单独使用时都与原始MAE的效果相当甚至更好。

然后,本文在流行的特征中搜索最佳候选者,并提出了FGMAE-MS和FGMAE-SAR。对于多光谱图像,本文结合了空间特征HOG和光谱特征NDI,在解码器的末尾使用两个单独的预测头。这种组合使得空间特征和光谱特征能够相互补充。对于SAR图像,本文仅使用HOG来增强空间信息并减少斑点噪声的影响。

本文使用BigEarthNet-MM、EuroSAT和DFC2020数据集对FG-MAE在多光谱和SAR图像的场景分类和语义分割等下游任务上进行了评估。对于EuroSAT,本文匹配了EuroSAT-MS的地理坐标并收集了EuroSAT-SAR数据集。结果表明,FG-MAE在所有任务上均表现出色,特别是在SAR场景中。此外,FG-MAE的效率与MAE相当,使其能够扩展到大型基础模型。本文展示了在线性评估协议下,FGMAE-MS和FGMAE-SAR均能够很好地扩展到具有0.7B参数的ViT-Huge模型。

本文贡献如下:

证明了将遥感图像特征作为基于掩码图像建模的自监督学习的重建目标的有效性;

提出了FG-MAE,这是一种适用于多光谱和SAR图像的新型MAE变体;

展示了FG-MAE预训练模型在三个流行的MS&SAR数据集上的优势;

验证了FG-MAE的可扩展性,并发布了第一系列针对多光谱和SAR图像的预训练ViT,参数大小从22M到0.7B不等。

METHODOLOGY

A. 目标特征

本文考虑了遥感(RS)图像特征的两大类四种类型:在空间上,包括1) CannyEdge、2) HOG 和 3) SIFT;在光谱上,包括4) NDI,这涵盖了植被指数、水体指数和建筑指数。

CannyEdge

CannyEdge是一种边缘检测算法,它通过追踪像素强度的梯度来识别图像中的边缘。该算法首先对图像进行高斯滤波以减少噪声,然后计算每个像素的梯度幅度和方向。接下来,应用非极大值抑制来抑制非最大边缘贡献者,并通过应用滞后阈值于梯度幅度来检测边缘。

边缘描述符通过突出显示对象边界来简化复杂图像,从而有助于计算机视觉算法中的对象识别和跟踪。作为该类别中最流行的算法之一,CannyEdge 能够准确检测边缘的同时最小化误报。它还能适应光照和对比度的变化,这些变化通常会给其他边缘检测算法带来问题。此外,CannyEdge 能够准确检测图像中任意方向或位置的边缘,使其成为遥感应用的强大工具。

在任何深度学习框架中,CannyEdge 都易于通过卷积、非极大值抑制和阈值化来计算。本文使用 kornia 的滤波器工具箱来提取边缘作为 MAE 的目标(每个图像通道生成一张边缘图)。后续处理与重建原始图像相同,包括在每个小补丁内进行补丁化和归一化。

HOG

方向梯度直方图(HOG)是一种特征描述符,用于描述图像局部子区域内梯度方向的分布。该算法使用梯度滤波计算每个像素的梯度幅度和方向。然后,将每个小局部窗口内的梯度累积到由梯度幅度投票的归一化方向直方图向量中。

HOG 能够捕获局部形状和外观,同时对几何变化具有一定的不变性。HOG 也对光度变化具有不变性,因为图像梯度和局部对比度归一化可以吸收亮度和前景-背景对比度变化。与 CannyEdge 不同,HOG 不仅关注边缘,还提供边缘梯度的幅度和方向信息。

与 CannyEdge 类似,HOG 可以通过两通道卷积来生成梯度,然后进行直方图统计和归一化。本文遵循 MaskFeat 的实现方式,将 HOG 编写为(权重固定)神经网络模块。原始图像的每个通道提供一个 HOG 特征。然后,将带掩码的补丁的直方图展平并连接成一个一维向量,作为目标特征。

SIFT(尺度不变特征变换)

SIFT(尺度不变特征变换)是一种特征描述符,用于从图像中提取独特且不变的局部特征。它通过检测图像中对尺度、旋转和光照变化不变的关键点来工作。一旦检测到关键点,SIFT 就会通过提取局部图像梯度方向和幅度来为每个关键点计算描述符。然后,这些梯度被转换为方向直方图,用于创建描述关键点周围局部图像块的特征向量。

SIFT 描述符对尺度、旋转、光照和噪声具有鲁棒性,适用于图像配准等多种应用。然而,关键点检测器和特征描述符的复杂工作流程使得模型难以学习。另一个具体问题是,SIFT 提供的是基于点的特征,而不是基于区域的特征,这与标准的 ViT 模型设计不太吻合。因此,将著名的 SAR-SIFT [31] 算法集成到 SAR 图像中是一个棘手的问题。如何有效地处理动态关键点和模型的学习能力仍然是未来研究的一个挑战。作为本工作的初步展示,本文通过在整个图像上密集计算 SIFT 描述符来简化关键点检测过程。本文使用 kornia 的特征工具箱来计算密集的 SIFT 特征。由于内存限制,本文使用灰度图像进行计算。

NDI(归一化差异指数)

NDI(归一化差异指数)是一种通过量化两个光谱波段之间的差异来识别一种地面物体的技术。它常用于遥感应用中,如植被健康状况或土壤水分水平的变化。NDI 通过计算两个特征敏感光谱波段之差与它们之和的比率来工作,然后将该比率归一化到 -1 到 1 的范围内,其中接近 1 的值表示所关注特征的增加。

NDI 是一种简单有效的方法来检测植被健康状况或土壤水分水平的变化,因为它对不同光谱波段反射率的变化很敏感。最流行的三种 NDI 是归一化差异植被指数(NDVI)、归一化差异水体指数(NDWI)和归一化建筑指数(NDBI):

其中,NIR 代表近红外光,R 代表红光,G 代表绿光,SW IR 代表短波红外光。在本文中,本文为每个像素计算这三个指数,并将它们连接成一个三通道的目标图像。

在实验中,证明了上述所有特征都可以作为良好的重建目标来替代原始图像。结果将在 V-A 部分讨论,其中分别重建了上述特征,并评估了相应的下游性能。

B. FGMAE-MS / SAR

然后,本文基于特征研究开发了提出的自监督方法 FG-MAE。本文考虑了遥感中的两种流行模式:多光谱成像和极化SAR成像。对于多光谱成像,我们结合了空间特征HOG和光谱特征NDI以相互补充;对于SAR,我们选择HOG,因为它具有计算效率和噪声鲁棒性。

如图2所示,本文保留了MAE的不对称编码器-解码器结构,同时修改了重建目标。具体来说,对于FGMAE-SAR,形状为(B,2,W,H)的增强原始图像被划分为L个形状为(B,L,w,h)的非重叠补丁,其中Lm个随机补丁被屏蔽。剩余的可见补丁形状为(B,L-Lm,w,h),被展平为(B,L-Lm,w*h),通过一个线性嵌入层处理为(B,L-Lm,Ken),并通过ViT编码器传递。编码后的可见补丁形状为(B,L-Lm,Ken)。在解码过程的开始,一个线性层用于将编码后的补丁嵌入到(B,L-Lm,Kde)。然后,它们与掩码令牌结合成(B,L,Kde)作为轻量级ViT解码器的输入。解码器的最后一层是一个线性层,它将解码后的补丁转换为HOG预测,形状为(B,L,Kout),其中Kout由HOG窗口大小、箱位数和输入通道数定义。

对于FGMAE-MS,解码器的最后一层被替换为两个并行的线性层,一个输出HOG,另一个输出NDI。请注意,对于这两种模式,输出都覆盖了所有补丁,但在计算L2损失时,仅计算被屏蔽的补丁。

  • 12
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
自监督对比学习和掩码生成学习是两种常见的无监督学习方法,它们在不同的任务和场景下具有各自的优势和劣势。 1. 自监督对比学习: 自监督对比学习是一种通过构建正负样本对来进行学习的方法。它的核心思想是通过将输入数据进行变换,然后将变换前后的数据作为正负样本对进行训练。具体步骤包括:首先,对输入数据进行随机变换,如旋转、裁剪、遮挡等;然后,通过一个神经网络模型将变换前后的数据编码为特征向量;最后,使用对比损失函数来优化模型,使得正样本对的相似度高于负样本对。 优势: - 无需标注数据:自监督对比学习不需要标注数据,只需要利用输入数据本身进行训练,因此可以节省大量的标注成本。 - 广泛适用:自监督对比学习可以应用于各种任务,如图像分类、目标检测、语义分割等,具有较强的通用性。 - 学习丰富的特征表示:通过对比学习,模型可以学习到丰富的特征表示,这些表示可以在其他任务中进行迁移学习,提升模型性能。 劣势: - 需要设计合适的变换:自监督对比学习的效果受到变换的选择和设计的影响,需要针对具体任务进行合适的变换设计。 - 需要大量的计算资源:自监督对比学习通常需要大规模的数据和计算资源进行训练,对硬件设备有一定要求。 2. 掩码生成学习: 掩码生成学习是一种通过预测输入数据中的掩码信息来进行学习的方法。它的核心思想是通过将输入数据中的一部分信息遮挡或掩盖,然后让模型预测被掩盖的信息。具体步骤包括:首先,对输入数据进行随机掩码操作,将一部分信息遮挡;然后,使用神经网络模型对被掩盖的信息进行预测;最后,使用预测结果与真实值之间的差异作为损失函数进行优化。 优势: - 学习局部信息:掩码生成学习可以帮助模型学习到输入数据中的局部信息,从而提升对局部细节的感知能力。 - 强化泛化能力:通过掩码生成学习,模型可以学习到对输入数据的不完整信息进行推理和填充的能力,从而增强模型的泛化能力。 - 可解释性:掩码生成学习可以生成掩码图像,使得模型的预测结果更加可解释。 劣势: - 需要标注掩码信息:掩码生成学习需要标注输入数据中的掩码信息,这对于一些任务可能需要额外的标注成本。 - 对遮挡策略敏感:掩码生成学习的效果受到遮挡策略的选择和设计的影响,需要针对具体任务进行合适的遮挡策略设计。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值