CVPR 2024 | SatMAE++：多光谱遥感图像Transformer预训练

最新推荐文章于 2025-03-10 16:42:09 发布

Amusi（CVer）

最新推荐文章于 2025-03-10 16:42:09 发布

阅读量3.2k

点赞数 1

文章标签： transformer 人工智能深度学习

原文链接：https://mp.weixin.qq.com/s?__biz=MzUxNjcxMjQxNg==&mid=2247594951&idx=2&sn=929034979934833f8a591dcdd5d412e2&chksm=f8864a6c06d0c7476c2023e7e73ebc2aa26b89eb24040295ec75ac01e90e4f685d66e025bcc7&scene=126&sessionid=0

版权

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达

点击进入—>【遥感和多模态】交流群

添加微信：CVer444，小助手会拉你进群！

扫描下方二维码，加入CVer学术星球！可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料，及最前沿应用！发论文/搞科研/涨薪，强烈推荐！

转载自：GISer阿兴

论文题目：Rethinking Transformers Pre-training for Multi-Spectral Satellite Imagery
论文链接：https://arxiv.org/pdf/2403.05419.pdf
论文代码：https://github.com/techmn/satmae_pp
发表时间：2024.3.8

摘要

本文重新审视了Transformer的预训练，提出SatMAE++
模型执行多尺度预训练，并使用基于卷积的上采样块来重建更高尺度的图像，使其能够扩展以包含更多尺度。
与现有工作相比，所提出的SatMAE++与多尺度预训练对于光学图像和多光谱图像同样有效
SatMAE++在BigEarthNet数据集上的多标签分类任务中实现了平均精度（mAP）提升2.5%。

背景

多尺度信息的有效整合：需要开发方法来充分利用遥感图像中的多尺度信息，以及处理由于不同传感器技术和图像分辨率导致的尺度变化。
多光谱数据的融合与利用：面对多光谱图像中不同通道的GSD差异，需找到策略来融合和利用这些信息，以提高遥感图像分析的准确性。
预训练模型的改进与泛化：现有的预训练模型在处理多尺度遥感图像方面存在局限，需改进以增强其泛化能力和多尺度信息的利用。
简化的多尺度学习策略：探索不依赖于复杂解码器的简化方法，以学习多尺度表示并提升遥感图像分割和分类的性能。

方法

总体框架

图1展示了SatMAE++的整体框架，该框架克服了基线框架SatMAE和其他近期方法在多尺度预训练方面的局限性，适用于多光谱（fMoW-Sentinel）以及RGB数据（fMoW-RGB）。

模型接受最多三个尺度级别的输入图像，并将最低尺度级别的图像输入到SatMAE框架中。基础框架接收输入图像，应用补丁嵌入和遮蔽操作，并将可见令牌送入变换器编码器。
随后，解码器接收编码器的输出，并重建具有与最低尺度级别输入相同空间维度的图像。
SatMAE模型的重建输出被上采样块用来执行更高尺度级别的精细重建。在更高尺度上的重建鼓励模型学习多尺度表示，从而提高在各种下游任务上的性能。

上采样块的架构如图2所示。

该块接收输入特征X ∈ R^(C×H×W)^，并通过转置卷积层来增加特征的空间分辨率。之后，对上采样后的特征进行归一化，并应用leaky ReLU激活函数。接着，使用一个包含两个卷积层的残差块来增强局部特征。
增强后的特征˜X ∈ R^(C×2H×2W)^ 通过线性投影层映射回空间域，并使用平均绝对误差（MAE）来计算输入图像与重建图像之间的重建误差。

Reconstruction at Two Scale Levels

使 I ∈ R^ (C×H×W) ^ 成为输入到MAE的图像。取一个分辨率为R^(C×2H×2W)^的图像I，并将其下采样以获得大小为R^(C×H×W)^的图像I。图像I被输入到MAE中，MAE首先使用补丁嵌入层来将输入图像分割成补丁。对于多光谱输入，为不同组的波段通道使用单独的补丁嵌入层。随后，不同组的补丁令牌沿空间维度连接。

像其他MAE方法一样屏蔽了75%的补丁令牌。然后，将位置编码添加到可见的补丁令牌上。使用通用位置编码，它不依赖于GSD信息。可见补丁令牌被送入一系列变换器块，产生编码的可见特征。
与SatMAE类似，解码器从编码器中获取编码的可见特征，并通过线性投影来减少嵌入维度。
然后，可见特征被放回其原始索引位置，并附加可学习的遮罩令牌到可见令牌中。
之后，RGB或多光谱位置编码被添加到补丁令牌上。
最终，补丁令牌被送入解码器Transformer，一个最终的投影层将解码的特征映射回空间域。解码后的图像F被重塑为原始输入尺寸，使用均方误差来计算重建质量。

在从解码器获得重建输入后，使用线性投影将重建图像映射回特征空间。然后，利用转置卷积以(2H × 2W)的分辨率上采样特征图。上采样后的特征图通过一个由两个卷积层组成的残差块。最后，我将特征映射回图像空间以获得缩放的重建图像，并应用L1损失来分析模型在更高尺度上的重建性能。

总loss如下：

Reconstruction at Three Scale Levels

对于多光谱数据，由于模型输入的分辨率比RGB数据小（RGB使用224×224像素），模型在三个尺度级别上重建图像。

取分辨率更高的图像I¯（R^(C×4H×4W)^），对图像I¯进行两次下采样，分别获得图像Iˆ ∈ R^(C×2H×2W)^和I ∈ R^(C×H×W)^。
在空间分辨率为(H, W)处重建图像F，应用线性投影层将数据投影到特征空间并输入到上采样块。上采样块使用转置卷积将空间分辨率增加两倍，然后输入到残差卷积块以获得具有空间分辨率(2H, 2W)的特征Fˆ。特征Fˆ输入到另一个上采样块以获得维度为(4H, 4W)的特征F¯。
特征Fˆ和F¯都被映射回图像空间，并应用L1损失来衡量重建特征的质量。整体损失是三个损失的加权平均，给出如下：

实验

Pretraining Datasets

使用了两个公开的大规模数据集来预训练多光谱和RGB卫星数据的vision transformer。

fMoW-RGB：《世界功能地图》（fMoW）是一个大规模的高分辨率卫星图像公开数据集。该数据集分为62个类别进行分类任务，包含约36.3万张训练图像和5.3万张测试图像。
fMoW-Sentinel：SatMAE对fMoW-RGB进行了精炼和扩展，用于分类任务，并包含了Sentinel-2数据的图像。与fMoW-RGB类似，这个数据集有62个类别。该数据集包含更多的图像，包括712,874张训练图像、84,939张验证图像和84,966张测试图像。

重建结果：图3中展示了在fMoW-Sentinel数据集上的多尺度重建结果。

本文方法与基线方法（SatMAE）的重建结果在图4中进行了比较。

Pre-training and Finetuning on fMoW-RGB

预训练：

与SatMAE和ScaleMAE类似，在fMoW-RGB数据集上预训练ViT-Large模型。输入图像的空间分辨率为(224 × 224)，补丁大小为16。在预训练期间，将图像的较短边调整为448像素，然后从调整大小的图像中随机裁剪448 × 448像素。
然后将448×448像素的图像通过双线性插值下采样到较低分辨率的224 × 224像素。然后我们将224 × 224像素的图像输入模型。
在预训练实验中使用AdamW优化器和余弦学习率调度器。初始学习率设置为7e-4，单GPU的批量大小为64。在预训练模型时遮蔽了75%的补丁，使用8个NVIDIA V100 GPU来训练模型800个周期。

微调：

通过加载预训练权重以端到端的方式微调ViT-Large模型。初始学习率设置为1e-3，单GPU的批量大小为8。
使用AdamW优化器和余弦调度器，在8个NVIDIA V100 GPU上微调模型50个周期。

讨论：

在表2中展示了我们方法的微调结果。

Pre-training and Finetuning on fMoW-RGB

预训练：

在图像大小为96×96、补丁大小为8的fMoW-Sentinel数据集上对ViT-Large模型进行预训练。
采用SatMAE+Group+IM策略，对多光谱数据进行通道分组和独立遮蔽。
在预训练和微调期间，创建了(i)包含B2、B3、B4、B8通道的组，(ii)由B5、B6、B7、B8A通道组成的组，以及(iii)B11、B12通道的组。这些组被选定为具有相同的GSD分辨率。
在预训练阶段，图像的较短边被调整为384像素，并使用随机裁剪获得384×384像素大小的图像。然后对384×384大小的图像进行插值，得到两个降采样图像，大小分别为192×192和96×96像素。将空间分辨率为96×96的调整后图像输入模型。模型以基础学习率1e-4和批量大小8在8个NVIDIA V100 GPU上预训练50个周期。

微调：

在微调阶段，我们加载ViT-Large模型的预训练权重并进行微调，共计30个周期。
使用基础学习率2e-4，输入大小为96×96像素，补丁大小为8。
使用AdamW优化器、余弦调度器和相同的数据增强，在8个NVIDIA V100 GPU上进行微调模型。

讨论：

在表3中报告了fMoW-Sentinel数据集上的最新比较结果。

Downstream Datasets

为了证明预训练方法的有效性，使用了以下与土地覆盖和多标签分类任务相对应的数据集。

EuroSAT：一个公开可用的遥感数据集，用于土地利用和土地覆盖（LULC）分类。它被归类为10个类别，包含27000张图像。该数据集既有RGB格式，也有多光谱（Sentinel-2）格式。
RESISC-45：一个公开的遥感场景分类数据集，包含31500张图像，有45个场景类别。
UC-Merced：一个公开的土地利用遥感图像数据集，包含21个场景类别。每个类别包括100张图像，这些图像是从美国地区手动挑选的。
BigEarthNet：一个多标签土地覆盖分类数据集，公开用于研究目的。该数据集由590326张Sentinel-2图像组成，归类为19个类别。

Transfer Learning on Downstream Datasets

Land Cover Classification

EuroSAT上微调

RESISC-45上微调

UC-Merced上微调

Multi-Label Classification

结论

遥感图像提供了广泛的分辨率和光谱波段，其中包含了多尺度信息。现有的最先进方法在有效利用多尺度信息以及多光谱数据方面存在挑战。
本文提出了一个名为SatMAE++ 的框架，以整合多尺度信息，从而提高模型性能并实现在微调过程中的快速收敛。
SatMAE++可以轻松扩展到多个尺度级别，并且不局限于单一类型的数据模态。在多个下游和主流数据集上进行的广泛实验显示了方法的有效性。未来的工作包括将所提出的多尺度预训练扩展到密集预测任务上。

何恺明在MIT授课的课件PPT下载

在CVer公众号后台回复：何恺明，即可下载本课程的300+页课件PPT！赶紧学起来！

CVPR 2024 论文和代码下载

在CVer公众号后台回复：CVPR2024，即可下载CVPR 2024论文和代码开源的论文合集

遥感和扩散模型交流群成立

扫描下方二维码，或者添加微信：CVer444，即可添加CVer小助手微信，便可申请加入CVer-遥感和扩散模型微信交流群。另外其他垂直方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF等。
一定要备注：研究方向+地点+学校/公司+昵称（如遥感或者扩散模型+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群

▲扫码或加微信号: CVer444，进交流群
CVer计算机视觉（知识星球）来了！想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料，欢迎扫描下方二维码，加入CVer计算机视觉（知识星球），已汇集近万人！

▲扫码加入星球学习

▲点击上方卡片，关注CVer公众号
整理不易，请点赞和在看