国防科大&清华提出RoMA：首个用于遥感的Mamba自监督预训练框架

Amusi（CVer）

于 2025-04-11 00:00:01 发布

阅读量206

点赞数

原文链接：https://mp.weixin.qq.com/s?__biz=MzUxNjcxMjQxNg==&mid=2247618132&idx=3&sn=9fd3ff845bfb54e2655667f30a417241&chksm=f822f7eb7c183f183a82c55ee6d4ec1978751da2d175cac43f667d29472bf99249617abc552b&scene=126&sessionid=0

版权

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达

点击进入—>【顶会/顶刊】投稿交流群

添加微信号：CVer2233，小助手会拉你进群！

扫描下方二维码，加入CVer学术星球！可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料，及最前沿应用！发论文/搞科研/涨薪，强烈推荐！

论文介绍

题目：RoMA: Scaling up Mamba-based Foundation Models for Remote Sensing

期刊：https://arxiv.org/abs/2503.10392

代码和模型：https://github.com/MiliLab/RoMA

年份：2025

单位：国防科技大学，清华大学，武汉大学，北京邮电大学

创新点

首个用于遥感的 Mamba 自监督预训练框架 RoMA：
- 首次将自回归预训练（Autoregressive Pretraining）引入 Mamba 架构，用于高分辨率遥感图像的自监督学习。
- 在遥感领域讨论了针对mamba架构的预训练，自回归的方式是优于当前主流MAE方式。
RoMA自监督预训练框架的创新
- 自适应旋转感知机制（Adaptive Rotation Encoding）：用传统特征（如 LBP）选出高信息区域后旋转增强，并引入角度嵌入，提升对任意方向目标的鲁棒性。
- 多尺度预测目标（Multi-scale Token Prediction）：通过多个尺度对图像区域进行建模，适应遥感图像中目标尺度差异大的特点。

首次系统性验证 Mamba 模型在遥感中的 Scaling 能力（性能分别随着模型与数据规模扩展的规律）

结构上，RoMA 不改变 Mamba 的核心模块，仅设计针对遥感的预训练方式，保持架构简洁。
训练上，与 ViT 的 MAE 方式相比更适配Mamba架构，特别适用于高分辨率图像。
语义上，具备更强的旋转不变性和尺度适应性，提升遥感目标的泛化识别能力。

数据

预训练数据

使用 OpticalRS-4M 数据集，包含约 400 万张无标签的光学遥感图像，覆盖多种场景。该数据集用于自监督预训练，验证模型在大规模遥感数据下的可扩展性和表现力。

下游任务数据

场景分类：使用 AID 和 UCM 数据集，分别包含多种遥感典型场景，如机场、住宅区、工业区等。
变化检测：采用 OSCD 数据集，包含相同区域在不同时间的图像对，用于检测区域内的变化。
语义分割：使用 SpaceNet v1 数据集，聚焦于从遥感图像中提取建筑物等像素级语义信息。

方法

总体框架：RoMA

RoMA 是一种专为遥感领域设计的自监督预训练框架，适用于 Mamba 架构。它的核心是利用自回归（Autoregressive）方式进行图像建模，以替代传统的 MAE 方法，更适配 Mamba 的线性扫描结构。

自回归预训练

与 MAE 仅对部分图像块进行编码不同，RoMA 使用自回归方式将整张图像划分为 patch，并按顺序编码每个 patch，通过预测下一个 token 的方式进行训练。这种顺序建模方式与 Mamba 的线性结构天然契合，有助于保持空间连续性。

自适应旋转编码策略（Adaptive Rotation Encoding Strategy）

RoMA 通过一种旋转感知机制提高对遥感图像中不同方向目标的建模能力：

- 首先，利用传统图像特征（如 LBP）从整张图像中筛选信息密度较高的区域。
- 然后，在这些关键区域上进行随机旋转，以增强模型对不同方向物体的感知能力。
- 在旋转后，还引入了角度嵌入信息，让模型学习到“图像被旋转过”的概念，从而进一步提升方向不变性（rotation invariance）。
- 与随机旋转不同，RoMA 是基于内容选择旋转区域，更具针对性。

多尺度预测策略（Multi-scale Prediction Strategy）

遥感图像中目标尺度差异巨大，RoMA引入多尺度预测机制以增强表示能力：

- 在原始图像被划分为小 patch 后，RoMA还会将这些 patch 聚合成更大尺度的区域，形成多个分辨率层级。
- 模型不仅要预测当前 token，还需预测大尺度块的整体信息，实现从细节到结构的全局建模。
- 这种策略能帮助模型学习到不同层次的空间关系，从而更好地适应遥感图像中存在的大小、密度和分布差异。

整体流程

输入图像被划分为 patch。
高信息区域经过旋转增强，角度信息作为嵌入加入序列。
所有 patch 被输入 Mamba 编码器，进行顺序建模。
编码结果用于预测下一个 patch 的内容，同时在多个尺度上进行预测。
训练目标是让模型在多个尺度上都能还原出完整图像表示。

结果与分析

实验结果表明，RoMA 预训练的 Mamba 模型在场景分类、变化检测和语义分割等任务中表现优于现有主流方法，同时具备更高的效率。分析还验证了其良好的可扩展性，模型性能随着数据量和参数规模的增加持续提升。

精度对比

更多图表分析可见原文

何恺明在MIT授课的课件PPT下载

在CVer公众号后台回复：何恺明，即可下载本课程的所有566页课件PPT！赶紧学起来！

CVPR 2025 论文和代码下载

在CVer公众号后台回复：CVPR2025，即可下载CVPR 2025论文和代码开源的论文合集

ECCV 2024 论文和代码下载

在CVer公众号后台回复：ECCV2024，即可下载ECCV 2024论文和代码开源的论文合集

CV垂直方向和论文投稿交流群成立

扫描下方二维码，或者添加微信号：CVer2233，即可添加CVer小助手微信，便可申请加入CVer-垂直方向和论文投稿微信交流群。另外其他垂直方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。
一定要备注：研究方向+地点+学校/公司+昵称（如Mamba、多模态学习或者论文投稿+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群

▲扫码或加微信号: CVer2233，进交流群
CVer计算机视觉（知识星球）来了！想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料，欢迎扫描下方二维码，加入CVer计算机视觉（知识星球），已汇集上万人！

▲扫码加入星球学习

▲点击上方卡片，关注CVer公众号
整理不易，请点赞和在看

国防科大&清华提出RoMA：首个用于遥感的Mamba自监督预训练框架

论文介绍

创新点

数据

方法

总体框架：RoMA

自回归预训练

自适应旋转编码策略（Adaptive Rotation Encoding Strategy）

多尺度预测策略（Multi-scale Prediction Strategy）

整体流程

结果与分析