国防科大&清华提出RoMA:首个用于遥感的Mamba自监督预训练框架

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【顶会/顶刊】投稿交流群

添加微信号:CVer2233,小助手会拉你进群!

扫描下方二维码,加入CVer学术星球!可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料,及最前沿应用!发论文/搞科研/涨薪,强烈推荐!

图片

论文介绍

题目:RoMA: Scaling up Mamba-based Foundation Models for Remote Sensing

期刊:https://arxiv.org/abs/2503.10392

代码和模型:https://github.com/MiliLab/RoMA

年份:2025

单位:国防科技大学,清华大学,武汉大学,北京邮电大学

图片

创新点

  • 首个用于遥感的 Mamba 自监督预训练框架 RoMA

    • 首次将自回归预训练(Autoregressive Pretraining)引入 Mamba 架构,用于高分辨率遥感图像的自监督学习。

    • 在遥感领域讨论了针对mamba架构的预训练,自回归的方式是优于当前主流MAE方式。

  • RoMA自监督预训练框架的创新

    • 自适应旋转感知机制(Adaptive Rotation Encoding):用传统特征(如 LBP)选出高信息区域后旋转增强,并引入角度嵌入,提升对任意方向目标的鲁棒性。

    • 多尺度预测目标(Multi-scale Token Prediction):通过多个尺度对图像区域进行建模,适应遥感图像中目标尺度差异大的特点。

  • 首次系统性验证 Mamba 模型在遥感中的 Scaling 能力(性能分别随着模型与数据规模扩展的规律)

  • 结构上,RoMA 不改变 Mamba 的核心模块,仅设计针对遥感的预训练方式,保持架构简洁。

  • 训练上,与 ViT 的 MAE 方式相比更适配Mamba架构,特别适用于高分辨率图像。

  • 语义上,具备更强的旋转不变性和尺度适应性,提升遥感目标的泛化识别能力。

数据

预训练数据

使用 OpticalRS-4M 数据集,包含约 400 万张无标签的光学遥感图像,覆盖多种场景。该数据集用于自监督预训练,验证模型在大规模遥感数据下的可扩展性和表现力。

下游任务数据

  • 场景分类:使用 AID 和 UCM 数据集,分别包含多种遥感典型场景,如机场、住宅区、工业区等。

  • 变化检测:采用 OSCD 数据集,包含相同区域在不同时间的图像对,用于检测区域内的变化。

  • 语义分割:使用 SpaceNet v1 数据集,聚焦于从遥感图像中提取建筑物等像素级语义信息。

方法

总体框架:RoMA

RoMA 是一种专为遥感领域设计的自监督预训练框架,适用于 Mamba 架构。它的核心是利用自回归(Autoregressive)方式进行图像建模,以替代传统的 MAE 方法,更适配 Mamba 的线性扫描结构。

图片

图片


  • 自回归预训练

与 MAE 仅对部分图像块进行编码不同,RoMA 使用自回归方式将整张图像划分为 patch,并按顺序编码每个 patch,通过预测下一个 token 的方式进行训练。这种顺序建模方式与 Mamba 的线性结构天然契合,有助于保持空间连续性。


  • 自适应旋转编码策略(Adaptive Rotation Encoding Strategy)

RoMA 通过一种旋转感知机制提高对遥感图像中不同方向目标的建模能力:

    • 首先,利用传统图像特征(如 LBP)从整张图像中筛选信息密度较高的区域。

    • 然后,在这些关键区域上进行随机旋转,以增强模型对不同方向物体的感知能力。

    • 在旋转后,还引入了角度嵌入信息,让模型学习到“图像被旋转过”的概念,从而进一步提升方向不变性(rotation invariance)。

    • 与随机旋转不同,RoMA 是基于内容选择旋转区域,更具针对性。


图片

  • 多尺度预测策略(Multi-scale Prediction Strategy)

遥感图像中目标尺度差异巨大,RoMA引入多尺度预测机制以增强表示能力:

    • 在原始图像被划分为小 patch 后,RoMA还会将这些 patch 聚合成更大尺度的区域,形成多个分辨率层级。

    • 模型不仅要预测当前 token,还需预测大尺度块的整体信息,实现从细节到结构的全局建模。

    • 这种策略能帮助模型学习到不同层次的空间关系,从而更好地适应遥感图像中存在的大小、密度和分布差异。


整体流程

  • 输入图像被划分为 patch。

  • 高信息区域经过旋转增强,角度信息作为嵌入加入序列。

  • 所有 patch 被输入 Mamba 编码器,进行顺序建模。

  • 编码结果用于预测下一个 patch 的内容,同时在多个尺度上进行预测。

  • 训练目标是让模型在多个尺度上都能还原出完整图像表示。

结果与分析

实验结果表明,RoMA 预训练的 Mamba 模型在场景分类、变化检测和语义分割等任务中表现优于现有主流方法,同时具备更高的效率。分析还验证了其良好的可扩展性,模型性能随着数据量和参数规模的增加持续提升。

精度对比

图片

图片

图片

更多图表分析可见原文

何恺明在MIT授课的课件PPT下载

在CVer公众号后台回复:何恺明,即可下载本课程的所有566页课件PPT!赶紧学起来!

CVPR 2025 论文和代码下载

在CVer公众号后台回复:CVPR2025,即可下载CVPR 2025论文和代码开源的论文合集

ECCV 2024 论文和代码下载

在CVer公众号后台回复:ECCV2024,即可下载ECCV 2024论文和代码开源的论文合集

CV垂直方向和论文投稿交流群成立

扫描下方二维码,或者添加微信号:CVer2233,即可添加CVer小助手微信,便可申请加入CVer-垂直方向和论文投稿微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。
一定要备注:研究方向+地点+学校/公司+昵称(如Mamba、多模态学习或者论文投稿+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲扫码或加微信号: CVer2233,进交流群
CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集上万人!

▲扫码加入星球学习

▲点击上方卡片,关注CVer公众号
整理不易,请点赞和在看
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值