点击下方卡片,关注“CVer”公众号
AI/CV重磅干货,第一时间送达
添加微信号:CVer2233,小助手会拉你进群!
扫描下方二维码,加入CVer学术星球!可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料,及最前沿应用!发论文/搞科研/涨薪,强烈推荐!
论文介绍
题目:RoMA: Scaling up Mamba-based Foundation Models for Remote Sensing
期刊:https://arxiv.org/abs/2503.10392
代码和模型:https://github.com/MiliLab/RoMA
年份:2025
单位:国防科技大学,清华大学,武汉大学,北京邮电大学
创新点
首个用于遥感的 Mamba 自监督预训练框架 RoMA:
首次将自回归预训练(Autoregressive Pretraining)引入 Mamba 架构,用于高分辨率遥感图像的自监督学习。
在遥感领域讨论了针对mamba架构的预训练,自回归的方式是优于当前主流MAE方式。
RoMA自监督预训练框架的创新
自适应旋转感知机制(Adaptive Rotation Encoding):用传统特征(如 LBP)选出高信息区域后旋转增强,并引入角度嵌入,提升对任意方向目标的鲁棒性。
多尺度预测目标(Multi-scale Token Prediction):通过多个尺度对图像区域进行建模,适应遥感图像中目标尺度差异大的特点。
首次系统性验证 Mamba 模型在遥感中的 Scaling 能力(性能分别随着模型与数据规模扩展的规律)
结构上,RoMA 不改变 Mamba 的核心模块,仅设计针对遥感的预训练方式,保持架构简洁。
训练上,与 ViT 的 MAE 方式相比更适配Mamba架构,特别适用于高分辨率图像。
语义上,具备更强的旋转不变性和尺度适应性,提升遥感目标的泛化识别能力。
数据
预训练数据
使用 OpticalRS-4M 数据集,包含约 400 万张无标签的光学遥感图像,覆盖多种场景。该数据集用于自监督预训练,验证模型在大规模遥感数据下的可扩展性和表现力。
下游任务数据
场景分类:使用 AID 和 UCM 数据集,分别包含多种遥感典型场景,如机场、住宅区、工业区等。
变化检测:采用 OSCD 数据集,包含相同区域在不同时间的图像对,用于检测区域内的变化。
语义分割:使用 SpaceNet v1 数据集,聚焦于从遥感图像中提取建筑物等像素级语义信息。
方法
总体框架:RoMA
RoMA 是一种专为遥感领域设计的自监督预训练框架,适用于 Mamba 架构。它的核心是利用自回归(Autoregressive)方式进行图像建模,以替代传统的 MAE 方法,更适配 Mamba 的线性扫描结构。
自回归预训练
与 MAE 仅对部分图像块进行编码不同,RoMA 使用自回归方式将整张图像划分为 patch,并按顺序编码每个 patch,通过预测下一个 token 的方式进行训练。这种顺序建模方式与 Mamba 的线性结构天然契合,有助于保持空间连续性。
自适应旋转编码策略(Adaptive Rotation Encoding Strategy)
RoMA 通过一种旋转感知机制提高对遥感图像中不同方向目标的建模能力:
首先,利用传统图像特征(如 LBP)从整张图像中筛选信息密度较高的区域。
然后,在这些关键区域上进行随机旋转,以增强模型对不同方向物体的感知能力。
在旋转后,还引入了角度嵌入信息,让模型学习到“图像被旋转过”的概念,从而进一步提升方向不变性(rotation invariance)。
与随机旋转不同,RoMA 是基于内容选择旋转区域,更具针对性。
多尺度预测策略(Multi-scale Prediction Strategy)
遥感图像中目标尺度差异巨大,RoMA引入多尺度预测机制以增强表示能力:
在原始图像被划分为小 patch 后,RoMA还会将这些 patch 聚合成更大尺度的区域,形成多个分辨率层级。
模型不仅要预测当前 token,还需预测大尺度块的整体信息,实现从细节到结构的全局建模。
这种策略能帮助模型学习到不同层次的空间关系,从而更好地适应遥感图像中存在的大小、密度和分布差异。
整体流程
输入图像被划分为 patch。
高信息区域经过旋转增强,角度信息作为嵌入加入序列。
所有 patch 被输入 Mamba 编码器,进行顺序建模。
编码结果用于预测下一个 patch 的内容,同时在多个尺度上进行预测。
训练目标是让模型在多个尺度上都能还原出完整图像表示。
结果与分析
实验结果表明,RoMA 预训练的 Mamba 模型在场景分类、变化检测和语义分割等任务中表现优于现有主流方法,同时具备更高的效率。分析还验证了其良好的可扩展性,模型性能随着数据量和参数规模的增加持续提升。
精度对比
更多图表分析可见原文
何恺明在MIT授课的课件PPT下载
在CVer公众号后台回复:何恺明,即可下载本课程的所有566页课件PPT!赶紧学起来!
CVPR 2025 论文和代码下载
在CVer公众号后台回复:CVPR2025,即可下载CVPR 2025论文和代码开源的论文合集
ECCV 2024 论文和代码下载
在CVer公众号后台回复:ECCV2024,即可下载ECCV 2024论文和代码开源的论文合集
CV垂直方向和论文投稿交流群成立
扫描下方二维码,或者添加微信号:CVer2233,即可添加CVer小助手微信,便可申请加入CVer-垂直方向和论文投稿微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。 一定要备注:研究方向+地点+学校/公司+昵称(如Mamba、多模态学习或者论文投稿+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群
▲扫码或加微信号: CVer2233,进交流群
CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集上万人!
▲扫码加入星球学习
▲扫码或加微信号: CVer2233,进交流群
CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集上万人!
▲扫码加入星球学习
▲点击上方卡片,关注CVer公众号 整理不易,请点赞和在看