最新突破！HyperSIGMA：全球首个十亿级高光谱智能理解基础模型

最新推荐文章于 2025-04-17 12:00:37 发布

Amusi（CVer）

最新推荐文章于 2025-04-17 12:00:37 发布

阅读量1.3k

点赞数 2

文章标签：人工智能机器学习

原文链接：https://mp.weixin.qq.com/s?__biz=MzUxNjcxMjQxNg==&mid=2247601174&idx=2&sn=4359e9169b0f8e27d45d0086b6396311&chksm=f8524d6bc66bdd77d2acee6cca155f40ba7133d30cfdb6007c33a098a25e539fb2baa746e5ec&scene=126&sessionid=0

版权

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达

点击进入—>【遥感和Mamba】交流群

添加微信：CVer5555，小助手会拉你进群！

扫描下方二维码，加入CVer学术星球！可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料，及最前沿应用！发论文/搞科研/涨薪，强烈推荐！

论文题目：HyperSIGMA: Hyperspectral Intelligence Comprehension Foundation Model
论文地址：https://arxiv.org/abs/2406.11519
代码地址：https://github.com/WHU-Sigma/HyperSIGMA
作者单位：武汉大学、重庆大学、东京大学、语音及语言信息处理国家工程研究中心和南洋理工大学
论文时间：2024.6.18

本文介绍全球首个高光谱智能理解基础模型HyperSIGMA，模型参数尺度为十亿级。

研究创新

● 提出高光谱智能理解基础模型HyperSIGMA，它是第一个专门为高光谱图像解译设计的十亿级基础模型，为高层和底层任务提供了统一的解决方案。

● 构建了全球高光谱图像数据集HyperGlobal-450K，在规模上超过了现有的多光谱和高光谱数据集，可以促进高光谱基础模型的大规模预训练研究。

● 提出稀疏采样注意力SSA，可以促进多样化上下文特征学习，解决了高光谱图像固有的光谱和空间冗余挑战，并设计光谱增强模块实现了空间和光谱特征有效融合。

● 在多种高光谱图像任务上的广泛实验证明了HyperSIGMA卓越的表征能力。此外，HyperSIGMA展现出了良好的可扩展性、鲁棒性、跨模态迁移性及实际任务应用潜力。

图1. HyperSIGMA在涵盖高光谱高层和底层任务以及多光谱场景的16个数据集和7个任务中取得了当前最先进性能。

研究背景

高光谱图像的光谱范围从可见光近红外扩展到短波红外以及中红外，借助连续和精细的光谱波段，可以区分不同物质的微小光谱差异，实现土地覆盖的精细解译。高光谱图像技术显著增强了人类在进行大规模、综合、精确、及时的地球观测与监测方面的能力，为城市规划、精准农业及环境监测等关键领域提供了重要的科学依据和决策支持。

回顾现有文献，基于深度学习的技术逐渐成为高光谱图像处理领域的主流。目前已经有大量基于CNN、RNN、Transformer以及状态空间模型相关的方法。然而，受限于任务和数据的差异性，如输入输出格式、通道数量和类别差异，绝大多数高光谱图像处理方法需针对不同场景独立训练，导致模型仅能获取特定场景的知识和特征，难以实现跨场景间的迁移与泛化。因此，开发一种不依赖于特定场景知识的通用的高光谱图像处理方法显得尤为关键和迫切。

图2. 传统型和通用型高光谱图像处理模式差异

现有的遥感基础模型主要设计用于高分辨率航空RGB图像、多光谱图像、合成孔径雷达（SAR）图像等，几乎没有专门针对高光谱图像理解而设计的基础模型。这可能是因为高光谱数据的不寻常特性，以及数据收集、大规模预训练和模型结构设计的挑战等原因。尽管现有的遥感基础模型可以应用于高光谱图像解译任务，但RGB图像、多光谱图像、合成孔径雷达图像和高光谱图像之间的领域差异会对其应用造成阻碍。因此，根据高光谱图像的特性，设计针对高光谱图像智能理解的基础模型非常重要。

数据收集

为了训练HyperSIGMA基础模型，收集了全球范围内的高光谱遥感图像样本，构建大规模高光谱数据集HyperGlobal-450K。HyperGlobal-450K包含约45万张高光谱图像，规模等价于超过2000万张不重叠的三波段图像，远超现有的同类数据集。

图3. HyperGlobal-450K样本分布图

模型设计

图4. HyperSIGMA的总体框架

构建流程

HyperSIGMA包含两个子网络，分别用于提取空间和光谱特征。其构建过程如下：

1. 首先在HyperGlobal-450K上采用掩码图像建模的代表性方法MAE，分别对空间和光谱分支网络（ViT）进行预训练。使用嵌入层，将空间图像块或光谱通道转换为token。

2. 预训练完成后，设计稀疏采样注意力（SSA），替换ViT网络中的特定层的完全自注意力。

3. 最后，空间-光谱特征通过光谱增强模块（SEM）进行融合。针对不同的高层和底层高光谱任务，使用相应的任务头，利用上述融合特征进行预测。

除了采用融合特征，只采用空间分支产生的空间特征也可以迁移到下游任务，此时的基础模型称为SpatSIGMA。

稀疏采样注意力

针对高光谱影像中通道信息冗余和空间信息冗余带来的挑战，本文提出了一种新的稀疏采样注意力(SSA)，可以有效学习多样化上下文特征。具体地，在原有的自注意力基础上，首先预测Q的参考点坐标偏移，并将偏移与原始坐标叠加得到变形后的坐标，然后通过双线性插值对原有的K和V向量中在这些坐标位置进行采样，得到K'和V'，最后计算Q和K', V'之间的注意力。

图5. 不同注意力机制的比较：(a) 完全自注意力，(b) 窗口注意力，(c) 可变尺寸注意力，(d) 旋转可变尺寸注意力，(e) 可变形多头注意力，(f) 稀疏采样注意力。

光谱增强模块

光谱增强模块（SEM）旨在利用光谱信息对空间特征进行通道级校正，并通过跳跃连接保持原始的空间细节，实现有效的空谱融合。

实验结果

HyperSIGMA在涵盖图像分类、目标探测、异常探测、变化检测、高光谱解混、图像去噪、超分等多个高层和底层高光谱任务上展现出了多功能性和卓越的表示能力。

图像分类

HyperSIGMA在4个经典高光谱图像分类数据集上均取得最优效果。

此外，分类图可视化表明，该模型有效地缓解了对比方法中观察到的椒盐噪声、过平滑和误分类等问题。

目标探测

HyperSIGMA在两个典型高光谱目标探测数据集上取得优越表现。

从定性结果来看，HyperSIGMA能够有效地将目标与背景分离，准确地识别整个目标区域，并对这些区域赋予高置信度，从而优于其他模型。

异常探测

HyperSIGMA在两个经典高光谱异常探测数据集上均取得最优精度。

从可视化结果来看，HyperSIGMA和SpatSIGMA可以准确定位异常目标。

变化检测

HyperSIGMA也能够成功胜任变化检测任务。

可视化结果表明，HyperSIGMA模型检测到大多数变化，结果具有更高的召回率，提供了更精细和更完整的检测结果。

除了在上述高层视觉任务中表现优异，HyperSIGMA在底层高光谱视觉任务中也发挥出显著的优势，包括解混、去噪和超分任务。

光谱解混

HyperSIGMA在端元预测和丰度预测上均取得最优结果。

从可视化结果来看，HyperSIGMA准确地刻画了高光谱图像中混合地物的实际分布。

此外，HyperSIGMA有效地捕获了纯净的端元信号，与真实值紧密对齐。

图像去噪

HyperSIGMA对WDC Mall数据集上5种不同噪声情况下的去噪效果始终优于其他方法。

在误差图中，蓝色像素的集中度越高表示相对于原始图像的误差越小，而光谱曲线的相似度越大表示重建得越好。SpatSIGMA和HyperSIGMA都明显优于其他方法，其中HyperSIGMA由于利用了光谱信息，表现更佳。

图像超分

在Houston数据集上的实验表明，HyperSIGMA在所有尺度上都优于其他方法，且在所有指标上都超越了最近的先进方法MSDFormer。

在8倍超分下的效果图显示，与其他方法相比，HyperSIGMA展示了更清晰的视觉效果，进一步证明了HyperSIGMA模型在高光谱底层任务中的能力。

拓展及分析讨论

进一步地，在模型不同参数量、有限样本分类、对抗攻防、退化图像分类、多光谱图像解译以及灾害检测应用方面的实验表明，HyperSIGMA具有扩展性、鲁棒性和优越的跨模态迁移能力和真实世界应用能力。

扩展性

使用不同参数量的ViT骨干网络进行消融实验，HyperSIGMA体现出很强的可扩展性，参数规模可达10亿以上。

鲁棒性

● 在不同数量的有限样本条件下，HyperSIGMA在两个数据集上的分类精度均保持最高。特别地，在每个类别样本量最小的情况下，HyperSIGMA预测精度远超对比方法。

● 对抗攻防方面，面对两种经典的攻击方法以及在不同的攻击扰动值下，HyperSIGMA始终具有最高精度，并且性能保持稳定。

● 当经过图像压缩或添加噪声时，对比方法的性能明显下降。然而，即使在退化的图像条件下，HyperSIGMA也始终优于其他先进的方法，展现了该模型在实际环境中的鲁棒性。

跨模态迁移性

HyperSIGMA在多光谱变化检测任务上的多项指标中表现最优，体现出强大的跨模态迁移能力。

真实世界应用性

在海上溢油检测应用上，HyperSIGMA可以准确检测出石油泄漏的区域，展示出模型在灾害检测的实际应用方面十分突出的能力。

研究总结

HyperSIGMA是全球首个拥有超过十亿参数的高光谱图像理解基础模型，可以广泛应用于高层和底层高光谱任务。作者收集了迄今为止最大的高光谱数据集HyperGlobal-450K，为高光谱自监督预训练研究奠定了坚实的基础。作者提出了一种新型的稀疏采样注意力机制SSA，使网络能够通过少量可学习的采样点自适应地感知相关上下文区域，有效解决高光谱图像的冗余问题。此外，作者设计了一个光谱增强模块，可以有效实现空间-光谱特征融合。在多个高层和底层的高光谱任务上的全面实验评估证明了HyperSIGMA的卓越性能。此外，HyperSIGMA还展现出了良好的可扩展性、鲁棒性、跨模态迁移性及实际任务应用潜力。

何恺明在MIT授课的课件PPT下载

在CVer公众号后台回复：何恺明，即可下载本课程的所有566页课件PPT！赶紧学起来！

CVPR 2024 论文和代码下载

在CVer公众号后台回复：CVPR2024，即可下载CVPR 2024论文和代码开源的论文合集

Mamba、多模态和扩散模型交流群成立

扫描下方二维码，或者添加微信：CVer5555，即可添加CVer小助手微信，便可申请加入CVer-Mamba、多模态学习或者扩散模型微信交流群。另外其他垂直方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。
一定要备注：研究方向+地点+学校/公司+昵称（如Mamba、多模态学习或者扩散模型+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群

▲扫码或加微信号: CVer5555，进交流群
CVer计算机视觉（知识星球）来了！想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料，欢迎扫描下方二维码，加入CVer计算机视觉（知识星球），已汇集近万人！

▲扫码加入星球学习

▲点击上方卡片，关注CVer公众号
整理不易，请赞和在看