多模态依旧神一般的存在!结合遥感堪称涨点神器

2025深度学习发论文&模型涨点之—— 遥感+多模态

遥感+多模态是当前遥感技术与人工智能交叉领域的重要研究方向之一,主要通过融合多种模态的数据(如光学、雷达、文本、音频等)来提升遥感信息的提取和理解能力。

随着遥感数据量和种类的爆炸式增长,传统的分析方法已难以满足精细地物感知的需求。多模态遥感大模型通过融合不同模态的数据,能够更全面地挖掘遥感大数据中的信息。例如,中国科学院空天信息创新研究院提出了多模态AI大模型对地观测的新范式,研发了高精度、全链路的多模态遥感大数据智能解译系统。

我整理了一些 遥感+多模态【论文+代码】合集,需要的同学公人人人号【AI创新工场】自取。

论文精选

论文1:

RS-GPT4V: A Unified Multimodal Instruction-Following Dataset for Remote Sensing Image Understanding

RS-GPT4V:用于遥感图像理解的统一多模态指令跟随数据集

方法

统一数据格式:采用(问题,答案)对作为统一格式,支持图像描述、视觉问答、复杂场景理解等多种任务。

指令-注释适配:将现有视觉语言数据集的注释转换为指令数据集,增强数据集的多样性和统一性。

指令-响应生成:利用GPT-4V生成详细的指令描述和响应,确保生成的指令具有足够的复杂性和多样性。

多轮对话和复杂推理:设计多轮对话和复杂推理任务,提升模型的推理能力。

图片

创新点

任务统一性:首次提出一个统一的数据集支持多种遥感视觉语言任务,显著提升了模型的泛化能力。

复杂场景理解:通过分层指令描述方法,模型在复杂场景理解任务中的性能显著提升,例如在RS-GPT4V-Instruct数据集上的复杂推理任务中,得分从5.194提升到6.304。

多轮对话能力:支持多轮对话任务,提升了模型在复杂交互场景中的表现,例如在RS-GPT4V-Instruct数据集上的多轮对话任务中,得分从2.599提升到6.156。

数据质量和多样性:通过手动校正和高级模型生成,确保数据的高质量和多样性,显著提升了模型在多种任务中的表现。

图片

论文2:

Towards a multimodal framework for remote sensing image change retrieval and captioning

面向遥感图像变化检索和描述的多模态框架研究

方法

双时相图像编码器:采用预训练的双时相图像编码器,结合层次化注意力机制,将两幅图像的特征合并为单一表示。

对比学习:通过InfoNCE损失函数,联合优化视觉和文本编码器,实现图像对与文本描述之间的对比学习。

解码器设计:解码器分为单模态和多模态两部分,单模态部分仅编码文本输入,多模态部分结合文本和视觉特征生成描述。

虚假负样本处理:引入虚假负样本消除(FNE)和吸引(FNA)策略,解决对比学习中的虚假负样本问题。

图片

创新点

多任务能力:首次提出一个模型同时处理双时相遥感图像的描述和文本-图像检索任务,显著提升了模型的多任务能力。

虚假负样本处理:通过FNA策略,模型在对比学习中的召回率(R@5)从60.92%提升到62.99%,同时保持较高的精确率(P@5)。

预训练模型的应用:采用Remote-CLIP作为预训练模型,显著提升了检索任务的性能,例如R@5从1.2%提升到2.85%。

对比学习的正向影响:对比学习不仅提升了检索性能,还对描述任务有正向影响,例如BLEU-1从69.38提升到82.34。

图片

论文3:

Multimodal Fusion Transformer for Remote Sensing Image Classification

用于遥感图像分类的多模态融合Transformer

方法

多模态融合Transformer(MFT):提出了一种新的多模态融合Transformer网络,用于高光谱图像(HSI)的土地覆盖分类。

多头交叉补丁注意力(mCrossPA):引入多头交叉补丁注意力机制,将HSI与其他多模态数据(如LiDAR、MSI、SAR和DSM)结合,通过标记化生成类别(CLS)和HSI补丁标记。

特征学习与标记化:通过CNN提取HSI和LiDAR数据的特征,并将特征标记化为补丁标记,用于Transformer编码器的输入。

位置嵌入与Transformer编码器:为补丁标记添加位置嵌入,并通过Transformer编码器进行特征融合和分类。

图片

创新点

多模态融合性能提升:通过引入多模态数据(如LiDAR、MSI、SAR和DSM),显著提升了遥感图像分类的性能。例如,在University of Houston数据集上,结合HSI和LiDAR数据时,OA(总体精度)提升了约5.33%,AA(平均精度)提升了约1.57%,κ系数提升了约0.59%。

mCrossPA机制:提出的多头交叉补丁注意力机制能够高效融合HSI和多模态数据的特征,显著优于传统方法。在MUUFL数据集上,结合HSI和LiDAR数据时,OA提升了约2.40%,AA提升了约0.48%,κ系数提升了约0.21%。

计算效率优化:通过避免传统Transformer中复杂的线性投影计算,MFT在保持高性能的同时减少了计算开销。

通用性与可扩展性:该方法不仅适用于HSI和LiDAR数据,还可以扩展到其他多模态数据(如MSI、SAR和DSM),在多个数据集上验证了其有效性。

图片

论文4:

Mini-InternVL: A Flexible-Transfer Pocket Multimodal Model with 5% Parameters and 90% Performance

Mini-InternVL:一种轻量级多模态模型,仅用5%的参数实现90%的性能

方法

知识蒸馏:通过从InternViT-6B中进行知识蒸馏,将强大的视觉知识注入到轻量级视觉编码器InternViT-300M中。

多模态融合:将InternViT-300M与预训练的语言模型(如Qwen2-0.5B、InternLM2-1.8B和Phi-3Mini)结合,形成Mini-InternVL系列模型。

迁移学习框架:提出了一种统一的迁移学习框架,使模型能够高效地适应自动驾驶、医学图像和遥感等特定领域的下游任务。

动态分辨率输入:采用动态分辨率输入策略,提升模型对细粒度细节的捕捉能力。

图片

创新点

性能提升:Mini-InternVL-4B在多模态基准测试中实现了与76B参数模型相当的90%性能,仅使用了5%的参数。例如,在MMBench数据集上,Mini-InternVL-4B的平均分数达到了72.8%,接近InternVL2-Llama3-76B的81.4%。

知识蒸馏效果:通过知识蒸馏,InternViT-300M继承了InternViT-6B的强大视觉知识,显著提升了模型在多模态任务中的表现。

迁移学习效率:通过统一的迁移学习框架,Mini-InternVL在特定领域的下游任务中表现出色,例如在自动驾驶任务中,Mini-InternVL-DA-4B的最终得分达到了0.5821,与InternVL4Drive-v2相当,但参数减少了约10倍。

轻量化与高效性:Mini-InternVL系列模型在保持高性能的同时,显著减少了参数规模和计算开销,使其更适合在资源受限的环境中部署。

图片

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值