遥感论文 | Arxiv | RSRefSeg：基于SAM和CLIP的1.2B遥感语义分割基础模型，代码已开源！-CSDN博客

本文链接：https://blog.csdn.net/m0_59235945/article/details/147313103

论文题目：RSRefSeg: Referring Remote Sensing Image Segmentation with Foundation Models
论文链接：https://arxiv.org/pdf/2501.06809
论文代码：https://github.com/KyanChen/RSRefSeg

摘要

引用式遥感图像分割现有研究通常难以在细粒度语义概念之间建立稳健的对齐关系，导致文本和视觉信息之间的表示不一致。

本文提出引用式遥感图像分割基础模型：RSRefSeg。

RSRefSeg利用CLIP进行视觉和文本编码，采用全局和局部文本语义作为过滤器，在潜在空间中生成与引用相关的视觉激活特征。
这些激活特征随后作为输入提示用于SAM，通过其强大的视觉泛化能力来优化分割掩膜。

在RRSIS-D数据集上的实验结果表明，RSRefSeg优于现有方法，突显了基础模型在增强多模态任务理解方面的有效性。

背景

跨模态对齐困难：在文本和视觉模态之间建立细粒度语义对齐时，现有方法难以保持语义概念的一致性，导致文本和视觉信息表达不匹配。
多尺度特征表示复杂：遥感图像中存在多尺度目标和复杂的空间关系，尤其是小目标的分割，现有方法难以有效捕捉和表示。
跨域迁移性能退化：模型在不同数据集或领域之间迁移时，性能容易下降，难以适应多样化的遥感场景。
多基础模型知识整合困难：利用多个预训练模型（如CLIP和SAM）时，如何有效整合和迁移一般知识是一个关键问题。

方法

模型总览

RSRefSeg架构：整合了CLIP和SAM架构，用于遥感图像的引用分割，具备强大的泛化能力和鲁棒性。

微调CLIP：提取文本和图像的全局与局部语义嵌入
AttnPrompter：处理CLIP的特征，生成与引用内容相关的视觉激活特征，并转换为SAM的提示嵌入。
微调SAM：利用提示嵌入处理原始图像，生成最终的二值分割掩膜。

Fine-tuned CLIP

引入了低秩微调，通过增加额外的可训练参数来实现，具体公式如下：

原始的CLIP架构在预训练或分类时会产生稀疏的图像和文本表示，通过移除池化层对其进行修改，以保留原始图像特征图和每个文本标记的隐藏状态。

AttnPrompter

为了将CLIP的引用语义信息作为提示整合到SAM中，本文提出了AttnPrompter作为这两个基础模型之间的桥梁。

AttnPrompter利用文本语义作为过滤器，提取与引用表达式相关的关键视觉特征，并通过通道和空间抽象生成SAM所需的提示嵌入（可以解释为表示分割目标的点或框的嵌入）。其构建公式如下：

为SAM设计了两种提示：

稀疏提示 Psparse：从 Vattn 提取，表示为点或框的嵌入。通过 1×1 卷积核降通道维度），并通过 3×3 卷积块降采样至 M。
密集提示 Pdense：通过全局语义过滤CLIP视觉特征得到粗略掩膜，并进行上采样。

Fine-tuned SAM

SAM处理原始图像和稀疏/密集提示，通过编码-解码过程生成最终的引用分割掩膜。

由于只需要一个分割输出，从SAM的输出中选择第一个生成的掩膜作为最终结果。

为了解决域转移中的语义分布差异，在SAM的复杂编码器中引入了参数微调

实验

数据集

在RRSIS-D数据集上进行了实验：

该数据集包含17,402个三元组，每个三元组包括一张图像、一个掩膜和一个引用表达式。
数据被分为12,181个训练样本、1,740个验证样本和3,481个测试样本。
涵盖了20个不同的语义类别，包括飞机、高尔夫球场、高速公路服务区、棒球场和体育场等。
所有图像均被标准化为800×800像素，空间分辨率从0.5米到30米不等。、

实验结果

结论

本文提出了用于引用式遥感图像分割的基础模型RSRefSeg。

包含12亿参数
AttnPrompter架构将CLIP和SAM基础模型连接起来，通过将粗粒度的文本语义激活视觉特征转换为SAM模型的提示输入，从而生成精确的引用掩膜。

在RRSIS-D数据集上的实验评估证明了RSRefSeg各组件的有效性，验证了基础模型在理解多模态遥感任务中的有效性。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述