基于先验知识集成的遥感图像语义分割方法RSAM-Seg

本文介绍了一种新型的深度学习架构RSAM-Seg,通过在编码器中添加Adapter-Scale和Adapter-Feature,自动生成图像信息提示,无需人工干预。该方法通过ViT块的修改和高频特征提取,提升了遥感任务的性能。
摘要由CSDN通过智能技术生成

代码:RSAM-Seg

提出了RSAM-Seg,消除了人工干预提供提示。在SAM的编码器部分的多头注意块中,提出了一组补充的缩放模块Adapter-Scale。此外,Adapter-Feature被插入到ViT块之间,旨在整合高频图像信息和图像嵌入功能,以生成图像信息提示。

我的感受:无关乎类别,都是二分类。Adapter-Scale是在多头注意力中,Adapter-Feature是在ViT块之间。自动生成提示,不一定是好的。而且论文中似乎没说生成的这个提示是如何进一步输入到decoder中的。但可以借鉴其修改encoder以及利用傅里叶变换生成高频特征的思想。

A. RSAM-Seg architecture

RSAM-Seg使用SAM作为主干,同时保留了大部分解码器部分的结构。不需要人为提供提示。为了获得更多与任务相关的信息,对模型的原始编码器和解码器部分进行了修改。这种自适应可以提高遥感相关任务的性能。对编码器的ViT块进行修改,在内部加入Adapter-Scale,在ViT层之间嵌入Adapter-Feature,提取图像信息。我们假设pi是指从提取的图像特征中生成的提示。

其中i表示ViT层之间的每个单独的adapter。Fpe和Fhfc分别代表嵌入特征和高频成分(HFC)特征。掩码解码器在没有给定提示输入的情况下保持不变,并使用预训练模型进行微调。该体系结构如图1所示。

图1:RSAM-Seg的结构。Adapter-Feature插入到修改后的ViT块之间,同时保持掩码解码器与原始SAM相同。

B. Adapter details

1) Adapter-Scale:在编码器中,Adapter-Scale由Downscale、ReLU和Upscale三部分组成。Downscale部分使用单个多层感知器(MLP)层来降低嵌入的维数。在应用ReLU激活函数后,在Upscale部分使用另一个MLP层将嵌入恢复到其原始维度。两个Adapter-Scale模块插入到每个ViT块。此外,对每个适配器应用0.5的比例因子。ViT块的结构如图2所示。

图2 RSAM-Seg编码器中改进型transformer块和Adapter-Scale的结构

2) Adapter-Feature:在ViT层之间,AdapterFeature由两个mlp组成。首先是MLPtune,它从遥感图像中提取特征作为提示。第二个MLPup,用于调整特征尺寸以输入到ViT层。Adapter-Feature结构如图3所示。

图3 RSAM-Seg编码器中ViT块之间的适配器特征的结构。

在我们的工作中,嵌入特征和高频成分特征都进行了微调。在嵌入特征部分,采用带比例因子的线性层改变原有的嵌入维数。

在高频特征(HFC)部分,提取图像的HFC,然后将其作为提示输入到编码器中。对于尺寸为H×W的图像I,可以通过快速傅里叶变换(FFT)和逆变换提取高频和低频信息。我们对图像的高频信息特别感兴趣。fft和ifft分别用来表示快速傅里叶变换和它的反变换。从图像I中提取的频率分量可以用f = ftt(I)表示。图像I也可以通过I = iftt(f)通过ifft恢复。为了避免边缘处的信息丢失,使用掩模选择性地过滤高频成分,这可以通过将低频系数移到图像的中心(h/2, w/2)来实现。该掩码以掩码比τ生成。

其中符号τ表示遮罩区域的比例。HFC特性可以通过以下方式获得:

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值