TGRS2023.11 RingMo-SAM:多模态遥感图像分割的基础模型

RingMo-SAM提出了解决遥感图像中实例类别和地形类别不平衡问题的方法,通过交替训练策略优化模型。同时,它引入多框提示和SAR特征提示,提升了多目标分割的精度。
摘要由CSDN通过智能技术生成

RingMo-SAM。带有适配器的图像编码器用于输出图像嵌入。将SAM的掩码解码器解耦为实例类别解码器和地形类别解码器,以便在训练过程中根据批次交替优化,以确保模型充分适合两种类型的数据。此外,设计了嵌入多模态遥感图像特性的提示编码器,提高了图像的分割性能。

多模态遥感图像中,地形类的像元比例远大于实例类的像元比例,会导致SAM学习优化不平衡,主要表现在实例类分割极差。因此我们将一个掩码解码器复制成两个,以解决实例类别和地形类别之间的模糊问题;然后,我们修改每个掩码解码器末端超网络结构中的多层感知器(MLP)网络结构,使其与多层结构并行,以适应多类别解码的输出解码结构;其中,MLP结构的平行数由每个掩码解码器输出的类别数决定,如图所示。

CDMDecoder的训练策略: 地形类数据与实例类数,我们在训练中将这两类数据分批地交替输入到模型中,每批只输入一种类型的数据。这种训练策略避免了由于拟合不足而导致的据像素数相差巨大的问题。

1)多box的提示符: SAM只支持单框提示。这不利于遥感图像的实际应用,因为遥感图像的特点是存在众多的目标物体。因此,设计了一个多框提示表单来消除这个缺点。我们将一幅输入图像的多个提示框作为稀疏嵌入的一部分进行编码,多个盒子的编码是一个接一个完成的。对multiboxes中的每个box进行编码,首先将左上点和右下点作为两个平行的维度,对其进行归一化编码,然后对其进行高斯模糊编码,最后在高斯模糊编码的高维特征上添加额外的嵌入。将多个方框依次编码为高维特征后,将相应的多个高维特征联系在一起形成一个高维特征向量,作为稀疏嵌入的一部分。

2) SAR偏振散射提示: 略

图7所示。RingMo-SAM中嵌入多模态遥感数据属性的提示编码器。支持多框提示,提高了复杂遥感场景下多目标的分割精度;支持SAR特征提示,提高了SAR上的分割性能。

  • 4
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值