Text2Seg:通过文本引导视觉基础模型进行遥感图像语义分割

基础模型 (FM) 的最新进展,例如 GPT-4 和 LLaMA,由于它们在零样本学习场景中的出色表现而引起了极大的关注。同样,在视觉学习领域,诸如 Grounding DINO 和 Segment Anything Model (SAM) 等模型在开放集检测和实例分割任务方面取得了显着进步。不可否认,这些 FM 将对广泛的现实世界视觉学习任务产生深远影响,为开发此类模型带来新的范式转变。在这项研究中,我们专注于遥感领域,其中图像与传统场景中的图像明显不同。我们开发了一个管道,利用多个 FM 来促进由文本提示引导的遥感图像语义分割任务,我们将其表示为 Text2Seg。该管道以几个广泛使用的遥感数据集为基准,我们提供了初步结果来证明其有效性。通过这项工作,我们的目标是提供见解,以最大限度地提高视觉 FM 在特定环境中的适用性,同时进行最少的模型调整。
2 .方法
在本节中,我们详细介绍了整合到我们框架中的各种基础模型(FMs)。我们主要使用视觉 FMs,包括 Segment Anything Model(SAM)[8],Grounding DINO[20] 和 CLIP[21]。这些 FMs 都是在不同的数据集上进行预训练的,包括单独的图像或图像-文本对。由于它们不同的训练范式,每个模型在不同场景下都具有独特的优势。我们首先讨论每个 FM 的特点,然后介绍我们的流程,将它们整合成一个专门为遥感语义分割任务[16]量身定制的有机系统。

• SAM:SAM 模型[8] 是一个分割模型,最近由 Meta AI Research 提出,并随附有迄今为止最大、最全面的分割数据集 SA-1B,包含 11 亿个遮罩和 1100 万张图像。该模型采用可提示的方法设计和训练,可以使用点、框或文本作为提示,轻松地转移到新的图像分布和任务上。
• Grounding DINO:Grounding DINO 模型[20] 是 IDEA 最近提出的一种开放集对象检测器,结合了语言以提高概念理解。该模型的架构将封闭集检测器划分为三个关键组件:特征增强器、语言引导的查询选择和跨模态解码器。这种设计成功地融合了语言和视觉模态,从而实现了更有效的对象检测。
• CLIP:CLIP 模型[6] 是一个多模态模型,通过对比文本-图像预训练,在 4 亿个文本-图像对上进行预训练。 CLIP 模型在零次激发图像预测任务上表现出优越的性能。
• CLIP 外科手术:CLIP 外科手术(CLIPS)[22] 是一种专门针对 CLIP 模型的解释方法。通过使用文本提示,CLIP 外科手术可以生成准确突出对应区域的解释图。这些解释图可以作为弱分割结果。他们的结果表明,CLIP 外科手术模型有效地生成解释图,并为 CLIP 模型的决策过程提供了有价值的见解。

为了有效地应对遥感语义分割任务,我们将这些基础模型整合到一个统一的流程中。

2.1 建议在遥感任务中使用视觉基础模型的架构
SAM模型在传统分割模型上取得了显著的改进。然而,在下游任务(如遥感图像语义分割)中设计有效的提示以促进其应用仍然是一个非琐碎的任务。原因如下:
• SAM最初是为对象分割设计的,生成的对象掩模没有关联的标签,而语义分割需要这样的标签。
• 遥感图像(特别是卫星图像)的特征与大多数视觉基础模型熟悉的自然图像在观察角度上有很大不同。
• 各种遥感图像数据集是在不同的地理区域、不同的时间和基于不同传感器收集的。这增加了任务的复杂性,并对视觉基础模型的泛化能力提出了很高的要求。

在这项研究中,我们提出了多种利用其他基础模型进行视觉提示工程的方法,分为两类:预 SAM方法和后 SAM方法,见图 1。
预 SAM方法包括根据文本提示预先选择对象区域的点和边界框。我们为此目的使用了 Grounding DINO [20]和 CLIP Surgery [22]。Grounding DINO将文本提示作为输入并返回相应的边界框以指示被引用的对象,而 CLIP Surgery返回一组点来表示相应的对象。这些边界框和点作为 SAM模型的输入,帮助定位特定类别的目标对象。对于后 SAM方法,我们首先使用SAM获取所有分割对象,然后将这个结果作为输入提供给CLIP[6],根据特定文本提示进行进一步筛选以获取目标类别的对象。这个过程是基于CLIP学到的捕捉图像和相应文本提示之间相似性的能力。

3 实验
在我们的实验中,我们首先测试SAM使用通用采样点作为提示的表现。尽管在这种模式下,SAM不能引导生成特定的语义类别,但它可以帮助了解SAM在多大程度上可以执行分割。在此之后,我们测试了如何设计将多个视觉基础模型相结合以帮助生成视觉提示来引导SAM模型进行语义分割的最佳实践。我们使用不同的组合测试我们的流程。具体来说,我们测试了1. 使用Grounding DINO + SAM,2. 使用CLIP Surgery + SAM,3. 使用SAM + CLIP,4. 使用Grounding DINO + CLIP Surgery + SAM,和5. 使用Grounding DINO + CLIP Surgery + SAM + CLIP。我们在四个不同的遥感下游任务中设计有效的提示以便于应用SAM模型仍然是一个非平凡的任务,原因如下:

• SAM最初是为对象分割设计的,生成的对象掩膜没有与之关联的标签,而这是语义分割所需要的。
• 遥感图像(尤其是卫星图像)的特点与大多数视觉基础模型熟悉的自然图像的视角非常不同。
• 各种遥感图像数据集是在不同的地理区域、不同的时间和基于不同传感器收集的。这增加了任务的复杂性,并对视觉基础模型的泛化能力提出了很高的要求。

在本研究中,我们提出了多种方法,利用其他基础模型进行视觉提示工程,分为两类:预-SAM方法和后-SAM方法,如图1所示。

预-SAM方法涉及使用基于文本提示的点和边界框预选对象区域。我们为此目的使用Grounding DINO [20]和CLIP手术[22]。Grounding DINO以文本提示为输入,返回所引用对象的相应边界框,而CLIP手术返回一组点以表示相应的对象。这些边界框和点作为SAM模型的输入,帮助定位特定类别的目标对象。对于后-SAM方法,我们首先使用SAM获得所有分割对象,然后将这个结果作为输入到CLIP[6]中,根据特定的文本提示进行进一步过滤以获取目标类别的对象。这个过程是基于CLIP学会捕捉图像与相应文本提示之间相似性的能力。

在我们的实验中,我们首先测试SAM在使用通用采样点作为提示时的性能。尽管在这种模式下,SAM不能引导生成特定的语义类别,但它有助于了解SAM在遥感图像数据集上的分割性能程度。在此之后,我们测试了如何设计将多个视觉基础模型相结合以帮助生成视觉提示以引导SAM模型进行语义分割的最佳实践。我们在四个不同的遥感数据集(包括UAVid[10]、Vaihingen[12]、Potsdam[12]和LoveDA[23])上测试了不同的组合。

在实验部分,我们分别测试了1. 使用Grounding DINO + SAM,2. 使用CLIP手术+ SAM,3. 使用SAM + CLIP,4. 使用Grounding DINO + CLIP手术+ SAM和5. 使用Grounding DINO + CLIP手术+ SAM + CLIP这些组合。

总结来说,在本文中,我们提出了利用现有视觉基础模模型来引导SAM进行语义分割的方法。我们通过多种预处理和后处理方法,结合不同的视觉基础模型,设计了一系列实验方案,以确定最佳的视觉提示工程实践。实验结果表明,通过有效的视觉提示工程,可以显著提高SAM在遥感图像语义分割任务上的性能。

我们发现,在不同的遥感数据集上,预-SAM方法和后-SAM方法都有一定的效果。对于预-SAM方法,使用Grounding DINO边界框和CLIP手术点的组合,结合SAM可以实现较好的分割效果。后-SAM方法中,使用SAM生成的分割结果作为输入,再结合CLIP进行过滤和标签分配,同样能够提升SAM在语义分割任务上的表现。

通过这些实验,我们证明了将视觉基础模型应用于遥感图像语义分割任务的可行性和有效性。然而,我们还发现,视觉提示工程在不同数据集上的适用性存在一定差异,这要求研究者针对具体任务和数据集进行一定程度的调整。我们相信,随着遥感领域数据集的进一步丰富和视觉基础模型的发展,这些方法在遥感图像语义分割任务上的性能将进一步提高。

最后,我们也认识到,当前的视觉基础模型仍具有局限性,特别是在处理高度异构的遥感图像数据集时。未来的研究方向包括开发更为通用的视觉基础模型,以适应遥感图像的多样性和复杂性,进一步提高遥感图像语义分割的性能。此外,针对视觉提示工程的方法,可以探索更多的视觉基础模型组合,以更好地利用各种模型的优势并提高泛化能力。

在这项研究中,我们探讨了如何通过有效的视觉提示工程来提高SAM在遥感图像语义分割任务上的性能。我们进行了多种预处理和后处理方法的实验,发现预-SAM方法和后-SAM方法都可以提高SAM的性能。

在预-SAM方法中,结合Grounding DINO边界框和CLIP手术点可以实现较好的分割效果。而后-SAM方法使用SAM生成的分割结果作为输入,再结合CLIP进行过滤和标签分配,同样能够提升性能。

我们还发现视觉提示工程在不同数据集上的适用性存在差异,因此研究者需要针对具体任务和数据集进行调整。未来的研究方向包括开发更通用的视觉基础模型,以适应遥感图像的多样性和复杂性,并探索更多的视觉基础模型组合,以充分利用各种模型的优势并提高泛化能力。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 3
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值