UV-SAM: 调整SAM的城中村识别_uv-sam 数据集下载-CSDN博客

本文链接：https://blog.csdn.net/m0_64106140/article/details/135774894

清华大学：巧妙结合SAM和SegFormer，得到一个新颖的通才-专家框架

我们将Segment Anything model (SAM)应用于城中村Urban villages分割，命名为UV-SAM。具体来说，UV-SAM首先利用小型语义分割模型为城中村生成混合提示，包括掩码、边界框和图像表示，然后将这些提示输入到SAM中进行细粒度边界识别。

本研究的数据集和代码可在https://github.com/tsinghua-fiblab/UV-SAM上获得。

关于上述研究问题，本文提出了一种类似于通才-专家框架的UV-SAM，用于适应SAM进行城市村庄识别。具体而言，适应的关键点在于生成能够鼓励SAM在卫星图像中关注城市村庄的类别特定的提示。因此，作者将具有大量冻结参数的SAM视为通才类别无关分割的通用模型，并开发一个具有有限可学习参数的语义分割模型作为城市村庄识别的专家模型，其中专家模型在通用模型生成提示的同时自动生成专家模型的提示，通用模型反过来更新专家模型的参数。

首先，UV-SAM开发了一个类似于SegFormer的小型语义分割模型，用于为城市村庄生成粗略的分割Mask，在此基础上生成城中村的掩码提示和框提示。其次，SAM和SegFormer中的图像编码器提取的特征图作为语义提示。此外，设计了一个提示混合模块来将这四种提示类型融合在一起，并将生成的城市村庄提示向量输入到SAM中进行城市村庄特定的分割。

输入图像I，经过SAM图像编码器ΦSAM-Image和SegFormer图像编码器ΦSeg-Image，分别输出ISAM和ISeg。由于ISeg包含多个尺度的特征，应用MLP ΦAgg的融合层来聚合这些特征。

随后ISeg通过SegFormer中的分类层生成其中城中村的掩码UMask。经过图像处理后，利用mask导出相应的边界框UBox。

将上述mask和边界框作为提示符，输入到提示编码器ΦSAM-Prompt中，得到嵌入PSAM的稀疏提示符，其中包含城中村位置细节的明确提示信息，

此外，由于ISAM和ISeg都聚集了城中村特定的抽象语义信息，因此UV-SAM也将两者建模为语义提示符。特别地，设计了一个提示生成模块来融合这四种提示，其中的两个提示混合变体Φ Add Mix和Φ MLP Mix可以表示为:

其中Φ Add Mix涉及直接添加规范化特征，并确保直观的见解融合，而Φ MLP Mix需要连接规范化特征，然后将它们通过投影头进行降维，提供更复杂但受控的知识合成方法。这两种形式之间的选择可能取决于要合并的信息的性质和任务的具体要求。

最后：

我的收获：这个大思路对我来说没什么实质性帮助，他本质上还是只是提取一幅影像中一个区域，是二分类，只区分前景和背景，不是整幅影像的多分类语义分割，换而言之，这个方法在城中村可以这么做，换成农田、飞机场等都类似。细节中有两点：

1SAM对于mask_prompt是上次迭代的结果，这里对mask的应用可以借鉴，看看是怎么操作的

2在原有mask和box的prompt基础上，又添加了两种新的prompt。