论文:link
code:code
Fantastic Animals and Where to Find Them:Segment Any Marine Animal with Dual SAM
摘要
作为水下智能的重要支柱,海洋动物分割(MAS)涉及对海洋环境中的动物进行分割。以往的方法在提取长范围上下文特征方面表现不佳,并且忽略了离散像素之间的连通性。最近,Segment Anything Model(SAM)为一般的分割任务提供了一个通用的框架。遗憾的是,SAM是用自然图像训练的,不能从海洋图像中获得先验知识。此外,地对空导弹的单一位置提示对于事前制导来说是非常不够的。为了解决这些问题,我们提出了一种新的特征学习框架,称为Dual-SAM,用于高性能MAS。为此,我们首先引入SAM范式的双重结构来增强海洋图像的特征学习。然后,我们提出了一种多层耦合提示(MCP)策略来指导全面的水下先验信息,并通过适配器增强了SAM编码器的多层特征。随后,我们设计了一个扩展的融合注意模块(DFAM)来逐步整合SAM编码端的多层次特征。最后,我们没有直接预测海洋动物的面具,而是提出了一种Criss-Cross Connectivity预测(C3P)范例来捕捉离散像素之间的相互连接。使用双解码器,它生成伪标签,并实现对互补特征表示的相互监督,从而比以前的技术有了很大的改进。大量的实验证明,我们提出的方法在五个广泛使用的MAS数据集上取得了最好的性能。
1.介绍
本文提出了一种新的特征学习框架Dual-SAM,用于高性能多智能体系统。图1显示了我们的灵感和优势。在技术上,我们首先利用SAM的范式引入双重结构,通过伽马校正操作来增强海洋图像的特征学习。同时,我们通过适配器增强了SAM编码器的多层次特性。在此基础上,提出了一种多层次耦合提示(MCP)策略来指导全面的水下先验信息的自动提示。随后,我们设计了一个扩展的融合注意模块(DFAM)来逐步整合SAM编码端的多层次特征。最后,我们没有直接预测海洋动物的面具,而是提出了一种Criss-Cross Connectivity预测(C3P)范例来捕捉离散像素之间的互连。该算法利用双解码器生成伪标签,实现了对互补特征表示的相互监督。与以前的标量预测技术相比,所提出的矢量化表示法具有显著的改进。大量的实验表明,我们提出的方法在五个广泛使用的MAS数据集上取得了最好的性能。
总结,贡献:
• 提出了一种新的海洋动物分割特征学习框架–Dual-SAM,该框架继承了SAM的能力,并自适应地融入了水下场景的先验知识。
•提出了一种多层次耦合提示(Multi-level Coupled Prompt)策略,通过自动提示来指导全面的水下先验信息
•提出了一种扩展的融合注意模块(DFAM)和Criss交叉连接预测来改善海洋动物的定位感知
•进行大量实验来验证所提出模块的有效性,方法在五个MAS数据集上实现了新的最先进的性能。
2.相关工作
2.1 Marine Animal Segmentation 海洋动物分割
MAS面临着巨大的挑战,如可变光照、颗粒物、水浊度等。在过去的几十年里,大多数现有的方法主要利用手工制作的特征从技术上讲,基于能量的模型通常被用来预测海洋动物的二进制掩膜。虽然它们取得了很大的成功,但仍然存在一些关键的局限性,如对模糊的稳健性较差,边界不清晰等。随着深度学习的兴起,神经网络成为多智能体系统的首选模型。已经提出了各种网络体系结构来实现性能改进。例如,Li等人[36]提出了一种特征交互编码器和级联译码,以提取更全面的信息。Liu等人[40]结合了通道和空间注意模块来优化特征地图,以获得更好的对象边界。此外,Chen等人[5]提取多尺度特征并引入注意力融合块来突出海洋动物。Fu等人[15]设计了一种数据扩充策略,并使用暹罗结构来学习共享的语义信息。这些基于CNN的模型虽然有效,但缺乏捕捉复杂海洋图像的长期相关性和复杂细节的能力。
最近,Vision Transformer(VIT)[8]展示了对多种数据类型的出色的全局理解能力。通过结构修改,它在各种分割任务中提供了显著的性能[58,70,71,87]。至于MAS,Hong等人[20]将基于Transformer的编码器应用于水下图像,并显示了有希望的动物分割结果。然而,Transformer面临的一个重大挑战是需要大量的训练数据。目前,还没有用于Transformer培训的超大规模MAS数据集。
2.2 Segment Anything Model for Customized Tasks
最近,为了实现通用的图像分割,人们提出了SAM。它在大规模分割数据集上进行训练,并显示出零镜头传输能力。通过各种类型的提示,它可针对多种应用程序进行高效部署。然而,它在传输场景中表现出性能限制。此外,SAM解码器的简单性在处理细节感知的分割任务时是一个障碍。为了解决这些限制,人们提出了各种方法。一些作品采用适配器来向SAM注入特定于领域的信息。其他人选择了更具体的解码器结构来改善域感知。还努力使提示的生成自动化,以获得更好的适应性。尽管有这些进步,但由于使用自然图像进行训练,SAM并不能从特定领域获得足够的先验知识。此外,地对空导弹的单一位置提示对于事前制导来说是非常不够的。至于MAS,我们发现只有一项工作涉及微调水下场景的SAM。因此,在这项工作中,我们对SAM进行了深入的研究,以改进定制任务。
所以就是改善了SAM
3.方法
主要由五部分组成:Dual-SAM Encoder(DSE)、Multi-level Coupled Prompt(MCP) 、Dilated Fusion Attention Module(DFAM),Cirss-Cross Connectivity Prediction(C3P)、Pseudo-label Mutual Supervision(PMS)
3.1 Dual-SAM Encoder
I
β
=
I
α
γ
,
γ
=
lg
(
0.5
)
−
lg
(
m
e
a
n
I
g
r
a
y
/
255
)
{I^\beta } = \sqrt[\gamma ]{{{I^\alpha }}},\gamma = \lg \left( {0.5} \right) - \lg \left( {mean_I^{gray}/255} \right)
Iβ=γIα,γ=lg(0.5)−lg(meanIgray/255)
海洋图像:
I
α
I_{\alpha}
Iα 校正图像:
I
β
I_{\beta}
Iβ,其中
γ
\gamma
γ是伽马系数,平均灰度I是图像的灰度强度的平均值。