【论文阅读CVPR】Fantastic Animals and Where to Find Them: Segment Any Marine Animal withDual SAM

题目 :Fantastic Animals and Where to Find Them: Segment Any Marine Animal with Dual SAM

神奇的动物和在哪里找到他们:分割任何海洋动物与双SAM

摘要(翻译)

作为水下智能的重要支柱之一,海洋动物分割(MAS)涉及在海洋环境中分割动物。之前的方法在提取长距离语境特征方面表现不佳,并且忽视了离散像素之间的连接性。最近,“分割任何东西”(SAM)模型提供了一个通用的分割任务框架。不幸的是,在使用自然图像进行训练时,SAM 无法从海洋图像中获得先验知识。另外,SAM的单一位置提示对于事前引导来说是非常不足的。为了解决这些问题,我们提出了一种新颖的特征学习框架,名为 用于高性能 MAS 的双 SAM。为此,我们首先引入具有SAM范式的双结构来增强海洋图像的特征学习。然后,我们提出了一种多级耦合提示(MCP)策略来指导全面的水下先验信息,并通过适配器增强 SAM 编码器的多级特征。随后,我们设计了一个扩张融合注意力模块 (DFAM),以逐步集成 SAM 编码器的多级特征。最后,我们提出了一种十字交叉连接预测(C3P)范式来捕获离散像素之间的互连性,而不是直接预测海洋动物的掩膜。通过双解码器,它生成伪标签并实现互补特征表示的相互监督,从而比以前的技术有了相当大的改进。大量实验验证了我们提出的方法在五个广泛使用的 MAS 数据集上实现了最先进的性能。该代码可从 https://github.com/Drchip61/Dual SAM 获取。

总结:常用的分割海洋动物的方法是MAS,但是MAS忽视了像素之间的连接性。新出了一个模型SAM,是在自然图像中的一个通用的分割任务框架,但是SAM是单一位置提示,无法从海洋图像中获取.

        提出了用于高性能 MAS 的双 SAM(用于高性能 MAS 的双 SAM)。

        多级耦合提示(MCP) 

        适配器增强SAM 编码器  

        扩张融合注意力模块(DFAM)

        十字交叉连接预测(C3P)范式

1 引言 

        水下生态系统包含各种各样的海洋生物,从微小的浮游生物到巨大的鲸鱼。这些生态系统对于地球环境起着至关重要的平衡作用。准确高效的海洋动物分割 (MAS) 对于了解水下世界中物种的分布、行为和相互作用至关重要。然而,与传统的陆地图像不同,水下图像包括可变的照明条件、水的浑浊度、颜色失真以及相机和拍摄对象的移动。主要针对陆地环境开发的传统分割技术在应用于水下领域时往往存在不足。因此,水下情报迫切需要旨在解决海洋环境独特方面的方法。

        随着深度学习的出现,卷积神经网络(CNN)[15, 20]引领了图像分割的新时代。事实上,CNN 表现出了提取复杂特征的非凡能力,这使得它们适合海洋动物分割。尽管如此,CNN 在捕获图像中的信息和上下文信息、长程依赖关系方面存在固有的局限性。最近,Transformers [8] 在捕获复杂图像的远程特征方面提供了增强的性能。这种能力对于水下图像分割特别有吸引力,其中上下文信息通常对于从背景中辨别海洋生物至关重要。然而,Transformers面临的一项重大挑战是需要大量的训练数据。在此演变的基础上,分段任意模型 (SAM) [26] 利用 10 亿个自然图像进行模型训练。然而,由于SAM的预训练主要是在自然光照条件下进行,其在海洋环境中的性能并不是最优的。此外,SAM 解码器的简单性限制了其捕获海洋生物复杂细节的能力。此外,SAM 引入了外部提示来指示对象先验。然而,单一位置的提示对于事前引导来说是非常不足的。

        为了克服上述问题,在这项工作中,我们提出了一种新颖的特征学习框架,名为 DualSAM,用于高性能 MAS。图1展示了我们的灵感和优势。从技术上讲,我们首先引入了 SAM 范式的双重结构,通过伽马校正操作来增强海洋图像的特征学习。同时,我们通过适配器增强了 SAM 编码器的多级功能。然后,我们提出了一种多级耦合提示(MCP)策略,通过自动提示来指导全面的水下先验信息。随后,我们设计了一个扩张融合注意力模块 (DFAM),以逐步集成 SAM 编码器的多级特征。最后,我们提出了一种十字交叉连接预测(C3P)范例来捕获离散像素之间的互连性,而不是直接预测海洋动物的面具。通过双解码器,它生成伪标签并实现互补特征表示的相互监督。所提出的矢量化表示比以前的标量预测技术有了显着的改进。大量实验表明,我们提出的方法在五个广泛使用的 MAS 数据集上实现了最先进的性能。

        总之,我们的贡献如下:

• 我们提出了一种新颖的特征学习框架,名为 Dual-SAM for Marine Animal Segmentation (MAS)。该框架继承了 SAM 的能力,并自适应地结合了水下场景的先验知识

 • 我们提出了一种多级耦合提示(MCP)策略,通过自动提示指导全面的水下先验信息。

• 我们提出了扩张融合注意力模块(DFAM)和十字交叉连接预测(C3P)来改善海洋动物的定位感知。

• 我们进行了大量的实验来验证所提出的模块的有效性。我们的方法在五个 MAS 数据集上实现了新的最先进的性能。

总结:对比传统方法、深度学习方法,其中cnn的局限性(捕获长距离关系不足)、Transformers的局限性(需要大量数据训练)、SAM 局限性(单一位置提示)

提出解决方案

• 我们提出了一种新颖的特征学习框架,名为 Dual-SAM for Marine Animal Segmentation (MAS)。该框架继承了 SAM 的能力,并自适应地结合了水下场景的先验知识

 • 我们提出了一种多级耦合提示(MCP)策略,通过自动提示指导全面的水下先验信息。

• 我们提出了扩张融合注意力模块(DFAM)和十字交叉连接预测(C3P)来改善海洋动物的定位感知。

 2. Related Work(相关工作)

2.1. Marine Animal Segmentation(海洋生物分割)

        MAS面临着巨大的挑战,例如可变照明、颗粒物、水浊度等。在过去的几十年中,大多数现有方法主要利用手工制作的特征[1,43,47]。从技术上讲,基于能量的模型[28,46,50]通常用于预测海洋动物的二元掩模。尽管它们取得了巨大的成功,但仍然存在一些关键的局限性,例如对模糊的鲁棒性较低、边界不清晰等。

        随着深度学习的兴起,CNN 成为 MAS 的首选模型。已经提出了各种网络架构来实现性能改进。例如,李等人。 [32]提出了一种特征交互式编码器和级联解码器来提取更全面的信息。刘等人。 [35]结合通道和空间注意模块来细化特征图以获得更好的对象边界。此外,陈等人。 [5]提取多尺度特征并引入注意力融合块来突出海洋动物。傅等人。 [12]设计了一种数据增强策略并使用 Siamese 结构来学习共享语义信息。尽管有效,但这些基于 CNN 的模型缺乏捕获复杂海洋图像的远程依赖性和复杂细节的能力。

        最近,Vision Transformer(ViT)[8]呈现出对多种数据类型出色的全局理解能力。通过结构修改,它在各种分割任务中表现出色[48,54,55,64]。至于 MAS,Hong 等人。 [17] 将基于 Transformer 的编码器应用于水下图像,并显示出有希望的动物分割结果。然而,变形金刚面临的一项重大挑战是需要大量的训练数据。目前,还没有非常大规模的 MAS 数据集用于 Transformers 的训练。

2.2. Segment Anything Model for Customized Tasks(为定制任务分割任何模型)

        最近,SAM[26]被提出来实现通用图像分割。它在大规模分割数据集上进行训练,并表现出零样本传输能力 [29,58,60]。通过各种类型的提示,它可以有效地部署到多种应用程序中[24,49,62]。然而,它在传输场景中表现出性能限制。此外,SAM 解码器的简单性在处理细节感知分割任务时是一个障碍。

        为了解决这些限制,已经提出了各种方法。一些作品采用适配器 [6,27,59] 将特定于域的信息注入 SAM。其他人选择了更具体的解码器结构[13]来改善域感知。人们还努力自动生成提示[3],以获得更好的适应性。尽管取得了这些进步,但由于使用自然图像进行训练,SAM 无法从特定图像中获得足够的先验知识域。另外,SAM的单一位置提示对于事前引导来说是非常不足的。至于 MAS,我们发现只有一项工作 [53] 涉及针对水下场景微调 SAM。因此,在这项工作中,我们深入研究 SAM 以改进定制任务。

3. Proposed Approach ( 提议的方法)

        如图2所示,我们的方法包含五个主要组成部分:双SAM编码器(DSE)、多级耦合提示(MCP)、扩张融合注意力模块(DFAM)、十字交叉连接预测(C3P)和伪标签相互监督(PMS)。这些组件将在以下小节中详细说明。

3.1. Dual-SAM Encoder (双 SAM 编码器)

其中 γ 是伽马系数,meangray I 是图像灰度强度的平均值。

        然后,我们将海洋领域信息注入 SAM 的编码器中,以更好地提取海洋特征。受[6, 59]的启发,我们将低秩可训练矩阵[19]用于多头自注意力(MHSA)块的查询和值部分。此外,我们还纳入前馈网络 (FFN) 的适配器 [18]。不失一般性,令 Xj ∈ RN×D 为 SAM 编码器第 j 层的输出特征,第 j+1 层的特征可以表示为:

3.2. Multi-level Coupled Prompt

  在 SAM 中,与对象相关的提示(例如,掩模、框、点)被编码并添加到特征图中。然而,单一位置的提示对于事前引导来说是非常不足的。为了提高提示能力,我们提出了一种多级耦合提示(MCP)策略,通过自动提示指导全面的水下先验信息。

        为此,我们首先连接原始图像 Iα 和校正图像 Iβ。然后,我们将它们分割成块并使用卷积来获得特征嵌入: 

3.3. Dilated Fusion Attention Module 

SAM 的简单解码器在处理复杂的分割任务时是一个障碍。受[33]的启发,我们引入特征金字塔结构作为解码器来融合MAS提示的特征。为了改善感受野,我们提出了具有扩张卷积[4]和通道注意力的扩张融合注意力模块(DFAM)。它可以插入到相邻的特征(Gi 和 Gi+1)中。如图4所示,DFAM可以表示如下:

3.4. Criss-Cross Connectivity Prediction

传统的图像分割方法预测每个像素的类别。因此,它们忽略了离散像素之间的连接性,显示了对象的不规则结构和边界。为了解决这个问题,我们提出了一种十字交叉连接预测(C3P)范例来捕获离散像素之间的互连性。 我们的方法从[25]中汲取灵感,它强调相邻像素之间的连接预测。相比之下,我们将采样范围扩大到纵横交错,考虑到海洋动物的各种形状和大小。具体来说,我们的方法首先将单通道掩码标签转换为 8 通道标签。图 5 说明了这八个通道。它们代表它们的位置和中心像素之间的连接性。给定一个中心像素(w,h),我们根据以下标准识别十字像素:

3.5. Pseudo-label Mutual Supervision (伪标签相互监督)

为了进一步确保双分支的全面互补性,我们对两个解码器采用伪标签相互监督(PMS)。它的工作原理类似于相互学习,使模型能够从不同的角度优化其参数。具体来说,我们首先对每个解码器分支内每个级别的预测输出进行阈值设置。它可以表示如下:

        在训练的早期阶段,连接预测非常粗略且次优。因此,我们为伪标签监督引入了动态更新系数。它从一个很小的值开始,然后以指数方式逐渐增加:

4. Experiments 

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值