伪装目标检测论文阅读之Dual-SAM（CVPR-2024)

交换喜悲

已于 2024-05-08 20:13:58 修改

阅读量2.1k

点赞数 21

分类专栏：伪装目标检测模型文章标签：目标检测论文阅读人工智能计算机视觉深度学习

于 2024-05-08 20:13:47 首次发布

本文链接：https://blog.csdn.net/absence521/article/details/138583614

版权

伪装目标检测模型专栏收录该内容

21 篇文章

订阅专栏

论文：link
code：code
Fantastic Animals and Where to Find Them:Segment Any Marine Animal with Dual SAM

摘要

作为水下智能的重要支柱，海洋动物分割(MAS)涉及对海洋环境中的动物进行分割。以往的方法在提取长范围上下文特征方面表现不佳，并且忽略了离散像素之间的连通性。最近，Segment Anything Model(SAM)为一般的分割任务提供了一个通用的框架。遗憾的是，SAM是用自然图像训练的，不能从海洋图像中获得先验知识。此外，地对空导弹的单一位置提示对于事前制导来说是非常不够的。为了解决这些问题，我们提出了一种新的特征学习框架，称为Dual-SAM，用于高性能MAS。为此，我们首先引入SAM范式的双重结构来增强海洋图像的特征学习。然后，我们提出了一种多层耦合提示(MCP)策略来指导全面的水下先验信息，并通过适配器增强了SAM编码器的多层特征。随后，我们设计了一个扩展的融合注意模块(DFAM)来逐步整合SAM编码端的多层次特征。最后，我们没有直接预测海洋动物的面具，而是提出了一种Criss-Cross Connectivity预测(C3P)范例来捕捉离散像素之间的相互连接。使用双解码器，它生成伪标签，并实现对互补特征表示的相互监督，从而比以前的技术有了很大的改进。大量的实验证明，我们提出的方法在五个广泛使用的MAS数据集上取得了最好的性能。

1.介绍

本文提出了一种新的特征学习框架Dual-SAM，用于高性能多智能体系统。图1显示了我们的灵感和优势。在技术上，我们首先利用SAM的范式引入双重结构，通过伽马校正操作来增强海洋图像的特征学习。同时，我们通过适配器增强了SAM编码器的多层次特性。在此基础上，提出了一种多层次耦合提示(MCP)策略来指导全面的水下先验信息的自动提示。随后，我们设计了一个扩展的融合注意模块(DFAM)来逐步整合SAM编码端的多层次特征。最后，我们没有直接预测海洋动物的面具，而是提出了一种Criss-Cross Connectivity预测(C3P)范例来捕捉离散像素之间的互连。该算法利用双解码器生成伪标签，实现了对互补特征表示的相互监督。与以前的标量预测技术相比，所提出的矢量化表示法具有显著的改进。大量的实验表明，我们提出的方法在五个广泛使用的MAS数据集上取得了最好的性能。
在这里插入图片描述
总结，贡献：
• 提出了一种新的海洋动物分割特征学习框架–Dual-SAM，该框架继承了SAM的能力，并自适应地融入了水下场景的先验知识。
•提出了一种多层次耦合提示（Multi-level Coupled Prompt)策略，通过自动提示来指导全面的水下先验信息
•提出了一种扩展的融合注意模块（DFAM）和Criss交叉连接预测来改善海洋动物的定位感知
•进行大量实验来验证所提出模块的有效性，方法在五个MAS数据集上实现了新的最先进的性能。

2.相关工作

2.1 Marine Animal Segmentation 海洋动物分割

MAS面临着巨大的挑战，如可变光照、颗粒物、水浊度等。在过去的几十年里，大多数现有的方法主要利用手工制作的特征从技术上讲，基于能量的模型通常被用来预测海洋动物的二进制掩膜。虽然它们取得了很大的成功，但仍然存在一些关键的局限性，如对模糊的稳健性较差，边界不清晰等。随着深度学习的兴起，神经网络成为多智能体系统的首选模型。已经提出了各种网络体系结构来实现性能改进。例如，Li等人[36]提出了一种特征交互编码器和级联译码，以提取更全面的信息。Liu等人[40]结合了通道和空间注意模块来优化特征地图，以获得更好的对象边界。此外，Chen等人[5]提取多尺度特征并引入注意力融合块来突出海洋动物。Fu等人[15]设计了一种数据扩充策略，并使用暹罗结构来学习共享的语义信息。这些基于CNN的模型虽然有效，但缺乏捕捉复杂海洋图像的长期相关性和复杂细节的能力。
最近，Vision Transformer(VIT)[8]展示了对多种数据类型的出色的全局理解能力。通过结构修改，它在各种分割任务中提供了显著的性能[58，70，71，87]。至于MAS，Hong等人[20]将基于Transformer的编码器应用于水下图像，并显示了有希望的动物分割结果。然而，Transformer面临的一个重大挑战是需要大量的训练数据。目前，还没有用于Transformer培训的超大规模MAS数据集。

2.2 Segment Anything Model for Customized Tasks

最近，为了实现通用的图像分割，人们提出了SAM。它在大规模分割数据集上进行训练，并显示出零镜头传输能力。通过各种类型的提示，它可针对多种应用程序进行高效部署。然而，它在传输场景中表现出性能限制。此外，SAM解码器的简单性在处理细节感知的分割任务时是一个障碍。为了解决这些限制，人们提出了各种方法。一些作品采用适配器来向SAM注入特定于领域的信息。其他人选择了更具体的解码器结构来改善域感知。还努力使提示的生成自动化，以获得更好的适应性。尽管有这些进步，但由于使用自然图像进行训练，SAM并不能从特定领域获得足够的先验知识。此外，地对空导弹的单一位置提示对于事前制导来说是非常不够的。至于MAS，我们发现只有一项工作涉及微调水下场景的SAM。因此，在这项工作中，我们对SAM进行了深入的研究，以改进定制任务。
所以就是改善了SAM

3.方法

主要由五部分组成：Dual-SAM Encoder(DSE)、Multi-level Coupled Prompt(MCP) 、Dilated Fusion Attention Module（DFAM），Cirss-Cross Connectivity Prediction(C3P)、Pseudo-label Mutual Supervision（PMS）
在这里插入图片描述

3.1 Dual-SAM Encoder

${I^\beta } = \sqrt[\gamma ]{{{I^\alpha }}},\gamma = \lg \left( {0.5} \right) - \lg \left( {mean_I^{gray}/255} \right)$
海洋图像： $I_{\alpha}$ 校正图像： $I_{\beta}$ ，其中 $\gamma$ 是伽马系数，平均灰度I是图像的灰度强度的平均值。
在这里插入图片描述