伪装目标检测论文阅读 VSCode:General Visual Salient and Camouflaged Object Detection with 2D Prompt Learning

交换喜悲

已于 2024-06-28 19:05:50 修改

阅读量1.4k

点赞数 16

分类专栏：伪装目标检测模型目标检测相关论文文章标签：目标检测论文阅读 python 人工智能 ide 开发语言学习

于 2024-06-28 17:42:57 首次发布

本文链接：https://blog.csdn.net/absence521/article/details/140049053

版权

伪装目标检测模型同时被 2 个专栏收录

21 篇文章

订阅专栏

目标检测相关论文

9 篇文章

订阅专栏

论文link：link
代码：code

1.摘要

显著物体检测和伪装物体检测是相关但又不同的二元映射任务，这些任务涉及多种模态，具有共同点和独特线索，现有研究通常采用复杂的特定于任务的专家模型，可能会导致冗余和次优结果。我们引入了VSCode，这是一种具有新颖的2D提示学习的通用模型，用于联合解决四个SOD任务和三个COD任务，我们利用VST作为基础模型，并在编码器-解码器架构中引入2D提示，以在两个不同的维度上学习领域和任务特定的知识。提示辨别损失有助于解开特殊性。VSCode在26个数据集上的六个任务中的表现由于最先进的方法，并通过结合2D提示（例如RGB-D COD）表现出对未见任务的零样本泛化。

2.主要贡献

提出了VSCode，这是第一个用于多模态SOD和COD任务的通用模型
建议使用基础分割模型来聚合共性，并引入2D提示以分别沿领域和任务维度学习特性
提出了提示判别损失，以分别有效地增强2D提示和基础模型的特性和共性的学习
我们的VSCode模型在26个数据集上的所有任务中超越了所有现有的最先进模型，并展示了其推广到未知任务的能力，进一步强调了我们方法的优越性。

3.模型结构图

在这里插入图片描述

4.方法

4.1 基础模型

全面整合SOD和COD任务的共性，选择VST作为基本模型，VST包含三个主要组件：变压器解码器、变压器转换器、多任务变压器解码器最初使用编码器捕获图像特征 $f_i^E \in {R^{{l_i} \times {c_i}}}$ 中的长距离关系， $i = [0, 1, 2, 3]$ 表示编码器中块的索引， $l_i$ 和 $c_i$ 表示块序列的长度和的通道数。随后，变压器转换器通过交叉注意将RGB-D SOD 的RGB和深度特征之间的互补性整合在一起，或对RGB SOD使用自注意。在由一系列自注意力层组成的解码器中，VST通过显著性标记、边界标记和解码器特征同时预测显著性图和边界图。

4.2 特定领域提示

在编码器中，较低层专用于提取低级特征，包括边缘、颜色和纹理，这些特征在各个领域中表现出不同的特性，我们在编码器的每个块 i 处引入领域特定提示 $p_i^d$ ，并分别针对 RGB、深度、热和光流设计四种领域特定提示，以突出领域之间的差异。
给定Swin Transformer编码器的特定块的图像特征 $f_i^E$ ，使用窗口注意并将特征 $f_i^E$ 划分为窗口特征$ $f_{i - w}^E \in {R^{{l_i}/{M^2} \times {M^2} \times {c_i}}}$ ,M代表窗口大小， $l_i/M^2$ 是窗口数量，然后为每个窗口复制提示 $p_i^d \in {R^{{N_i} \times {c_i}}}$ 并获得 $p_i^{{d'}} \in {R^{{l_i}/{M^2} \times {N_i} \times {c_i}}}$ ， $N_i$ 表示可学习提示标记的数量，随后将其附加到每个窗口的补丁特征标记中，并在每个窗口内执行自注意，这可以定义为：
$\left[ \begin{array}{l}p_{i + 1}^{{d'}}\\f_{i - w}^E\end{array} \right] \leftarrow MLP(SW(W - MSA(\left[ \begin{array}{l}p_i^{{d'}}\\f_{i - w}^E\end{array} \right]))$

4.3 特定任务提示

在这里插入图片描述
不同的任务提示的影响
Encoder：SOD任务跟COD任务主要关注的区域不同，SOD更加关注前景区域，COD任务更加关注背景，因为对象通常隐藏在背景中，必须结合特定的任务提示来鼓励编码器学习与任务相关的特征。否则有可能会在解码过程之前最初激活错误的对象。
Decoder：
伪装物体需要在编码器中进行更精细的处理，在解码器中加入了特定于任务的提示，以根据编码器提取的特征为重建边界和物体区域分配不同的注意力。
$\left[ \begin{array}{l}p_j^{td}\\f_j^D\end{array} \right] \leftarrow MLP(MSA(\left[ \begin{array}{l}p_{j + 1}^{td}\\f_{j + 1}^D\end{array} \right]))$

4.4提示布局和讨论

深度版本中，在每个转换器块的开头引入新提示，而浅层版本则涉及首先提出提示并在所有块中更新它们。为了揭示不同网络深度下不同域和任务之间的具体关系，我们在编码器中对域和任务特定的提示都采用了深度版本，随着网络深度的增加，相关性值逐渐降低，促进我们学习越来越多的提示标记。
Loss Function
使用MLP获得整体领域特定提示 $p_l^{{d_{all}}}$ 和任务特定编码器提示 $p_k^{t{e_{all}}}$
在这里插入图片描述
进一步与分割损失金额和边界损失相结合来训练我们的模型