Camouflaged Object Segmentation with Distraction Mining阅读笔记

最新推荐文章于 2024-05-19 01:47:57 发布

Ma lidong

最新推荐文章于 2024-05-19 01:47:57 发布

阅读量2.1k

点赞数

分类专栏：伪装目标检测论文阅读文章标签：计算机视觉深度学习人工智能原力计划

本文链接：https://blog.csdn.net/qq_41684249/article/details/116483919

版权

伪装目标检测论文阅读专栏收录该内容

19 篇文章 69 订阅

订阅专栏

CVPR 2021
Haiyang Mei, Ge-Peng Ji, Ziqi Wei, Xin Yang, Xiaopeng Wei, Deng-Ping Fan
论文地址

一、简介

本文将分心的概念引入伪装物体分割任务，并开发了一种新的分心挖掘策略来进行分心的发现和去除，以帮助伪装物体的精确分割。

本文提出了一个新颖的伪装物体分割方法，称为定位和聚焦网络（PFNet）。该方法首先通过探索长范围的语义依赖关系来定位潜在的目标物体，然后聚焦于分心区域的发现和去除以逐步细化分割结果。

二、方法

2.1 概述

在这里插入图片描述

如图2（a）所示，给定一幅RGB图像，本文首先将其送入ResNet-50网络提取多级特征，然后将这些特征送入四个卷积层中进行通道缩减。然后，在最深层特征上应用定位模块（PM）对潜在物体进行定位。最后，利用多个聚焦模块（FMs）逐步发现和去除假阳性和假阴性干扰，实现伪装物体的准确分割。

2.2 定位模块

图2（b）是定位模块（PM）的详细结构。PM模块的目的是获取语义增强的深层次特征，并进一步生成初始分割结果。PM由通道注意块和空间注意块组成，这两个块都是以非局部的方式实现的，以获得通道和空间位置方面的长范围的依赖关系，从全局角度增强最深层次特征的语义表示。

通道注意力：

给定输入F，通过reshape得到查询Q、键K和值V。然后将Q和K的转置进行矩阵乘法运算，并使用Softmax层来得到通道注意图X，公式如下：

在这里插入图片描述

Xij表示第j个通道对于第i个通道的影响。

为提高容错能力，本文将结果乘一个可学习的比例参数y并执行跳跃连接操作以获得最终输出F’。其公式如下：

在这里插入图片描述

y从初始值1逐渐学习权重。最后的特征F‘建模了特征图通道之间的长范围语义依赖关系，因此比输入特征F更具辨别性。

空间注意力：

将F’作为输入，应用1×1的卷积层得到Q，K和V。操作与通道注意力类似。如下面公式：

在这里插入图片描述

F‘’进一步感知了各个位置之间的语义关联，从而增强了特征的语义表示。

最后通过卷积得到伪装物体的初始位置图。

2.3 聚焦模块

伪装物体通常与背景具有相似的外观，因此在初始分割结果中自然会出现假阳性和假阴性的预测。聚焦模块（FM）的设计目的是发现并消除这些错误预测。

FM将当前级特征、上级特征和预测结果作为输入，输出细化后的特征和更准确的预测结果。

分心发现：

本文的观察是人类会进行上下文推理，即比较歧义区域和自信区域的模式，例如纹理和语义，来做出最终决策。这启发本文对所有预测的前景（或背景）区域进行上下文探索，以发现与自信前景（或背景）预测区域异质的假阳性分心区域（或假阴性分心区域）。

如图2 （c）所示，本文首先对更高级别的预测进行上采样，然后使用 sigmoid 层对其进行归一化。然后，本文将此归一化图及其取反版本与当前级别的特征 Fc 相乘，分别生成前景注意的特征 Ffa 和背景注意的特征 Fba。最后，本文将这两种类型的特征送入两个并行的上下文探索（CE）模块中来执行上下文推理，以分别发现假阳性分心 Ffpd 和假阴性分心 Ffnd。

CE模块：

在这里插入图片描述

如图3所示，CE 模块由四个上下文探索分支组成，每个分支包括用于通道缩减的 3 × 3 卷积、用于局部特征提取的 ki × ki 卷积、以及用于上下文感知的卷积核为 3 × 3 且扩张率为 ri 的扩张卷积。本文分别将 ki, i ∈ {1, 2, 3, 4} 设置为 1、3、5、7，并将 ri, i ∈ {1, 2, 3, 4} 设置为 1、2、4、8。每个卷积后都跟有一个批归一化（BN）层和一个 ReLU 非线性运算。第 i, i ∈ {1, 2, 3} 个分支的输出将被送入到第 (i+ 1) 个分支，在更大的感受野中被进一步处理。然后，本文将所有四个分支的输出在通道维度上叠加，并通过 3 × 3 的卷积进行融合。通过这种设计，CE 模块获得了在大范围内感知丰富上下文的能力，因此可以用于上下文推理和分心发现。

分心去除：

在这里插入图片描述

其中，Fh 和 F′r 分别表示输入的上级特征和输出的精细特征，CBR 代表卷积、批归一化（BN）和 ReLU的组合，U 是双线性上采样，α 和 β 是可学习的比例参数且初始值均为 1。在这里，本文使用逐元素减法运算来消除歧义的背景（即假阳性分心）和逐元素的加法操作来补充缺失的前景（即假阴性干扰）。

最后，在细化后的特征上应用卷积层，得到更准确的预测结果 F′r。本文使用真值图来监督生成的预测图，来强迫 F′r 成为一个更纯净的表达，即分心去除的特征。这会引导 CE 模块发现特定形式的分心，使整个聚焦模块以一种隐式的方式进行分心的发现和去除。