CVPR 2021
Haiyang Mei, Ge-Peng Ji, Ziqi Wei, Xin Yang, Xiaopeng Wei, Deng-Ping Fan
论文地址
一、简介
本文将分心的概念引入伪装物体分割任务,并开发了一种新的分心挖掘策略来进行分心的发现和去除,以帮助伪装物体的精确分割。
本文提出了一个新颖的伪装物体分割方法,称为定位和聚焦网络(PFNet)。该方法首先通过探索长范围的语义依赖关系来定位潜在的目标物体,然后聚焦于分心区域的发现和去除以逐步细化分割结果。
二、方法
2.1 概述
如图2(a)所示,给定一幅RGB图像,本文首先将其送入ResNet-50网络提取多级特征,然后将这些特征送入四个卷积层中进行通道缩减。然后,在最深层特征上应用定位模块(PM)对潜在物体进行定位。最后,利用多个聚焦模块(FMs)逐步发现和去除假阳性和假阴性干扰,实现伪装物体的准确分割。
2.2 定位模块
图2(b)是定位模块(PM)的详细结构。PM模块的目的是获取语义增强的深层次特征,并进一步生成初始分割结果。PM由通道注意块和空间注意块组成,这两个块都是以非局部的方式实现的,以获得通道和空间位置方面的长范围的依赖关系,从全局角度增强最深层次特征的语义表示。
通道注意力:
给定输入F,通过reshape得到查询Q、键K和值V。然后将Q和K的转置进行矩阵乘法运算,并使用Softmax层来得到通道注意图X,公式如下:
Xij表示第j个通道对于第i个通道的影响。
为提高容错能力,本文将结果乘一个可学习的比例参数y并执行跳跃连接操作以获得最终输出F’。其公式如下:
y从初始值1逐渐学习权重。最后的特征F‘建模了特征图通道之间的长范围语义依赖关系,因此比输入特征F更具辨别性。
空间注意力:
将F’作为输入,应用1×1的卷积层得到Q,K和V。操作与通道注意力类似。如下面公式:
F‘’进一步感知了各个位置之间的语义关联,从而增强了特征的语义表示。
最后通过卷积得到伪装物体的初始位置图。
2.3 聚焦模块
伪装物体通常与背景具有相似的外观,因此在初始分割结果中自然会出现假阳性和假阴性的预测。聚焦模块(FM)的设计目的是发现并消除这些错误预测。
FM将当前级特征、上级特征和预测结果作为输入,输出细化后的特征和更准确的预测结果。
分心发现:
本文的观察是人类会进行上下文推理,即比较歧义区域和自信区域的模式,例如纹理和语义,来做出最终决策。这启发本文对所有预测的前景(或背景)区域进行上下文探索,以发现与自信前景(或背景)预测区域异质的假阳性分心区域(或假阴性分心区域)。
如图2 (c)所示,本文首先对更高级别的预测进行上采样,然后使用 sigmoid 层对其进行归一化。然后,本文将此归一化图及其取反版本与当前级别的特征 Fc 相乘,分别生成前景注意的特征 Ffa 和背景注意的特征 Fba。最后,本文将这两种类型的特征送入两个并行的上下文探索(CE)模块中来执行上下文推理,以分别发现假阳性分心 Ffpd 和假阴性分心 Ffnd。
CE模块:
如图3所示,CE 模块由四个上下文探索分支组成,每个分支包括用于通道缩减的 3 × 3 卷积、用于局部特征提取的 ki × ki 卷积、以及用于上下文感知的卷积核为 3 × 3 且扩张率为 ri 的扩张卷积。本文分别将 ki, i ∈ {1, 2, 3, 4} 设置为 1、3、5、7,并将 ri, i ∈ {1, 2, 3, 4} 设置为 1、2、4、8。每个卷积后都跟有一个批归一化(BN)层和一个 ReLU 非线性运算。第 i, i ∈ {1, 2, 3} 个分支的输出将被送入到第 (i+ 1) 个分支,在更大的感受野中被进一步处理。然后,本文将所有四个分支的输出在通道维度上叠加,并通过 3 × 3 的卷积进行融合。通过这种设计,CE 模块获得了在大范围内感知丰富上下文的能力,因此可以用于上下文推理和分心发现。
分心去除:
其中,Fh 和 F′r 分别表示输入的上级特征和输出的精细特征,CBR 代表卷积、批归一化(BN)和 ReLU的组合,U 是双线性上采样,α 和 β 是可学习的比例参数且初始值均为 1。在这里,本文使用逐元素减法运算来消除歧义的背景(即假阳性分心)和逐元素的加法操作来补充缺失的前景(即假阴性干扰)。
最后,在细化后的特征上应用卷积层,得到更准确的预测结果 F′r。本文使用真值图来监督生成的预测图,来强迫 F′r 成为一个更纯净的表达,即分心去除的特征。这会引导 CE 模块发现特定形式的分心,使整个聚焦模块以一种隐式的方式进行分心的发现和去除。
2.4 损失函数
Lpm来引导定位模块探索目标物体的初始位置。Lfm来迫使聚焦模块将注意力放在可能的分心区域。
整体损失如下: