Related Work
PVT v2 通过空间减少注意力(SRA)和逐步缩小的金字塔结构将 Transformer 的计算复杂度降低到线性。SMT 将CNN与Transformer相结合,实现了从浅层到深层的远程依赖关系建模,同时避免了高分辨率输入中自注意力的巨大计算成本。
Proposed Method
Overview
该算法由三个部分组成:SMT特征提取主干、级联注意感知器(CAP)和引导细化解码器(GRD)。通过提取-整合-细化三阶段的工作模式,实现对伪装目标的精确检测和分割。
对于输入伪装图像,首先利用SMT主干进行特征提取。利用基于CNN的scale - aware调制块(SAM)和Multihead Self-Attention块(MSA),以及组合它们的MIX块,它以渐进的方式捕获本地到全局的依赖关系。随后,CAP采用自顶向下的方法对多尺度伪装目标信息进行集中感知,并有效融合多尺度信息来处理不同大小的伪装。
最后,为了解决伪装对象的复杂性,我们设计了以高级特征引导低级特征的GRD。通过迭代融合解码,逐步细化伪装预测。此外,采用多级监督策略,对特征的不同阶段进行监督,进一步细化结果。关于每个组件的具体细节将在以下章节中介绍。
Feature Extraction Backbone
如何有效地获取全局和局部信息是COD的关键。以前的COD方法主要依靠CNN主干进行特征提取,逐渐扩大接受野,从局部细节提取特征到全局特征。这种特征提取策略通常用于SOD任务。然而,在COD任务中,CNN主干网往往缺乏全局视野的引导,容易受到噪声背景的强烈干扰,导致定位错误。另一方面,Transformer具有自注意力机制,可以模拟全局信息并精确定位伪装对象。然而,将自关注应用于高分辨率特征映射会带来巨大的计算负担。
因此,有效结合CNN和Transformer的优势,可以在降低计算成本的同时,大大提高COD的有效性。作者采用一种称为scale - aware调制Transformer(SMT)的混合架构作为特征提取的骨干。SMT具有层次结构,允许捕获多尺度特征。SMT包括四个阶段,其中前两个阶段利用基于CNN的尺度感知调制块(SAM)集成多尺度上下文特征,同时避免了将自注意机制应用于高分辨率低水平特征所带来的计算负担。第三阶段将SAM与多头自注意块(MSA)相结合,以促进局部和全局依赖关系之间的交互。第四阶段,通过MSA获取全局语义信息。对于输入图像 I ∈ R H × W × 3 I\in R^{H\times W\times 3} I∈RH×W×3,得到多尺度特征 f i ( i = 1 , 2 , 3 , 4 ) f_i(i = 1,2,3,4) fi(i=1,2,3,4)通过四个阶段。为了使网络更加轻量级,作者采用了参数数量最少的 SMT-T 版本。
Cascade Attention Perceptron
考虑到伪装物体大小的显著变化,定位不同尺度的伪装是至关重要的。
为了解决这一挑战,作者提出了级联注意感知器(CAP),使用多重注意力来感知不同维度的特征。此外,它利用自顶向下的方法来促进多尺度特征之间的交互,有效地将高级语义信息传播到低级特征,以更好地处理不同大小的伪装对象。
如模型结构图所示,在CAP中,作者将多尺度特征 f i f_i fi 输入到4个混合注意感知模块(MAM)中进行注意感知。4个MAM是级联的,允许注意感知特征 F i F_i Fi (经过MAM模块)输出后的特征,从高级特征传递到低级特征,促进不同尺度特征之间的交互。这个过程可以描述如下:
M A M ( ⋅ ) MAM(·) MAM(⋅)表示混合注意感知模块; f i f_i fi 为骨干提取的多尺度特征; F i F_i Fi 代表注意感知特征。MAM 模块结构图如下图:
对于深度注意感知特征 F i − 1 F_{i−1} Fi−1,首先通过卷积和上采样操作来调整它们的尺度,以匹配当前级别特征 f i f_i fi,
考虑到通道信息之间存在一定的相似性,为了避免特征冗余,减少计算成本,作者将 F i − 1 F_{i−1} Fi−1 和 f i f_i fi 分离,在保留一半通道特征的情况下,得到 f h ′ f_h^{'} fh′ 和 f l ′ f_l^{'} fl′ 。随后,将 f h ′ f_h^{'} fh′ 和 f l ′ f_l^{'} fl′ 在通道维度连接起来,然后利用3×3卷积层学习上下文信息并生成特征 f i n f_{in} fin(对于MAM1(·),最高级特征 f 1 f_1 f1 直接作为 f i n f_{in} fin 输入)。
-
输入特征处理:
- 对于上下文特征 f in f_{\text{in}} fin,首先利用两个一维平均池化操作 p h p_h ph 和 p w p_w pw 分别嵌入垂直和水平方向的方向信息。
- 将这些方向信息嵌入特征进行拼接,并通过一个 ConvBS ( ⋅ ) \text{ConvBS}(\cdot) ConvBS(⋅) 层压缩通道信息。
-
通道注意力感知:
- 将带有方向信息嵌入的特征沿着 h h h 和 w w w 方向分别传入坐标注意力层 CA h ( ⋅ ) \text{CA}_h(\cdot) CAh(⋅) 和 CA w ( ⋅ ) \text{CA}_w(\cdot) CAw(⋅) 以生成坐标注意力图 F h F_h Fh 和 F w F_w Fw。
- 将这些注意力图与输入特征图 f in f_{\text{in}} fin 相乘,实现通道注意力感知。这样可以在保留位置信息的同时捕捉沿一维方向的长程依赖关系。
-
空间注意力感知:
- 通过一个空间注意力层 SA ( ⋅ ) \text{SA}(\cdot) SA(⋅) 获得空间注意力感知,输出与输入特征 f in f_{\text{in}} fin 相乘,得到最终的注意感知特征 F