Related Work
PVT v2 通过空间减少注意力(SRA)和逐步缩小的金字塔结构将 Transformer 的计算复杂度降低到线性。SMT 将CNN与Transformer相结合,实现了从浅层到深层的远程依赖关系建模,同时避免了高分辨率输入中自注意力的巨大计算成本。
Proposed Method
Overview
该算法由三个部分组成:SMT特征提取主干、级联注意感知器(CAP)和引导细化解码器(GRD)。通过提取-整合-细化三阶段的工作模式,实现对伪装目标的精确检测和分割。
对于输入伪装图像,首先利用SMT主干进行特征提取。利用基于CNN的scale - aware调制块(SAM)和Multihead Self-Attention块(MSA),以及组合它们的MIX块,它以渐进的方式捕获本地到全局的依赖关系。随后,CAP采用自顶向下的方法对多尺度伪装目标信息进行集中感知,并有效融合多尺度信息来处理不同大小的伪装。
最后,为了解决伪装对象的复杂性,我们设计了以高级特征引导低级特征的GRD。通过迭代融合解码,逐步细化伪装预测。此外,采用多级监督策略,对特征的不同阶段进行监督,进一步细化结果。关于每个组件的具体细节将在以下章节中介绍。
Feature Extraction Backbone
如何有效地获取全局和局部信息是COD的关键。以前的COD方法主要依靠CNN主干进行特征提取,逐渐扩大接受野,从局部细节提取特征到全局特征。这种特征提取策略通常用于SOD任务。然而,在COD任务中,CNN主干网往往缺乏全局视野的引导,容易受到噪声背景的强烈干扰,导致定位错误。另一方面,Transformer具有自注意力机制,可以模拟全局信息并精确定位伪装对象。然而,将自关注应用于高分辨率特征映射会带来巨大的计算负担。
因此,有效结合CNN和Transformer的优势,可以在降低计算成本的同时,大大提高COD的有效性。作者采用一种称为scale - aware调制Transformer(SMT)的混合架构作为特征提取的骨干。SMT具有层次结构,允许捕获多尺度特征。SMT包括四个阶段,其中前两个阶段利用基于CNN的尺度感知调制块(SAM)集成多尺度上下文特征,同时避免了将自注意机制应用于高分辨率低水平特征所带来的计算负担。第三阶段将SAM与多头自注意块(MSA)相结合,以促进局部和全局依赖关系之间的交互。第四阶段,通过MSA获取全局语义信息。对于输入图像 I ∈ R H × W × 3 I\in R^{H\times W\times 3} I∈RH×W×3,得到多尺度特征 f i ( i = 1 , 2 , 3 , 4 ) f_i(i = 1,2,3,4) fi(i=1,2,3,4)通过四个阶段。为了使网络更加轻量级,作者采用了参数数量最少的 SMT-T 版本。
Cascade Attention Perceptron
考虑到伪装物体大小的显著变化,定位不同尺度的伪装是至关重要的。
为了解决这一挑战,作者提出了级联注意感知器(CAP),使用多重注意力来感知不同维度的特征。此外,它利用自顶向下的方法来促进多尺度特征之间的交互,有效地将高级语义信息传播到低级特征,以更好地处理不同大小的伪装对象。
如模型结构图所示,在CAP中,作者将多尺度特征 f i f_i fi 输入到4个混合注意感知模块(MAM)中进行注意感知。4个MAM是级联的,允许注意感知特征 F i F_i Fi (经过MAM模块)输出后的特征,从高级特征传递到低级特征,促进不同尺度特征之间的交互。这个过程可以描述如下:
M A M ( ⋅ ) MAM(·) MAM(⋅)表示混合注意感知模块; f i f_i fi 为骨干提取的多尺度特征; F i F_i Fi 代表注意感知特征。MAM 模块结构图如下图:
对于深度注意感知特征
F
i
−
1
F_{i−1}
Fi−1,首先通过卷积和上采样操作来调整它们的尺度,以匹配当前级别特征
f
i
f_i
fi,
考虑到通道信息之间存在一定的相似性,为了避免特征冗余,减少计算成本,作者将
F
i
−
1
F_{i−1}
Fi−1 和
f
i
f_i
fi 分离,在保留一半通道特征的情况下,得到
f
h
′
f_h^{'}
fh′ 和
f
l
′
f_l^{'}
fl′ 。随后,将
f
h
′
f_h^{'}
fh′ 和
f
l
′
f_l^{'}
fl′ 在通道维度连接起来,然后利用3×3卷积层学习上下文信息并生成特征
f
i
n
f_{in}
fin(对于MAM1(·),最高级特征
f
1
f_1
f1 直接作为
f
i
n
f_{in}
fin 输入)。
-
输入特征处理:
- 对于上下文特征 f in f_{\text{in}} fin,首先利用两个一维平均池化操作 p h p_h ph 和 p w p_w pw 分别嵌入垂直和水平方向的方向信息。
- 将这些方向信息嵌入特征进行拼接,并通过一个 ConvBS ( ⋅ ) \text{ConvBS}(\cdot) ConvBS(⋅) 层压缩通道信息。
-
通道注意力感知:
- 将带有方向信息嵌入的特征沿着 h h h 和 w w w 方向分别传入坐标注意力层 CA h ( ⋅ ) \text{CA}_h(\cdot) CAh(⋅) 和 CA w ( ⋅ ) \text{CA}_w(\cdot) CAw(⋅) 以生成坐标注意力图 F h F_h Fh 和 F w F_w Fw。
- 将这些注意力图与输入特征图 f in f_{\text{in}} fin 相乘,实现通道注意力感知。这样可以在保留位置信息的同时捕捉沿一维方向的长程依赖关系。
-
空间注意力感知:
- 通过一个空间注意力层 SA ( ⋅ ) \text{SA}(\cdot) SA(⋅) 获得空间注意力感知,输出与输入特征 f in f_{\text{in}} fin 相乘,得到最终的注意感知特征 F i F_i Fi。
-
公式描述:
- F h / w = CA h / w ( ConvBS ( p h ( f in ) , p w ( f in ) ) ) F_{h/w} = \text{CA}_{h/w}(\text{ConvBS}(p_h(f_{\text{in}}), p_w(f_{\text{in}}))) Fh/w=CAh/w(ConvBS(ph(fin),pw(fin)))
- F i CA = f in ⊗ F h ⊗ F w F_i^{\text{CA}} = f_{\text{in}} \otimes F_h \otimes F_w FiCA=fin⊗Fh⊗Fw
- F i = f in ⊗ SA ( F i CA ) F_i = f_{\text{in}} \otimes \text{SA}(F_i^{\text{CA}}) Fi=fin⊗SA(FiCA)
在上述公式中:
- p h p_h ph 和 p w p_w pw 表示在垂直和水平方向上的平均池化操作。
- ⊗ \otimes ⊗ 表示元素级乘法。
- ConvBS ( ⋅ ) \text{ConvBS}(\cdot) ConvBS(⋅) 表示一个由卷积层、BN层和sigmoid层组成的转换层,用于嵌入坐标信息。
- CA h ( ⋅ ) \text{CA}_h(\cdot) CAh(⋅) 和 CA w ( ⋅ ) \text{CA}_w(\cdot) CAw(⋅) 表示生成沿 h h h 和 w w w 方向的坐标注意力图,通过包含sigmoid层的卷积层实现。
- SA ( ⋅ ) \text{SA}(\cdot) SA(⋅) 表示空间注意力层。
通过 CAP,有效地整合了多尺度特征,利用高级别的语义信息和低级别的复杂细节,精确地定位不同尺度的伪装目标。此外,借助注意力机制,从多个维度感知伪装物体,确保全面捕捉伪装目标信息。
Guided Refinement Decoder
在这篇论文中,Guided Refinement Decoder (GRD) 旨在解决伪装目标检测 (COD) 任务中的精细和准确分割问题:
问题背景
伪装目标检测的挑战在于:
- 目标和背景的高度相似性导致难以准确定位目标。
- 伪装目标的复杂轮廓使得精确分割变得困难。
解决方案
为了解决这些问题,论文提出了引导式精细解码器 (GRD),其通过多级特征引导低级特征并缓解低级特征中的噪声干扰。此外,采用部分卷积模块 (Partial Convolution Modules, PCM) 进一步细化上下文信息。
方法细节
-
多尺度特征聚合:
- 使用逐点卷积层 (Pointwise Convolutional Layer, PW) 和上采样层 (Upsampling Layer) 将注意感知特征 F i F_i Fi 转换为高层特征的尺度。
- 将这些转换后的高层特征分别附加到所有其他低层特征上,有效利用高层特征引导低层特征: F fuse i = { F i , if i = 1 F i + ∑ j = 1 i − 1 UP ( PW ( F i − j ) ) , if i = 2 , 3 , 4 F_{\text{fuse}_i} = \begin{cases} F_i, & \text{if } i = 1 \\ F_i + \sum_{j=1}^{i-1} \text{UP}(\text{PW}(F_{i-j})), & \text{if } i = 2, 3, 4 \end{cases} Ffusei={Fi,Fi+∑j=1i−1UP(PW(Fi−j)),if i=1if i=2,3,4其中, PW ( ⋅ ) \text{PW}(\cdot) PW(⋅) 表示逐点卷积层。
-
细节增强:
- 通过自顶向下方式逐步细化引导特征 F fuse i F_{\text{fuse}_i} Ffusei,利用四个部分卷积模块 (PCM) 进行细化。
- 具体过程如下: p i = { PCM i ( F i ) , if i = 1 PCM i ( F fuse i , p i − 1 ) , if i = 2 , 3 , 4 p_i = \begin{cases} \text{PCM}_i(F_i), & \text{if } i = 1 \\ \text{PCM}_i(F_{\text{fuse}_i}, p_{i-1}), & \text{if } i = 2, 3, 4 \end{cases} pi={PCMi(Fi),PCMi(Ffusei,pi−1),if i=1if i=2,3,4
-
部分卷积模块 (PCM):
- PCM 的结构如图 4 所示。首先,将高层特征 p i − 1 p_{i-1} pi−1 与低层特征 F fuse i F_{\text{fuse}_i} Ffusei 拼接,通过逐点卷积层进行通道调整,实现初步融合。
- 考虑到上下文特征中的冗余信息,采用部分卷积策略降低计算成本。
- 具体地,将融合特征的一半通道 F ′ F' F′ 放入一个 3 × 3 卷积层,然后将输出与剩余通道 F ′ ′ F'' F′′ 结合。
- 为了有效利用所有通道的信息,使用两个逐点卷积层进行信息整合。
- 最后,通过残差连接将输出特征与融合特征
F
F
F 进行上采样:
F = PW ( Cat ( p i − 1 , F fuse i ) ) F = \text{PW}(\text{Cat}(p_{i-1}, F_{\text{fuse}_i})) F=PW(Cat(pi−1,Ffusei)) p i = UP ( F + PW 2 ( σ ( BN ( PW 1 ( Cat ( Conv 3 ( F ′ ) , F ′ ′ ) ) ) ) ) ) p_i = \text{UP}(F + \text{PW}_2(\sigma(\text{BN}(\text{PW}_1(\text{Cat}(\text{Conv}_3(F'), F'')))))) pi=UP(F+PW2(σ(BN(PW1(Cat(Conv3(F′),F′′)))))) - 其中, σ ( ⋅ ) \sigma(\cdot) σ(⋅) 是 ReLU 激活函数, BN ( ⋅ ) \text{BN}(\cdot) BN(⋅) 是批归一化操作。
结果
通过 GRD,作者有效地整合了多尺度信息,获得了更清晰的伪装目标预测结果。此外,实验结果表明,PCM 在进一步细化多尺度信息方面具有显著效果,补偿了轻量级特征提取骨干在特征表示上的局限性。
总结
GRD 通过利用高层特征引导低层特征,过滤大量噪声,同时保留更多边缘细节,从而显著提高了伪装目标检测的精度和细致度。
Loss function
对于预测的 maps 使用由二元交叉熵(BCE)损失和交并比(IoU)损失组成的混合损失来监督,把这两种损失结合起来,可以有效地监督像素级细节和前景-背景区域。此外,利用深度监督策略增强了网络的判别能力,加快了收敛速度。模型的总损失 L L L 定义为 :
实验
实验结果
表1,作者方法与其他12种SOTA在4个基准数据集上的定量比较结果,最优结果为红色。
表2,各模块有效性的消融实验结果:
表3,级联注意力感知的消融实验结果,其中cap代表级联注意感知器,cp代表仅级联操作无注意力,
表4,MAM模块消融实验,其中ca代表坐标注意力,sa代表空间注意力,最佳结果用红色表示
最后,为了验证不同通道降维方法对多尺度特征聚合的影响,作者进行了以下实验:(a)保留一半的特征通道;(b)通过一个Conv层减少通道尺寸; ( c ) (c) (c) 通过一个MLP层减少通道尺寸。
从表5的结果可以看出,(a)、(b)、 ( c ) (c) (c) 的结果非常相似。这是因为上下文特征之间存在冗余信息,因此降低所有特征的通道维数和保留并整合一部分特征都是可行的解决方案。
由于两种方法对结果的影响都很小,作者选择了更简洁的策略来整合上下文特征。
表5, 上下文特征聚合的消融实验,(b)和
(
c
)
(c)
(c)分别代表conv和MLP层对通道维数的降维,效果最好的用红色表示。
表6,GRD 引导细化解码器的消融实验结果如下:
表7,PCM 模块的消融实验结果如下:
表8,损失函数的消融实验结果如下:
表9,替换不同backbone的消融实验结果:
表10,几种SOTA方法在替换了相同的SMT骨干之后的消融实验结果, 其中带 * 号的是使用了 SMT 之后的结果:
讨论
1)失败案例:
尽管整体性能优异,但作者提出的方法在一些具有挑战性的场景中仍然难以有效检测伪装物体。如图7所示,在前三列中,由于严重遮挡,模型无法从图像中获得被伪装物体的完整信息,导致无法检测到整个被伪装物体。在后三列中,模型可以很好地检测和分割伪装物体的主体,但存在遗漏,无法检测到图像中的所有伪装物体。
表明伪装目标检测是一项具有挑战性的任务,仍需进一步研究
2) Future Work
上述失败案例说明了我们方法的局限性,这主要源于两个因素。首先,当存在严重的干扰或遮挡时,网络很难从单个模态中获得完整的目标信息,导致分割结果不完整。其次,在多个伪装对象存在的情况下,由于伪装程度不同,网络无法检测到所有的伪装对象。因此,在未来的工作中,可以通过引入完整性损失函数[18]、跨模态特征融合[56]、多任务联合学习[57]和对抗域自适应对齐[58]来寻求上述问题的解决方案。
下游应用探索之息肉分割
在临床实践中,由于息肉的大小、颜色和质地的变化,以及息肉与周围粘膜的高度相似性,从结肠镜图像中分割息肉是一项具有挑战性的任务。由于COD和息肉分割任务之间存在相似之处,作者将PRNet应用于息肉分割,以验证其在下游应用中的有效性。
按照[59]中的设置,作者使用来自Kvasir[60]和CVC-ClinicDB[61]数据集的1450张图像重新训练他们的模型。
然后,作者在CVC-300[62]、ETIS[63]、Kvasir[60]和CVC-ColonDB[64]测试集上测试他们的模型。将PRNet与5种SOTA息肉分割模型进行比较,包括UNet[65]、UNet++[66]、SFA[67]、PraNet[59]和C2FNet[8],结果由各自的作者提供。
定量比较结果见表十一。
作者的方法在4个数据集的所有指标上都取得了最好的结果,并且与其他方法相比有了显著的改进,在MAE指标上平均提高了32%。此外,从图8的定量对比结果可以看出,作者的方法可以准确地分割不同大小的息肉(第3行和第4行),并且可以在多个息肉(第1行)的情况下分割所有对象。综上所述,作者的方法在息肉分割方面优于其他方法,实现准确和完整的息肉分割,从而展示了我们的方法在下游任务中的潜力。
笔记
1. 如何理解这篇论文中的坐标注意力?
在这篇论文中,坐标注意力(Coordinate Attention,CA)是一种注意力机制,它通过对输入特征图进行方向信息的嵌入和通道注意力的计算,来捕捉远程依赖关系并保留位置信息。以下是详细的解释:
坐标注意力的工作原理
-
方向信息嵌入:
- 对输入特征图
f
in
f_{\text{in}}
fin 进行两个一维的平均池化操作
p
h
p_h
ph 和
p
w
p_w
pw,分别嵌入垂直(h 方向)和水平(w 方向)的方向信息:
p h ( f in ) 和 p w ( f in ) p_h(f_{\text{in}}) \quad \text{和} \quad p_w(f_{\text{in}}) ph(fin)和pw(fin)
- 对输入特征图
f
in
f_{\text{in}}
fin 进行两个一维的平均池化操作
p
h
p_h
ph 和
p
w
p_w
pw,分别嵌入垂直(h 方向)和水平(w 方向)的方向信息:
-
通道信息压缩:
- 将嵌入方向信息后的特征进行拼接,然后通过一个卷积层
ConvBS
(
⋅
)
\text{ConvBS}(\cdot)
ConvBS(⋅) 压缩通道信息:
ConvBS ( p h ( f in ) , p w ( f in ) ) \text{ConvBS}(p_h(f_{\text{in}}), p_w(f_{\text{in}})) ConvBS(ph(fin),pw(fin))
- 将嵌入方向信息后的特征进行拼接,然后通过一个卷积层
ConvBS
(
⋅
)
\text{ConvBS}(\cdot)
ConvBS(⋅) 压缩通道信息:
-
生成坐标注意力图:
- 将压缩后的特征沿
h
h
h 和
w
w
w 方向分别输入到坐标注意力层
CA
h
(
⋅
)
\text{CA}_h(\cdot)
CAh(⋅) 和
CA
w
(
⋅
)
\text{CA}_w(\cdot)
CAw(⋅),生成坐标注意力图
F
h
F_h
Fh 和
F
w
F_w
Fw:
F h / w = CA h / w ( ConvBS ( p h ( f in ) , p w ( f in ) ) ) F_{h/w} = \text{CA}_{h/w}(\text{ConvBS}(p_h(f_{\text{in}}), p_w(f_{\text{in}}))) Fh/w=CAh/w(ConvBS(ph(fin),pw(fin)))
- 将压缩后的特征沿
h
h
h 和
w
w
w 方向分别输入到坐标注意力层
CA
h
(
⋅
)
\text{CA}_h(\cdot)
CAh(⋅) 和
CA
w
(
⋅
)
\text{CA}_w(\cdot)
CAw(⋅),生成坐标注意力图
F
h
F_h
Fh 和
F
w
F_w
Fw:
-
通道注意力感知:
- 将这些坐标注意力图与输入特征图
f
in
f_{\text{in}}
fin 相乘,实现通道注意力感知:
F i CA = f in ⊗ F h ⊗ F w F_i^{\text{CA}} = f_{\text{in}} \otimes F_h \otimes F_w FiCA=fin⊗Fh⊗Fw
- 将这些坐标注意力图与输入特征图
f
in
f_{\text{in}}
fin 相乘,实现通道注意力感知:
-
空间注意力感知:
- 最后,通过一个空间注意力层
SA
(
⋅
)
\text{SA}(\cdot)
SA(⋅) 获得空间注意力感知,输出与输入特征
f
in
f_{\text{in}}
fin 相乘,得到最终的注意感知特征
F
i
F_i
Fi:
F i = f in ⊗ SA ( F i CA ) F_i = f_{\text{in}} \otimes \text{SA}(F_i^{\text{CA}}) Fi=fin⊗SA(FiCA)
- 最后,通过一个空间注意力层
SA
(
⋅
)
\text{SA}(\cdot)
SA(⋅) 获得空间注意力感知,输出与输入特征
f
in
f_{\text{in}}
fin 相乘,得到最终的注意感知特征
F
i
F_i
Fi:
这种注意力机制通过将全局方向信息与通道注意力结合起来,使得网络能够更好地捕捉远程依赖关系并保留位置信息,从而提高了对伪装目标的感知和定位能力。
2. 如何理解Guided Refinement Decoder这个名称?
Guided Refinement Decoder(GRD,指导细化解码器)这个名称揭示了该模块的核心功能和设计思想。以下是对这个名称的详细理解:
Guided(指导)
在 GRD 中,指导的概念体现在使用高层特征来引导低层特征的细化。这意味着:
- 高层特征包含更多的全局语义信息,可以提供更为抽象和广泛的上下文。
- 低层特征包含更多的细节信息,但也包含更多的噪声。
- 通过将高层特征引导到低层特征上,可以过滤掉低层特征中的噪声,同时保留更多有用的细节信息,从而提高分割的精度和细致度。
Refinement(细化)
细化的过程是指通过多级的特征融合和卷积操作,逐步提高特征图的分辨率和细节准确性。这包括:
- 使用逐点卷积层(Pointwise Convolutional Layer, PW)和上采样层(Upsampling Layer)对特征图进行尺度转换和融合。
- 通过部分卷积模块(Partial Convolution Modules, PCM)进一步细化上下文信息,增强特征图的表达能力。
- 采用自顶向下的方式(top-down approach)逐步细化特征,从而获得更为精确和清晰的伪装目标预测结果。
Decoder(解码器)
解码器的角色在于:
- 将编码器提取的特征进行解码,逐步恢复原始图像的分辨率。
- 在这个过程中,通过多级特征融合和卷积操作,生成最终的预测结果。
综上所述,Guided Refinement Decoder(指导细化解码器)这一名称准确地反映了该模块的设计思想和功能,即通过高层特征引导低层特征的细化过程,逐步提高特征图的分辨率和细节准确性,从而实现对伪装目标的精确检测和分割。
也就是说,坐标注意力图相当于是注意力权重图,生成坐标注意力图的最终目的是为了对通道注意力进行感知,对吗?
是的,你的理解是正确的。坐标注意力图(Coordinate Attention Maps)的主要目的是为了解决对通道注意力进行感知的问题。以下是详细解释:
坐标注意力的作用
-
注意力权重图:
- 坐标注意力图 F h F_h Fh 和 F w F_w Fw 可以被看作是注意力权重图,它们表示了每个通道在不同方向上的重要性。
- 这些权重图通过在特征图的垂直和水平方向上进行平均池化和卷积操作生成,从而嵌入了方向信息。
-
通道注意力感知:
- 生成坐标注意力图的最终目的是为了对通道注意力进行感知。具体来说,就是将这些注意力权重图与原始输入特征图进行逐元素相乘,从而对输入特征图进行加权。
- 通过这种方式,网络能够更好地捕捉特征图中不同通道的重要性,进而增强对伪装目标的感知能力。
详细步骤
-
方向信息嵌入:
- 对输入特征图进行垂直和水平方向的平均池化操作 p h p_h ph 和 p w p_w pw,生成方向嵌入特征。
- 这些方向嵌入特征捕捉了在垂直和水平方向上的全局信息。
-
通道信息压缩:
- 将嵌入方向信息后的特征进行拼接,并通过一个卷积层 ConvBS \text{ConvBS} ConvBS 压缩通道信息,从而生成方向嵌入的特征图。
-
生成坐标注意力图:
- 将压缩后的特征图分别输入到坐标注意力层 CA h \text{CA}_h CAh 和 CA w \text{CA}_w CAw,生成垂直和水平方向的坐标注意力图 F h F_h Fh 和 F w F_w Fw。
-
通道注意力感知:
- 将这些坐标注意力图与输入特征图
f
in
f_{\text{in}}
fin 逐元素相乘,从而实现通道注意力感知:
F i CA = f in ⊗ F h ⊗ F w F_i^{\text{CA}} = f_{\text{in}} \otimes F_h \otimes F_w FiCA=fin⊗Fh⊗Fw
- 将这些坐标注意力图与输入特征图
f
in
f_{\text{in}}
fin 逐元素相乘,从而实现通道注意力感知:
-
空间注意力感知:
- 最后,通过空间注意力层 SA \text{SA} SA 进一步对特征图进行加权,从而获得最终的注意感知特征 F i F_i Fi。
通过这种方法,网络不仅能够捕捉到特征图中每个通道的重要性(即通道注意力),还能够结合空间信息,实现更加精确的特征表示和目标检测。这对于伪装目标检测任务尤为重要,因为伪装目标往往具有复杂的形状和细节,并且与背景具有高度的相似性。
3. 这张模型结构图中,Guided Refinement Decoder模块,高层特征引导低层进行解码体现在图中的element-wise addtion操作,对吗?
是的,你的理解是正确的。在这张模型结构图中,Guided Refinement Decoder(GRD)模块通过高层特征引导低层特征的解码过程确实体现在图中的element-wise addition(逐元素加法)操作上。下面详细解释这一过程:
Guided Refinement Decoder (GRD) 模块解释
结构图中的关键部分
-
CAP 模块:
- CAP(Cascade Attention Perceptron)模块中的每一个MAM(Mixed Attention-perception Module)负责处理输入的多尺度特征 f i f_i fi,生成注意力感知特征 F i F_i Fi。
-
高层特征引导低层特征:
- 在GRD模块中,注意感知特征 F i F_i Fi 通过逐元素加法操作(图中表示为 ⊕ )进行融合,从而实现高层特征对低层特征的引导。
- 例如,特征
F
1
F_1
F1 和
F
2
F_2
F2 被上采样(UP)后与
F
3
F_3
F3 进行逐元素相加,生成
F
fuse
3
F_{\text{fuse}_3}
Ffuse3,这个过程可以用以下公式表示:
F fuse 3 = F 3 + UP ( PW ( F 2 ) ) + UP ( PW ( F 1 ) ) F_{\text{fuse}_3} = F_3 + \text{UP}(\text{PW}(F_2))+\text{UP}(\text{PW}(F_1)) Ffuse3=F3+UP(PW(F2))+UP(PW(F1))
-
逐级细化:
- 这些融合特征 F fuse i F_{\text{fuse}_i} Ffusei 被输入到部分卷积模块(PCM)中进行进一步的细化。每一级 PCM 模块输出的特征 p i p^i pi 将进一步用于下一级的融合和细化过程。
- 例如:
p 3 = PCM 3 ( F fuse 3 , p 2 ) p^3 = \text{PCM}_3(F_{\text{fuse}_3},p_{2}) p3=PCM3(Ffuse3,p2)
逐元素加法的作用
逐元素加法操作确保了高层特征中的全局语义信息能够有效地引导和增强低层特征中的局部细节,从而提高特征图的表示能力和目标检测的精确度。
-
高层特征引导:
- 高层特征 F i F_i Fi 含有更为抽象和广泛的上下文信息,通过逐元素加法操作,将这些信息传递给低层特征,起到指导作用。
-
细节保留和噪声抑制:
- 低层特征虽然包含更多的细节信息,但也伴随着较多的噪声。通过高层特征的引导,可以有效地过滤掉这些噪声,同时保留有用的细节信息。
综上所述,图中的element-wise addition操作确实体现了Guided Refinement Decoder模块中高层特征引导低层特征进行解码的过程。这种设计使得网络能够更好地融合多尺度信息,从而提高伪装目标检测的精度和鲁棒性。
4. 为什么需要Partial Convolution Module (PCM)?
Partial Convolution Module (PCM) 被引入以进一步细化上下文信息,从而提高伪装目标检测的精度。PCM 的设计目的是为了在减少计算成本的同时,最大限度地保留特征图中的细节信息和上下文信息。
设计目的总结
- 通道调整和初步融合:通过初始的逐点卷积层 PW \text{PW} PW,实现高层和低层特征的通道调整和初步融合。
- 部分卷积策略:通过对特征图进行通道拆分和部分卷积操作,实现计算成本的降低,同时保留重要的上下文信息。
- 多次逐点卷积融合:通过两次逐点卷积操作 PW 1 \text{PW}_1 PW1 和 PW 2 \text{PW}_2 PW2,进一步融合特征并增强特征表示能力。
- 上采样恢复尺寸:最后的上采样操作确保特征图恢复到原始尺寸,以便进行后续的处理。
逐点卷积的作用是?
逐点卷积(Pointwise Convolution)通常是指1x1卷积,它在卷积神经网络中有几个重要作用:
-
通道间的信息整合:逐点卷积通过在每个位置应用1x1的卷积核,将输入特征图的每个通道进行线性组合,从而整合不同通道之间的信息。这对于融合不同特征图的通道信息非常有效。
-
降维和升维:在网络中,逐点卷积可以用于调整特征图的通道数(即特征图的深度)。这对于减少计算量和存储需求(降维)或增加模型容量(升维)非常有用。例如,在深度可分离卷积(Depthwise Separable Convolution)中,逐点卷积通常用于恢复卷积后被降维的特征图通道数。
-
非线性变换:逐点卷积可以看作是一个全连接层在空间维度上的应用,它能够通过线性组合和激活函数的应用引入非线性变换,从而增强模型的表达能力。
-
提高计算效率:在深度可分离卷积中,逐点卷积与深度卷积(Depthwise Convolution)结合使用,可以显著减少参数量和计算复杂度,同时保持模型性能。这种组合被广泛应用于轻量级网络架构中,如MobileNet。