FSPNet阅读笔记-CSDN博客

本文链接：https://blog.csdn.net/Zen_of_code/article/details/130378927

FSPNet是一种基于Transformer的特征收缩金字塔网络，用于伪装目标检测。它通过非局部token增强模块(NL-TEM)强化局部特征，并使用特征收缩解码器(FSD)来层次性地融合和积累特征，提高伪装目标检测的准确性。NL-TEM利用非局部机制和图卷积网络增强局部表示，而FSD通过逐层收缩来优化特征聚合，避免信息丢失。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

前言

目前，一些工作已尝试使用Transformer解决伪装目标检测问题，并且性能良好。这些方法要么采用Transformer作为特征解码的网络组件，要么利用现成的vision Transformer作为特征编码器的backbone。通过对这些方法的深入分析，作者发现现有技术存在两个主要问题：

Transformer backbone的局部特征建模效果较差。全局语义和局部特征在伪装目标检测任务中都起着至关重要的作用。然而，大多数基于Transformer的方法缺乏局部区域内信息交换的局部性机制。
特征聚合在解码器中的局限性。现有的解码器（图a-d）往往直接融合具有显著信息差异的特征（例如，具有丰富细节的低级特征和具有语义的高级特征），这往往会丢弃一些不明显但是有价值的线索，或者引入噪声，导致预测不准确。这对从微弱线索中识别伪装目标的任务来说是一个巨大打击。

在这里插入图片描述

为解决上述两个问题，作者提出了一种基于Transformer的特征收缩金字塔网络FSPNet。通过逐步缩小来获取伪装目标的局部性增强的全局表示，来达到分层解码相邻的transformer特征的目的，从而在编码器和解码器中挖掘和积累丰富的伪装目标局部线索和全局语义，实现准确、完整的伪装目标分割。

具体地说，为了补充Transformer编码器中的局部特征建模，作者提出了一个非局部token增强模块（NL-TEM），该模块利用非本地机制来交互相邻的相似token，并探索token内基于图的高层关系来增强局部表示。

此外，作者还设计了一个具有相邻交互模块（AIMs）的特征收缩编码器（FSD），通过一个逐层收缩金字塔结构将相邻的Transformer特征成对地聚集起来，以尽可能多地积累微小但有效的细节和语义。

总结贡献如下：

提出非局部token增强模块（NL-TEM），用于token之间和token内部的特征交互和探索，以补偿Transformer的局部建模。
利用相邻交互模块（AIM）设计了一种特征收缩解码器（FSD），通过逐步收缩来更好的聚合相邻Transformer特征之间的伪装目标线索，实现伪装目标检测
实现了优越的性能

1. 模型的特点

模型整体结构如下所示。

在这里插入图片描述

2. Transformer 编码器

a）序列化

受Swin-Transformer的启发，给定图像 $\in \mathbb R^{C \times H \times W}$ ，首先将其分割成一系列不重叠的图像patch，patch大小为（s,s），其中C、H、W分别表示图片的通道数、高度和宽度，且实验中s=16。

然后将图像patch投影成patch embedding的一维序列 $T^0 \in \mathbb R^{l \times d}$ ，其中 $l=\frac{HW}{s^2}$ 为序列长度， $d=s^2 \cdot C$ 是embedding维数。

b）Transformer层

为了保留位置信息，将可学习的位置embedding $E^p$ 添加到token中，形成新的token， $T^p=T^0+E^p$ 。然后将所有token输入到具有n个transformer 层的transformer编码器中，其中每层包含一个多头自注意力（MSA）和一个多层感知机（MLP）。数学表示如下：

$T=MLP(MSA(T^p))$

其中， $\in \mathbb R^{l \times c}$ ，c是token的维度数。

注意，在每个block之前使用了层归一化，在每个block之后使用了残差连接。从而从编码器中获得输出token。

3. 非局部token增强模块（NL-TEM）

受论文Non-local Neural Networks（非局部神经网络）的启发，设计了一个非局部token增强模块（NL-TEM），使用相邻token（局部区域）来增强局部特征表示。

首先采用非局部操作对相邻相似token进行交互，聚合相邻伪装线索。然后采用图卷积网络（GCN）运算来探索标记内不同像素之间的告诫语义关系，以发现细微的判别特征。

如下图所示。具体来说，给定来自Transformer编码器的两个相邻token $T_1$ 和 $T_2$ ，首先将它们归一化。以 $T_1$ 为例，分别通过两个线性投影函数（ $w_v$ 和 $w_k$ ）来得到特征序列 $T_v$ 和 $T_k$ （ $\in \mathbb R^{l \times \frac{c}{2}}$ ），分别表示为 $T_v=w_v(T_1)$ 和 $T_k=w_k(T_1)$ 。

在这里插入图片描述

此外，将 $T_1$ 和 $T_2$ 拼接起来，得到一个集成的令牌 $T_q$ ，它聚集了两个令牌的特征，然后利用它于各自的输入令牌交互以增强特征。具体来说，在这个token上执行另一个线性投影函数 $w_q$ ，来降维 $\frac{c}{2}$ 。然后使用softmax函数生成一个权重映射 $T_q^w$ 。接下来，使用映射通过元素乘法对 $T_k$ 进行加权，然后进行自适应平均池化操作（P( $\cdot$ )）以减少计算成本。上述操作 $F_1(\cdot)$ 可以表示为：

$T'_q=F_1(T_k,T_q)=P(T_k \odot softmax(w_q(T_q)))$

然后，对 $T_k$ 和 $T'_q$ 进行矩阵乘法来探索二者之间的相关性，并使用softmax运算生成注意力图 $T_a$ ，记为 $T_a=softmax(T'_q \otimes T_k^{\top})$ 。

类似于论文Edge-aware Graph Representation Learning and Reasoning for Face Parsing中的做法。将交互token $T_a$ 和token $T_v$ 送入图像融合模块（GFM）中。在GFM中， $T_v$ 通过注意力图 $T_a$ 被投影到图域，表示为 $T_g=T_v \otimes T_a^{\top}$ 。