《Feature Shrinkage Pyramid for Camouflaged Object Detection with Transformers》CVPR2023 论文精度

摘要

本文提出了一种名为Feature Shrinkage Pyramid Network (FSPNet)的新型Transformer模型,用于提高伪装物体检测的性能。FSPNet通过非局部令牌增强模块(NL-TEM)和特征收缩解码器(FSD)解决了现有视觉Transformer在局部特征建模和解码器特征聚合方面的不足,通过逐步缩小的方式累积关键的视觉线索,以实现更准确的物体检测

拓展阅读:

伪装物体检测(Camouflaged Object Detection,简称COD)是计算机视觉领域中的一个特殊任务,它涉及到在图像或视频中识别和定位那些与周围环境高度融合、难以用肉眼区分的物体。这些物体可能因为它们的保护色、纹理或者形状与背景相似,从而达到隐蔽的目的,这种现象在自然界中十分常见,比如某些动物为了躲避捕食者或接近猎物而进化出的伪装能力。

图1:COD在不同具有挑战性的场景中的视觉比较,包括小、大、多、遮挡和边界不确定伪装目标。

拟解决的问题

  • 现有基于卷积神经网络(CNN)的方法在捕捉长距离依赖性方面存在局限,导致在伪装物体检测任务上性能不佳。
  • Transformer模型(ViT)能够高效地建模长距离依赖性,但现有技术在局部特征建模和解码器中的特征聚合方面存在不足。

现有的解码器(如图 2 (a)-(d) 所示)通常直接聚合具有显着信息差异的特征(例如,具有丰富细节的低级特征和具有语义的高级特征),这往往丢弃一些不明显但有价值的线索或引入噪声,导致预测不准确。这对于从微弱的线索中识别伪装对象的任务来说是一个很大的缺陷。

图 2. 用于对象分割的不同类型的解码结构。(a) U形解码结构。(b)密集集成策略。(c) 反馈细化策略。(d) 低级和高级特征的单独解码。(e) 论文的解码结构。

创新之处

  1. 非局部令牌增强模块(NL-TEM):通过非局部机制增强变压器的局部表示,探索基于图的高阶关系。
  2. 特征收缩解码器(FSD):设计了一种新的解码器结构,通过层级收缩金字塔结构逐步聚合邻近的Transformer特征。
  3. 相邻交互模块(AIM):在解码器中提出的一种新模块,用于交互和合并当前相邻特征对以及之前AIM输出的聚合特征。

方法

FSPNet 由视觉变压器编码器(Transformer Encoder)、非局部令牌增强模块(NL-TEM)、特征收缩解码器(FSD)组成:

  • 输入图像首先被序列化为令牌,然后输入到变压器编码器中,利用自注意力机制建模全局上下文。
  • NL-TEM 用于增强令牌内部的局部特征表示。
  • FSD 通过层级收缩金字塔结构逐步聚合相邻特征,以解码物体信息。
图3

Transformer编码器 

  • 使用标准的Transformer 结构,包括多头自注意力(MSA)和多层感知器(MLP)块。
  • 图像被分割成不重叠的图像块,然后线性投影到令牌嵌入序列。
  • 为了保持位置信息,向令牌中添加可学习的位置嵌入。

 非局部令牌增强模块

NL-TEM利用非局部机制来加强局部区域内相邻令牌之间的交互,从而增强变压器的局部特征表示。这对于伪装物体检测尤为重要,因为伪装物体与背景之间的微妙差异往往难以通过低阶关系捕捉。

图3 (A)

邻域令牌交互:NL-TEM首先在局部区域内的相邻令牌之间进行交互,以聚合相似的伪装线索。

图卷积网络(GCN):在交互的基础上,使用GCN进一步探索令牌内部不同像素之间的高阶语义关系。这有助于识别和强化那些细微但具有区分性的局部特征。

具体来说,如图 3 (A)所示,给定来自Transformer编码器的两个相邻标记 T_{1}T_{2},它们首先被归一化。以T_{1}为例,分别通过两个线性投影函数(即w_{v}w_{k})得到降维特征序列T_{v}T_{k}(\in R^{l\times \frac{C}{2}}),可以表示为T_{v}=w_{v}\left ( T_{1} \right )T_{k}=w_{k}\left ( T_{1} \right ),其中l=HW/s^{2}是token序列长度。

特征融合:将 T_{1}T_{2} 连接起来以获得一个集成令牌 T_{q} ,它聚合两个令牌的特征,然后用于与各自的输入标记交互以进行特征增强。具体来说,对该令牌执行另一个线性投影函数 w_{q},降维为 c/2,然后采用 softmax 函数生成权重图 T_{q}^{w}。接下来,通过元素乘法对 T_{k} 进行加权,然后使用自适应平均池化操作 (P(·)) 来降低计算成本。上述操作集 F_{1}\left ( \cdot \right ) 可以表示为:

然后,将矩阵乘积应用于 T_{k}T_{q}^{'} 以探索两者之间的相关性,并使用 softmax 操作生成注意力图 T_{a},表示为:

图卷积:将交互令牌 T_{a} 和令牌 T_{v} 馈送到图融合模块 (GFM)。在 GFM 中,T_{v}通过注意力图 T_{a} 投影到图域中,表示为 T_{g}= T_{v} \bigotimes T_{a}^{T}。在这个过程中,具有相似特征的像素(“区域”)集合被投影到一个顶点,并采用单层 GCN 来学习区域之间的高级语义关系并在非局部区域进行推理以捕获标记内的全局表示,通过图上的跨顶点信息传播。具体来说,顶点特征T_{g}被输入到谱图卷积的一阶近似中,我们可以得到输出\widehat{T_{g}}

其中 A 是编码图连通性的邻接矩阵,w_{g} 是 GCN 的权重。 

最后,使用跳过连接将输入令牌 T_{1} 与基于图的增强表示相结合,然后使用反序列化 (D(·)) 操作将令牌序列转换为与原始特征具有相同维度的 2D 图像特征进行解码,如下所示:

 特征收缩解码器

FSD的核心思想是通过逐步缩小(progressive shrinking)的方式来聚合相邻的Transformer特征。这种方法有助于累积难以察觉但有效的细节和语义信息,从而为解码器提供丰富的特征表示,以实现更准确的物体信息解码。

 提出了一个相邻交互模块 (AIM),该模块交互并合并当前相邻特征对和前一个 AIM 输出的聚合特征,并将当前聚合的特征传递给下一层和下一个 AIM,AIM在解码器中起到了相邻特征融合和信息传递(同层和跨层)的桥梁作用。

解码器构建了自底向上和从左到右的特征流,以保留更多有用的特征。该解码器能够平滑地对被伪装的目标线索进行流动和积累,避免了特征差异较大造成的干扰。

具体来说,假设 F_{i} 和 F_{i-1} 是当前层的相邻特征对,F_{p} 是前一个 AIM 的输出聚合特征,AIM 可以表述为:

其中 F_{p} 是传递到下一个 AIM 的特征,F_{i}^{'} 是当前 AIM 对下一层的输出特征。CBR(·)由卷积、批处理归一化和ReLU操作组成。Cat(·) 和 Up(·) 分别是串联和 2 倍上采样操作。 

FSD 总共包含 4 层收缩金字塔和 12 个 AIMS。算法 1 总结了整个 FSD 过程。最后一个 AIM 的输出特征由 sigmoid 之后的Ground Truth (G) 和伪装对象预测的上采样操作监督。我们还使用二元交叉熵损失 (L_{bce}) 监督 FSD 每一层的输出预测 (P_{i}),并为检测精度较低的浅层输出分配较小的权重。最后,整体损失函数为:

其中 i 表示 FSD 的第 i 层,P_{3} 表示输出预测的最后一层。

需要注意的是,所提出的 FSD 不仅采用跨层特征交互,而且采用同一层内的特征交互,以更好地流动并在金字塔结构中积累有效特征,从而最大限度地减少解码器过程中细微但关键特征的损失。此外,我们对每一层应用横向监督,迫使每个解码器层挖掘和聚合有效的伪装对象特征。此外,为了缓解解码器结构,所提出的解码器仅集成相邻特征而不重叠,从而减少聚合操作。 

结果

定量比较。总结了我们提出的方法在六个评估指标下在三个具有挑战性的 COD 基准数据集上针对 24 个竞争对手提出的方法的定量结果。可以看出,专门设计的COD方法通常优于SOD模型。此外,我们提出的方法在这些数据集上始终优于所有其他模型。

在三个基准数据集上与 24 种 SOTA 方法进行定量比较。注↑ / ↓ 分别表示较大/越小越好。“-”不可用。最佳和次佳分别用粗体和下划线突出显示。

视觉比较。显示了我们提出的方法在几个典型场景中与一些具有代表性的竞争对手的视觉比较,包括小、大、多、遮挡的对象和不确定边界。可以看出,比较方法容易提供不准确的目标定位、不完整的目标区域或缺失的物体,导致伪装对象的分割较差。我们提出的方法在更准确和完整的预测方面表现出卓越的视觉性能。实验也证明了所提出的方法对不同具有挑战性的场景的鲁棒性。

在具有挑战性的场景中与一些具有代表性的SOTA模型的视觉比较。

结论

FSPNet在多个具有挑战性的伪装物体检测基准数据集上展示了其优越性,显著超越了24种现有最先进方法。通过引入NL-TEM和FSD,该模型有效地增强了局部特征表示并优化了特征聚合过程,从而实现了准确和完整的伪装物体分割。论文的实验结果证明了FSPNet在检测小尺寸、大尺寸、多重、遮挡以及边界不确定的伪装物体方面具有强大的性能。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值