SCTransNet

whaosoft143

已于 2024-02-08 23:02:49 修改

阅读量516

点赞数 10

分类专栏：人工智能文章标签：人工智能

于 2024-02-08 22:55:59 首次发布

本文链接：https://blog.csdn.net/qq_29788741/article/details/136083465

版权

人工智能专栏收录该内容

2477 篇文章 100 订阅

订阅专栏

本文提出了SCTransNet，它利用多个空间通道交叉Transformer块（SCTB）连接所有编码器和解码器，以预测在网络更深层中目标及其背景的上下文。

红外小目标检测（IRSTD）最近从U形神经模型中获益良多。然而，现有的技术在目标与背景高度相似的情况下，很大程度上忽视了有效的全局信息建模。作者提出了一个空间通道交叉Transformer网络（SCTransNet），它利用空间通道交叉Transformer块（SCTBs）在远程跳跃连接之上，以解决上述挑战。在所提出的SCTBs中，所有编码器的输出与交叉 Transformer 互动生成混合特征，这些特征重新分配给所有解码器，以在完整尺度上有效加强目标与杂波之间的语义差异。具体而言，SCTB包含以下两个关键元素：

空间嵌入的单头通道交叉注意力（SSCA），用于交换局部空间特征和全级全局通道信息，以消除编码器之间的歧义，促进图像的高级语义关联；
一个互补的前馈网络（CFN），通过多尺度策略和跨空间通道信息交互，增强特征的判别性，促进有益信息传递。

SCTransNet有效地编码了目标与背景之间的语义差异，从而提升了其内部表征，以准确检测小红外目标。在三个公开数据集NUDT-SIRST、NUAA-SIRST和IRSTD-1k上的大量实验表明，所提出的SCTransNet优于现有的IRSTD方法。代码：https://github.com/xdFai

1 Introduction

红外小目标检测（IRSTD）在交通监控，海上救援，以及目标预警中发挥着重要作用，在这些领域需要将复杂场景背景中的小目标分离出来。由于场景动态性质所带来的挑战，单帧IRSTD已经引起了相当多的研究关注。这个方向上的早期方法采用了图像滤波，人类视觉系统（HVS），以及低秩近似技术，同时依赖于复杂的手工特征设计，经验观察，和模型参数的微调。然而，由于缺乏对整个场景的可靠的高级理解，这些方法表现出较差的鲁棒性。

近期，基于学习的方法因其强大的数据驱动特征挖掘能力而变得更为流行。为了捕捉目标的轮廓并减轻因目标尺寸小而导致的性能下降，这些方法将IRSTD问题视为语义分割任务，而不是传统的目标检测问题。与自动驾驶中的通用目标分割不同，远程感知应用中红外检测系统的成像机制导致图像中的小目标表现出以下特点：

1) 暗淡且小： 由于远程成像，红外目标尺寸小，通常表现出低信杂比，容易沉浸在重噪声和背景杂波中。
2) 无特征： 热成像目标缺乏颜色和纹理信息，不精确的相机对焦可能导致目标模糊。这些因素在设计IRSTD的特征提取技术时提出了特殊挑战。
3) 不确定的形状： 红外目标的尺度和形状在不同场景下变化显著，这使得检测问题变得相当具有挑战性。

为了在复杂背景下识别小型红外目标，已经提出了许多基于学习的方法，其中神经网络的U形结构受到了广泛关注。这些网络包括编码器、解码器和长距离跳跃连接。非对称上下文调制（ACM）网络最初证明了跨层特征融合在保留红外目标特征方面的有效性。这是通过使用非对称的自上而下和自下而上的结构双向聚合高层语义信息和低层细节来实现的。

随后，特征融合策略在红外目标检测任务中被广泛采用。一些最近的方法通过改进跳跃连接，促进有益特征向解码器组件的传递。受到嵌套结构的启发，DNA-Net开发了一个密集嵌套的交互模块，以促进高低 Level 特征之间的逐步互动并自适应地增强特征。此外，还有一些方法专注于开发更有效的编码器和解码器。例如，UIU-Net将较小的U-Net嵌入到U-Net中，以学习目标的局部对比信息，并执行交互式跨注意力（IC-A）进行特征融合。

尽管上述基于卷积神经网络（CNN）的方法取得了满意的结果，但它们缺乏对目标综合属性的编码能力，遗漏了其判别性特征。为了解决这一问题，MTU-Net 采用了一种多级的视觉 Transformer （ViT）-CNN混合编码器，以利用所有编码特征之间的空间相关性来进行上下文信息的聚合。然而，一个简单的空间ViT-CNN混合模块不足以理解图像的全局语义，这会导致高误报率。

为了进一步剖析这个问题，作者在图1（c）-（f）中分别展示了ACM，DNA-Net，UIU-Net和MTU-Net的框架，以及不同解码器 Level 的注意力图的可视化。作者观察到，当现有模型将其注意力集中在高层特征中背景杂波的局部区域时，会发生误报。换句话说，误报通常是由更深层次背景的不连续性建模造成的。作者将这个问题归因于以下三个主要原因：

1) 不同特征层级之间的语义交互并未良好建立。由于红外小目标尺寸较小，其展现的特征有限。多次下采样过程不可避免地导致空间信息的丢失。这极大地影响了网络中层级与层级之间的特征交互，最终导致对全局语义信息的编码能力不足。

2) 特征增强未能弥合编码器和解码器之间的信息差距。编码器的输出特征与解码器的输入特征之间存在语义差距。简单的跳跃连接和密集嵌套模块不足以增强特征对解码器的有利响应，因此使得从红外图像到分割空间的映射关系建立变得具有挑战性。

3) 在更深层次中目标与背景的长距离上下文感知不准确。红外小目标可能与场景背景高度相似。一个强大的检测器不仅要感知到目标的局部显著性，还需要对背景的连续性进行建模。卷积神经网络（CNNs）和普通的ViTs在这方面并不完全具备所需的能力。

为了解决上述问题，作者提出了一个空间通道交叉变换网络（SCTransNet）用于红外小目标检测（IRSTD），旨在在更深层次区分小目标和背景干扰。如图1(g)所示，SCTransNet在原始跳跃连接上增加了多个空间通道交叉变换块（SCTB）（第III-B节），与所有编码器和解码器建立显式关联。具体来说，SCTB由两个组件组成：空间嵌入的单头通道交叉注意力（SSCA）（第III-B1节）和互补的前馈网络（CFN）（第III-B2节）。

SSCA在所有 Level 上应用通道交叉注意从特征维度学习全局信息。此外，在特征协方差计算之前，使用深度卷积进行局部空间上下文混合。这一策略提供了两个优点：

首先，它利用卷积的局部连接性以较小的计算开销突出了局部空间上下文，从而增加了红外小目标的显著性。
其次，它确保在注意矩阵计算过程中隐式捕获全 Level 特征像素之间的上下文化全局关系，从而增强背景的连续性。

在SSCA完成跨层级信息交互之后，CFN通过两个互补的阶段在每一层级上进行特征增强。起初，它使用多尺度深度卷积来增强目标邻域空间响应，并在像素 Level 上汇总跨通道的非线性信息。随后，它通过全局平均池化逐通道估计总的空间信息，并将不同语义模式之间的局部跨通道交互作为注意力图创建。上述策略有两个优点：

多尺度空间建模可以强调目标与背景之间的语义差异。
建立局部空间全局通道（LSGC）与全局空间局部通道（GSLC）的互补相关性，可以促进红外图像与语义图之间的接口。

得益于上述结构（图1(g)），SSC-TransNet比其他方法能更好地感知图像语义，从而减少误报。主要贡献如下：

作者提出了SCTransNet，它利用多个空间通道交叉Transformer块（SCTB）连接所有编码器和解码器，以预测在网络更深层中目标及其背景的上下文。
作者提出了一个空间嵌入式单头通道交叉注意力（SSCA）模块，以促进所有特征 Level 之间的语义互动并学习图像的长距离上下文相关性。
作者设计了一种新颖的互补前馈网络（CFN），通过交叉空间-通道信息来增强目标和背景之间的语义差异，弥合编码器和解码器之间的语义差距。

2 Method

这一部分详细阐述了所提出的空间通道交叉变换网络（SCTransNet）用于红外小目标检测。作者在III-A节中首先介绍所提出的SCTransNet的整体结构。随后，在III-B节中，作者详细阐述空间通道交叉变换块（SCTB）的技术细节及其内部结构：空间嵌入的单头通道交叉注意力（SSCA）和互补的前馈网络（CFN）。

Overall pipeline

最后，采用通道域交叉注意力（Channel-wise Cross Attention, CCA）来融合高低层次的特征，随后使用两个CBL块进行解码。

Spatial-channel Cross Transformer Block

近期，像MLP-mixer 和 Poolformer 这样成功的架构都考虑到了在构建上下文信息时空间和通道信息之间的交互。然而，传统的CCT过度关注建立通道信息，而忽略了空间信息在邻近建模中的关键作用。

Iii-B1 Spatial-embedded single-head channel-cross attention

在图3(a)中，考虑到执行层归一化（LN）的五个输入标记和，自监督空间通道注意（SSCA）的启动点是计算单层特征与全层拼接特征之间的局部空间通道相似性，以建立全局语义。

值得注意的是，作者在两个方面与常见的通道交叉注意力机制不同：图像块不包含位置编码，并且作者使用单个头学习注意力矩阵。这些策略将在消融研究 IV-E1 中详细比较其有效性。

Iii-B2 Complementary Feed-forward Network

如图4(a)所示，先前的研究总是将单一尺度的深度可分卷积纳入标准的前馈网络中，以增强局部关注。最近，最先进的多尺度特征网络（MSFN）采用不同核大小的深度可分卷积的两条路径，以增强多尺度表示。然而，上述方法局限于特征表示的局部空间全局通道范式。

实际上，全局空间和局部通道信息（图4(b)）同样重要。因此，作者设计了一个复合特征网络（CFN），它结合了两种特征表示的优势。

IV Experiments and Analysis

Evaluation metrics

作者使用几个标准指标将提出的SCTransNet与现有最先进（SOTA）方法进行了比较。

交并比（IoU）: IoU是一个像素 Level 的评估指标，定义为：

Experiment settings

数据集： 在实验中，作者使用了三个公共数据集，分别为：NUAA-SIRST，NUDT-SIRST，以及IRSTD-1k，这些数据集分别包含427、1327和1000张图像。作者采用了[22]中的方法来划分NUAA-SIRST和NUDT-SIRST的训练集和测试集，以及[34]中的方法来分割IRSTD-1k。因此，所有的划分都是标准的。

实现细节： 作者采用结合了ResNet-10的U-Net作为检测的主干网络。Patch 嵌入的核大小和步幅大小为16，SCTB的数量为4，在CFN中的通道扩展因子为2.66。SCTransNet在训练时没有使用任何预训练权重，每张图像都经过归一化处理，并随机裁剪成256256的 Patch 。

为了避免过拟合，作者通过随机翻转和旋转来增强训练数据。模型使用Adam优化器进行训练，初始学习率为0.001，并采用余弦退火策略逐渐将学习率降至。批量大小和周期大小分别设置为16和1000。所提出的SCTransNet是在单个Nvidia GeForce 3090 GPU、Intel Core i7-12700KF CPU和32 GB内存上使用PyTorch实现的。训练过程大约耗时24小时。

Baseline 方法： 为了评估SCTransNet的表现，作者将SCTransNet与现有的SOTA IRSTD方法进行了比较。具体来说，作者在NUAA-SIRST、NUDT-SIRST和IRSTD-1k数据集上，将其与六种已确立的传统方法（Top-Hat，Max-Median，WSLCM，TLLCM，IPI，MSLSTIPT）以及七种基于学习的方法（ACM，ALCNet ，RDIAN，DNA-Net，ISTDU，UIU-Net，和MTU-Net）进行了比较。

为了保证公平的对比，作者使用与SCTransNet相同的训练数据集重新训练了所有基于学习的方法，并根据原始论文采用了它们设定的固定阈值。

这些技术的大多数开源实现可以在以下链接找到：https://github.com/XinyiYing/BasicIRSTD 和 https://github.com/xdFai。

Quantitative Results

定量结果展示在表1中。总的来说，基于学习的方法在目标检测准确性和目标轮廓预测方面显著优于传统算法。同时，SCTransNet也优于所有其他算法。在IoU、nIoU和F-measure这三个指标上，SCTransNet在所有三个公开数据集上都明显领先。这表明SCTransNet具有很强的保留目标轮廓的能力，并且能够区分目标与背景之间的像素级信息差异。

作者还注意到，尽管SCTransNet没有获得最佳的和，例如，在NUDT-SIRST中，DNA-Net的只比SCTransNet高0.2，然而作者的目标检测误报率却是DNA-Net的一半以上。这证明SCTransNet在误报和检测精度之间取得了优越的平衡，这一点从显著高的综合指标F-measure可以体现出来。接下来，作者全面地将当前算法与最具有竞争力的深度学习方法，DNA-Net和UIU-Net进行了比较。

表2给出了不同算法在三个数据上的平均指标，作者可以观察到，在最高性能下，SCTransNet拥有可接受的参数，并且优于强大的UIU-Net。

图5展示了各种基于竞争学习算法的ROC曲线。很明显，SCTransNet的ROC曲线优于所有其他算法。例如，通过适当地选择一个分割阈值，SCTransNet在NUAA-SIRST和NUDT-SIRST数据集上实现了最高的检测准确率，同时保持了最低的误报率。

Visual Results

七个代表性算法在NUAA-SIRST、NUDT-SIRST和IRSTD-1k数据集上的定性结果在图6和图7中给出。其中，传统的算法如Top-Hat和TTLCM常常产生大量的误报警和漏检。此外，即使在目标被检测到的情况下，其轮廓也常常不清晰，这阻碍了对目标类型的进一步准确识别。

在学习型算法中，SCTransNet实现了精确的目标检测和有效的轮廓分割。如图6(2)所示，SCTransNet成功地区分了两个位置相近的目标，而其他深度学习方法往往将它们合并为一个目标。这表明SCTransNet准确地区分了图像中的每个元素。

在图6(d)中，只有SCTransNet准确地从山脉中分离出无人机的形状。这是因为SCTransNet不仅学习了目标的特征，还构建了关于背景的高级语义信息，从而准确地捕捉到了背景的整体连续性。在图6(f)中，除了当前方法和DNA-Net外，其余方法在草地上的石头上产生了误报警。这可以归因于它们仅构建局部对比度信息，并且没有在图像上建立远距离依赖的限制。

E. Ablation Study

在这一部分，作者逐步将深度监督（DS）、SSCA、CFN和CCA模块整合到 Baseline UNet-Res10中，以验证上述模块对于红外小目标检测的有效性。结果展示在表4中。作者观察到，随着所提及模块的加入，算法性能持续提升。特别是SSCA模块显著提高了算法的IoU、IoU和F-measure值，分别提升了4.66%、4.93%和2.87%。这有效地证明了目标全层次信息建模的有效性。接下来，作者将深入讨论所提出的SSCA和CFN模块，并将采用的CCA模块与其他在IRSTD中实现的特征融合方法进行比较。

V-B1 Impact of SSCA Block

为了证明所提出的选择性通道变换块（SCTB）的有效性，作者展示了多头交叉注意力（MCA）以及三种网络结构变体：带有位置编码的SSCA（_SSCA w PE_）、带有多头的SSCA（_SSCA w MH_）以及不带空间嵌入的SSCA（_SSCA w/o SE_）。

SSCA w PE：在块嵌入阶段，作者引入位置编码。为了适应不同大小的测试图像，作者采用插值方法来缩放位置编码矩阵，确保算法的正常运作。

SSCA w MH：作者使用典型的多头交叉注意力机制来替代SSCA中的单头交叉注意力机制，以验证单头策略在提取红外小目标有限特征方面的有效性。

无SE的SSCA：为了验证局部空间信息编码的有效性，作者在SCTB中移除了在QKV矩阵生成过程中的深度卷积。

如表5所示，SSCA在三个数据集上的IoU、IoU和F-measure值均高于MCA和变体_SSCA w PE_。这表明SCTransNet可以通过全面的信息交互比MCA更好地感知小目标和复杂背景之间的信息差异。这也说明，绝对位置编码不适合IRSTD任务。这是由于在可变大小图像输入中位置嵌入矩阵的缩放，导致小目标位置编码信息不准确，从而影响目标像素的预测。

与SSCA相比，_SSCA w MH_ 在SIRST-1K数据集上的IoU、IoU和F-measure值分别下降了1.15%、1.52%和0.73%。这是因为多 Head 策略复杂化了红外小目标特征映射空间，这对于从特征有限的目标中提取信息相当不利。因此，在SCTransNet中，作者为IRSTD使用了单 Head 注意力。

比较SSCA及其变体_SSCA w/o SE_，作者发现局部空间嵌入可以显著提高在三个公共数据集上红外小目标检测的性能。图8中展示的可视化图进一步说明了这种策略的有效性。这归功于局部空间嵌入在深层中捕捉目标的具体细节和背景潜在空间相关性的能力。因此，这种方法减少了漏检的情况，并提高了检测过程的置信度。

V-B2 Impact of CFN Block

前馈网络（FFNs）被用于加强特征内的信息相关性并引入非线性激化以丰富特征表示。在本节中，作者基于SCTransNet使用了五种不同的FFN模型来与所提出的CFNs进行比较。如图9所示，作者使用了典型的FFN（用于图像分类的ViT），在局部空间内嵌入的LeFF（用于图像恢复的Uformer），基于门控卷积的GDFN（用于图像恢复的Restormer），基于多尺度深度卷积的MSFN（用于图像去雨的Sparse transformer），以及不带全局空间和局部通道模块的变体CFN（_CFN w/o GSLC_）。

如表6所示，LeFF在指标上略优于FFN，这表明在前馈神经网络中采用的局部空间信息聚合对于红外小目标检测（IRSTD）是有效的。因为门控卷积倾向于将红外小目标视为噪声并将其滤除，这就导致了GDFN的检测准确性较低。作者还发现，除了CFN方法之外，MSFN优于所有方法，这证明了多尺度结构在交互空间信息方面比单尺度结构具有更强的能力。最后，作者观察到变体_CFN w/o GSLC_的性能不如MSFN。

然而，当作者引入GSLC模块时，CFN在NUAA和NUDT数据集上达到了IoU和nIoU的最优值。此外，网络的参数和计算复杂性几乎保持不变，这证明了本文提出的互补机制对于IRSTD任务的有效性和实用性。如图10所示，在互补机制的帮助下，网络能更有效地增强红外小目标，并在建筑和丛林背景中抑制杂波，从而提高了目标检测的准确性。

V-D3 Impact of CCA Block

正如第二节A部分提到的，跨层特征融合可以促进增强目标信息的保持。在本节中，作者利用三种来自不同IRSTD方法的跨层特征融合结构，即ACM、AGPC和AFFPN，来替换SCTransNet中使用的CCA模块。这种替换产生了变体结构，分别为C.ACM、C.AGPC和C.AFFPN。如表7所示，结果表明，SCTransNet在NUAA和NUDT数据集上获得了最高的IoU和nIoU值，同时具有最低的模型参数和计算复杂度。这展示了作者所使用的CCA的有效性。 whaosoft aiot http://143ai.com

Robustness of SCTransNet

在实际的红外检测系统中，焦平面阵列（FPN）的非均匀响应可能导致红外图像中的条纹噪声。这对红外STD方法的噪声免疫性和泛化能力提出了挑战。图11显示了带有真实条纹噪声的红外图像在各种检测方法下的视觉效果。很明显，噪声破坏了目标局部邻域信息。

在图11(1)中，只有SCTransNet准确检测到两个目标，而其他方法出现漏检和误报。在图11(2)中，条纹图像中还存在着一块盲元，这干扰了对建筑物语义的理解。因此，ACM、RDIAN和MTU-Net在盲元周围产生了误报。能够明确建立关于目标和背景的完整层次上下文信息，正是SCTransNet更为鲁棒的原因所在。

V Conclusion

在本文中，作者提出了一种用于红外小目标检测的空域-通道交叉Transformer网络（SCTransNet）。SCTransNet利用空域-通道交叉Transformer块建立编码器和解码器特征之间的关联，以预测更深网络层中目标和背景的上下文差异。作者引入了一种空间嵌入的单头通道交叉注意力模块，它通过局部空间特征与全局全层次通道信息的交互，建立目标和背景之间的语义相关性。作者还设计了一个互补的前馈网络，该网络采用多尺度策略并交叉空域-通道信息，以增强目标和背景之间的特征差异，从而有效促进将红外图像映射到分割空间。作者对三种公共数据集上方法的全面评估显示了所提技术有效性和优越性。

whaosoft143

关注

10
点赞
踩
9

收藏

觉得还不错? 一键收藏
1
评论
SCTransNet

具体来说，作者在NUAA-SIRST、NUDT-SIRST和IRSTD-1k数据集上，将其与六种已确立的传统方法（Top-Hat，Max-Median，WSLCM，TLLCM，IPI，MSLSTIPT）以及七种基于学习的方法（ACM，ALCNet ，RDIAN，DNA-Net，ISTDU，UIU-Net，和MTU-Net）进行了比较。为了进一步剖析这个问题，作者在图1（c）-（f）中分别展示了ACM，DNA-Net，UIU-Net和MTU-Net的框架，以及不同解码器 Level 的注意力图的可视化。
复制链接

扫一扫