这篇文章提出了一种名为HCF-Net的深度学习模型,用于解决红外小目标检测中的两个主要挑战:小目标丢失和复杂背景干扰。HCF-Net基于U-Net架构,引入了三个关键模块:
-
并行化块感知注意力模块(PPA):通过多分支特征提取策略捕获不同尺度和层次的特征信息,避免小目标在下采样过程中丢失关键信息。
-
维度感知选择性集成模块(DASI):自适应地选择和融合高维和低维特征,增强小目标的显著性。
-
多扩张通道细化模块(MDCR):通过多个具有不同扩张率的深度可分离卷积层,捕获不同感受野范围的空间特征,增强目标与背景的区分能力。
实验结果表明,HCF-Net在SIRST红外单帧图像数据集上表现优异,显著优于其他传统和深度学习方法。该模型在红外小目标检测领域具有重要的应用前景。这里是自己的论文阅读记录,感兴趣的话可以参考一下,如果需要阅读原文的话可以看这里,如下所示:
官方项目地址在这里,如下所示:
I 引言
红外小目标检测是一项关键技术,用于在红外图像中识别和检测微小目标。由于红外传感器能够捕获物体发出的红外辐射,该技术能够在黑暗或低光环境下精确检测和识别小目标。因此,它在军事、安全、海上救援和火灾监测等多个领域具有重要的应用前景和价值。
然而,红外小目标检测仍然面临以下挑战。首先,深度学习目前是红外小目标检测的主要方法。然而,几乎所有现有网络都采用经典的下采样方案。由于红外小目标尺寸小,通常伴随着弱热信号和不清晰的轮廓,多次下采样过程中存在信息丢失的风险。其次,与可见光图像相比,红外图像缺乏物理信息且对比度较低,使得小目标容易淹没在复杂背景中。
为了应对这些挑战,我们提出了一种名为HCF-Net的红外小目标检测模型。该模型旨在更精确地描绘目标形状和边界,通过将红外小目标检测视为语义分割问题,提高目标定位和分割的准确性。如图1所示,它结合了三个关键模块:PPA、DASI和MDCR,这些模块在多个层次上解决了上述挑战。
具体来说,作为编码器-解码器的主要组成部分,PPA采用层次特征融合和注意力机制来保持和增强小目标的表示,确保在多次下采样步骤中保留关键信息。DASI增强了U-Net中的跳跃连接,专注于高维和低维特征的自适应选择和精细融合,以增强小目标的显著性。MDCR位于网络深处,加强了多尺度特征提取和通道信息表示,捕获了各种感受野范围的特征。它更精细地建模了目标与背景之间的差异,增强了定位小目标的能力。这些模块的有机结合使我们能够更有效地应对小目标检测的挑战,提高了检测性能和鲁棒性。
总之,我们在本文中的贡献可以总结如下:
-
我们将红外小目标检测建模为语义分割问题,并提出了HCF-Net,一种可以从头开始训练的层次上下文融合网络。
-
提出了三个实用模块:并行化块感知注意力(PPA)模块、维度感知选择性集成(DASI)模块和多扩张通道细化(MDCR)模块。这些模块有效缓解了红外小目标检测中的小目标丢失和背景区分度低的问题。
-
我们在公开的单帧红外图像数据集SIRST上评估了所提出的HCF-Net的检测性能,并展示了其相对于几种最先进检测方法的显著优势。
II 相关工作
传统方法
在红外小目标检测的早期阶段,主要方法是基于模型的传统方法,通常分为基于滤波器的方法、基于人类视觉系统的方法和低秩方法。基于滤波器的方法通常局限于特定和均匀的场景。例如,TopHat [1] 使用各种滤波器估计场景背景,以从复杂背景中分离目标。基于人类视觉系统的方法适用于具有大目标和强背景区分度的场景,例如LCM [2],它测量中心点与其周围环境的对比度。低秩方法适用于快速变化和复杂背景,但在实际应用中缺乏实时性能,通常需要额外的辅助,如GPU加速。这些方法的例子包括IPI [3],它通过低秩分解将低秩背景与稀疏形状的目标结合,PSTNN [4] 使用基于张量核范数的非凸方法,RIPT [5] 专注于加权红外块张量,以及NIPPS [6],一种尝试结合低秩和先验约束的高级优化方法。尽管在特定场景中有效,传统方法容易受到杂波和噪声的干扰。在复杂的现实场景中,目标建模受到模型超参数的显著影响,导致泛化性能较差。
深度学习方法
近年来,随着神经网络的快速发展,深度学习方法显著推进了红外小目标检测任务。深度学习方法 [7, 8, 9, 10, 11, 12, 13, 14] 在不依赖特定场景或设备的情况下,表现出比传统方法更高的识别精度,展示了更强的鲁棒性和显著降低的成本,逐渐在该领域占据主导地位。Wang等人 [15] 使用ImageNet大规模视觉识别挑战(ILSVRC)数据训练的模型完成了红外小目标检测任务。Liangkui等人 [16] 结合过采样生成的数据,提出了一种用于小目标检测的多层网络。Zhao等人 [17] 开发了一种结合红外小目标语义约束信息的编码器-解码器检测方法(TBC-Net)。Wang等人 [18] 使用生成器和判别器来解决两个不同的任务:漏检和误报,实现了这些方面的平衡。Nasser等人 [19] 提出了一种用于自动目标识别(ATR)的深度卷积神经网络模型。Zhang等人提出了AGPCNet [20],引入了注意力引导的上下文模块。Dai等人引入了非对称上下文调制ACM [21],并引入了第一个真实世界的红外小目标数据集SIRST。Wu等人 [22] 提出了一个“U-Net中的U-Net”框架,以实现目标的多层次表示学习。
III 方法
在本节中,我们将详细讨论HCF-Net。如图1所示,HCF-Net是一种升级的U-Net架构,包含三个关键模块:PPA、DASI和MDCR。这些模块使我们的网络更适合检测红外小目标,并有效应对小目标丢失和背景区分度低的挑战。接下来,我们将在第III-A节简要介绍PPA,然后在第III-B节概述DASI,最后在第III-C节介绍MDCR。
并行化块感知注意力模块
在红外小目标检测任务中,小目标在多次下采样操作中容易丢失关键信息。如图1所示,PPA替代了编码器和解码器基本组件中的传统卷积操作,以更好地应对这一挑战。
III-A1 多分支特征提取
III-A2 特征融合和注意力
维度感知选择性集成模块
在红外小目标检测的多次下采样阶段,高维特征可能会丢失小目标的信息,而低维特征可能无法提供足够的上下文。为了解决这个问题,我们提出了一种新颖的通道分区选择机制(如图3所示),使DASI能够根据目标的大小和特征自适应地选择适当的特征进行融合。具体来说,DASI首先通过卷积和插值等操作将高维特
多扩张通道细化模块
在MDCR中,我们引入了多个具有不同扩张率的深度可分离卷积层,以捕获各种感受野范围的空间特征,从而更精细地建模目标与背景之间的差异,增强其区分小目标的能力。
损失设计
如图1所示,我们采用了深度监督策略,以进一步解决小目标在下采样过程中丢失的问题。每个尺度的损失包括二元交叉熵损失和交并比损失,定义如下:
IV 实验
数据集和评估指标
我们的方法使用SIRST [21] 在两个标准指标上进行评估:交并比(IoU)和归一化交并比(nIoU)[21]。在我们的实验中,SIRST被划分为训练集和测试集,比例为8:2。
实现细节
我们在NVIDIA GeForce GTX 3090 GPU上进行HCF-Net的实验。对于大小为512×512像素且具有三个颜色通道的输入图像,HCF-Net的计算成本为93.16 GMac(千兆乘加操作),包含1529万个参数。我们使用Adam优化器进行网络优化,批量大小为4,训练模型300个epoch。
消融和比较
本节介绍了在SIRST数据集上进行的消融实验和比较实验。首先,如表I所示,我们使用U-Net作为基线,并系统地引入不同模块以展示其有效性。其次,如表II所示,我们提出的方法在SIRST数据集上表现出色,IoU和nIoU得分分别为80.09%和78.31%,显著优于其他方法。最后,图5展示了各种方法的视觉结果。在第一行中,可以观察到我们的方法准确检测到更多目标,且误报率极低。第二行表明,我们的方法在复杂背景中仍能精确定位目标。最后,最后一行表明,我们的方法提供了更详细的形状和纹理特征描述。
V 结论
在本文中,我们解决了红外小目标检测中的两个挑战:小目标丢失和背景杂波。为了应对这些挑战,我们提出了HCF-Net,它结合了多个实用模块,显著提高了小目标检测性能。大量实验证明了HCF-Net的优越性,超越了传统的分割和深度学习模型。该模型有望在红外小目标检测中发挥关键作用。