DNANet:Dense Nested Attention Network for Infrared Small Target Detection--笔记

Dense Nested Attention Network for Infrared Small Target Detection

用于红外小目标检测的密集嵌套注意力网络 

摘要

单帧红外小目标 (SIRST) 检测旨在将小目标与杂波背景分离。现有的基于CNN的方法不能直接应用于红外小目标,因为在其网络中汇集层可能会导致深层目标的丢失。

本文提出了一种密集嵌套注意力网络(DNA-Net)

设计了一个密集嵌套交互模块(DNIM),以实现高级和低级特征之间的渐进式交互。通过DNIM中的重复交互,可以保持深层红外小目标的信息。

提出了级联信道和空间注意力模块(CSAM)来自适应增强多级特征。通过我们的DNA-Net,小目标的上下文信息可以通过重复融合和增强得到很好的整合和充分利用。

开发了红外小目标数据集(即NUDT-SIRST),并提出了一套评估指标来进行全面的性能评估。在公共数据集和我们自行开发的数据集上的实验证明了我们方法的有效性。

Introduction

红外小目标检测特点:

1)小:由于成像距离长,红外目标一般较小,图像中的像素从1个像素到几十个像素不等。

2)暗淡:红外目标通常具有较低的信杂比(SCR),并且容易沉浸在高噪声和杂波背景中。

3)无形:红外小目标的形状特性有限。

4)可变性:红外目标的大小和形状在不同场景下差异很大。

本文贡献:

• 我们提出了一个DNA-Net来维持深层中的小靶标。通过重复的特征融合和增强,可以很好地整合和充分利用小目标的上下文信息。

• 提出密集嵌套交互模块和通道空间注意力模块,实现渐进式特征融合和自适应特征增强。

• 我们开发了一个红外小目标数据集(即NUDT-SIRST)。据我们所知,我们的数据集是最大的数据集,具有多种类别的目标形状、各种目标大小、不同的杂波背景和地面实况注释。

• 在公共数据集和我们的 NUDT 数据集上的实验证明了我们方法的卓越性能。与现有方法相比,我们的方法对杂波背景、目标大小和目标形状的变化更具鲁棒性。

Method

A. 整体架构

所提出的密集嵌套注意力网络(DNA-Net)的结构图。分为三部分:

(a) 特征提取模块。输入图像首先被馈送到密集嵌套交互模块 (DNIM) 中,以聚合来自多个尺度的信息。请注意,来自不同语义级别的特征通过通道和空间注意力模块 (CSAM) 自适应增强。

(b) 特征金字塔融合模块(FPFM)。增强功能经过上采样和串联,以实现多层输出融合。

(c) 八连邻聚类算法。对分割图进行聚类以确定每个目标区域的质心。

B.特征提取模块
1)动机

传统的U形结构[25]由编码器、解码器和普通跳跃连接组成。编码器用于扩大感受野并提取高级信息。解码器有助于恢复特征图的大小(最终达到与输入图像相同的大小),并实现渐进式多尺度特征融合。普通跳跃连接充当将这些低级和高级特征从编码器传递到解码器子网的桥梁。

为了实现强大的上下文信息建模能力,一个直接的方法是不断增加层数。通过这种方式,可以获得高级信息,并可以获得更大的感受野。然而,红外小目标的大小有很大不同,从1个像素(即点目标)到几十个像素(即扩展目标)不等。随着网络层数的增加,可以获取扩展目标的高级信息,而点目标在多次池化操作后容易丢失。因此,我们应该设计一个特殊的模块来提取高级特征,并在深层中保持小目标的表示。

2)密集嵌套交互模块

将多个U形子网堆叠在一起,构建一个密集的嵌套结构。由于不同大小目标的最佳感受野差异很大,因此这些不同深度的U形子网络自然适用于不同大小的目标。基于这个想法,我们在编码器和解码器子网之间的路径中施加了多个节点。所有这些中间节点彼此密集连接,形成一个嵌套形状的网络。如上图(c)和(d)所示,每个节点都可以接收来自自身和相邻层的特征,从而导致重复的多层特征融合。因此,小目标的表示保持在深层中,因此可以获得更好的结果。

在本文中,我们将 DNIM 的 I 层堆叠起来,形成我们的特征提取模块。在不损失通用性的情况下,我们以 ith(i = 0, 1, 2, ..., I) DNIM 层为例来介绍这种结构,如上图(c) 和 (d) 所示。假设 Li,j 表示节点 ˆ Li,j 的输出,其中 i 是沿编码器的第 i 个下采样层,j 是沿普通跳跃路径的密集块的第 j 个卷积层。当 j = 0 时,每个节点只接收来自密集平原跳跃的特征连接。用 Li,j 表示的特征图堆栈计算为

其中 F(·) 表示同一卷积块的多个级联卷积层。Pmax(·) 表示步幅为 2 的最大池化。当 j > 0 时,每个节点接收来自三个方向的输出,包括密集的普通跳跃连接和嵌套的双向交互式跳跃连接,由 Li,j 表示的特征图堆栈生成为:

其中 U(·) 表示上采样层,[ ·, ·] 表示串联层。


3) 通道和空间注意力模块

CSAM用于DNIM每次多层特征融合后的自适应特征增强。CSAM由两个级联注意力单元组成。从节点 由 RCi×1×1 的 1D 通道注意力图 和 2D 空间注意力图 依次处理。

通道注意力过程可以总结如下:

其中 ⊗ 表示元素乘法,σ 表示 sigmoid 函数,Ci、Hi、Wi 表示 Li,j 的通道数、高度和宽度。Pavg(·) 分别表示步幅为 2 的平均池化。共享网络由一个多层感知积 (MLP) 和一个隐藏层组成。在乘法之前,注意力地图 Mc(L) 被拉伸到 Mc(L) ∈ RCi×Hi×Wi 的大小。

具体过程:

1.特征图分别经过MaxPool和AvgPool,形成两个[ C , 1 , 1 ]的权重向量
2.两个权重向量分别经过同一个MLP网络(由于是同一个网络,因此也可看作是网络参数共享的MLP),映射成每个通道的权重
3.将映射后的权重相加,后接Sigmoid输出
4.将得到的通道权重[ C , 1 , 1 ] 与原特征图[ C , H , W ] 按通道相乘

与通道注意过程类似,空间注意过程可以总结如下:

其中 f 7×7 表示滤波器大小为 7×7 的卷积运算。在乘法之前,注意力图 Ms(L) 也被拉伸到 Mc(L) ∈ RCi×Hi×Wi 的大小。

具体过程:

1.特征图分别经过MaxPool和AvgPool,形成两个[ 1 , H , W ]的权重向量,即按通道最大池化和平均池化。通道数从[ C , H , W ] 变为[ 1 , H , W ] ,对同一特征点的所有通道池化。
2.得到的两张特征图进行堆叠,形成[ 2 , H , W ]的特征图空间权重
3.经过一层7×7的卷积层,特征图维度从[ 2 , H , W ]变为[ 1 , H , W ] ,这[ 1 , H , W ] 的特征图表征了特征图上的每个点的重要程度,数值大的更重要
4.将得到的空间权重[ 1 , H , W ] 与原特征图[ C , H , W ] 相乘,即特征图上[ H , W ]的每一个点都赋予了权重

C. 特征金字塔融合模块

在特征提取模块之后,我们开发了一个特征金字塔融合模块来聚合生成的多层特征。首先将多层特征放大到与相同尺寸。然后,将具有丰富空间和剖面信息的浅层特征和具有丰富语义信息的深层特征串联起来,生成全局鲁棒特征图:

D. 八连邻聚类模块

在特征金字塔融合模块之后,引入八连通邻域聚类模块,将属于同一目标的像素聚类在一起,计算每个目标的质心。若特征图G中任意两个像素 在其八邻域内有交集区域,即:

其中 N8(m0,n0)和 N8(m1,n1)表示像素(m0, n0) 和(m1, n1) 的八个邻域,(m0, n0)和(m1, n1)被判断为相邻像素。如果这两个像素具有相同的值(0 或 1),即:

其中 g(m0,n0)和 g(m1,n1)表示像素 (m0, n0)和(m1, n1)的灰度值,这两个像素被视为位于连接区域中。连接区域中的像素属于相同的目标。一旦确定了图像中的所有目标,就可以根据它们的坐标计算质心。

IV. NUDT-SIRST数据集

A.动机

数据的质量、数量和场景多样性显著影响基于CNN的方法的性能。现有的数据集要么缺乏足够的场景(例如NUST-SIRST和CQU-SIRST),要么数据容量有限(例如NUAA-SIRST)。收集一个具有精确像素级标注的大规模数据集是成本高昂的。这些问题阻碍了基于CNN方法的进一步发展。受其他数据稀缺领域(如舰船检测、、运动车辆检测、)解决方案的启发,我们开发了一个大规模红外小目标数据集(即NUDT-SIRST数据集)。我们的NUDT-SIRST数据集能够在目标类型、目标大小和不同杂波背景的众多类别下对基于CNN的方法进行性能评估。

B. 实施细节

高质量的合成图像应该既有物理上的合理性,又有视觉上的逼真性。为了渲染合理的图像,首先使用高斯核函数并收集目标模板(例如,点、平面、舰船和无人机)分别模拟点、点和扩展目标。然后,我们采用自适应目标大小函数Fsize来确保目标大小以及虚拟目标与真实红外背景的组合合理。在此函数中,首先使用场景感知 CNN Fscene 来识别背景的类型。然后,我们分配了预定义的可能性 Psize 来识别候选目标的大小和类型。这样,我们就可以避免目标和背景的不合理组合,例如带有城市背景的大飞机目标和带有天空背景的船舶目标。

为了生成视觉逼真的图像,使用自适应强度函数Fintensity和高斯模糊函数Fblur分别调整目标的强度和模糊其边界。在自适应强度函数中,我们调整了目标的平均灰度值,以将目标的 SCR 固定在经验值 C(即 3、4、5 和 6)。那是:

其中 μB 和 σB 是背景的平均值和标准推导值。然后,我们对图像施加了不同σ(即0.2、0.5、1.0等)的5×5高斯模糊函数,以确保合成图像的平滑度。最后,我们手动删除了视觉上质量低下的图像。

C.与现有数据集的比较

在这一部分中,我们将我们的NUDT-SIRST数据集与几个公开的SIRST数据集进行了比较。根据文献,我们使用三个指标(即目标数量、目标大小和目标亮度)来评估这些数据集。NUDT-SIRST数据集中约37%的图像包含不少于2个目标。这个比例远远高于其他两个数据集。目标尺寸分布显示,27%的目标占据整个图像不超过0.01%的面积,96%的目标满足SPIE对小目标(即目标应小于整幅图像面积的0.15 %)的定义。点目标和小目标的比例远高于其他两个数据集。大约有32%的目标位于图像亮度值前10%之外。这表明我们的数据集的图像视觉显著性低于其他数据集。综上所述,与现有的数据集[ 24 ] [ 32 ]相比,我们的数据集引入了更具挑战性的场景(即多目标、点目标和暗目标场景)。

  • 38
    点赞
  • 41
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值