摘要
因为缺乏固有的目标特征,并且缺乏一个公共的数据集,单帧红外小目标检测依然是一个挑战。在本文中,我们首先提供了一个带有高质量标注的开放数据集,以推进这一领域的研究。我们还提出了一种专门为检测红外小目标而设计的非对称上下文调制模块。为了更好地突出小目标,除了一个自上而下的全局上下文反馈外,我们还补充了一个基于点级通道注意的自底而上的调制路径,用于交换高级语义和微妙的低级细节。我们给出了消融研究和与最先进的方法的比较的报告,我们发现我们的方法表现得明显更好。我们的数据集和代码可以在网上找到https://github.com/YimianDai/open-acm。
1. 介绍
红外小目标探测是早期预警系统、精确制导武器和海上监视系统等应用的关键技术。在许多情况下,传统的静态背景的假设并不适用于。因此,近年来,研究人员开始更加关注算法中的单帧检测问题。
来自信号处理社区的普遍想法是直接建立模型,测量红外小目标与其邻域上下文之间的对比度。通过在最终的显著性图上应用一个阈值,然后分割出潜在的目标。尽管这些模型驱动的方法无需学习和计算友好,但它们存在以下缺点:
1.具有全局独特显著性、条纹性或高对比度的目标假设在现实世界的图像中并不成立。真正的暗淡目标可能是不明显的和低对比度的,而许多背景干扰物满足这些假设,导致许多错误警报。
2.许多超参数,如[10]中的λ和[4]中的h,都与图像内容敏感且高度相关,这对于高度可变的场景不够鲁棒。
简而言之,这些方法存在缺陷,因为它们缺乏对整体场景的高水平理解,使它们无法检测到极端模糊的场景,并去除显著的干扰物。因此,有必要将高级上下文语义嵌入到模型中,以便更好地进行检测。
1.1 动机
众所周知,深度网络可以提供高级的语义特征,而注意模块可以通过捕获随机上下文交互来进一步增强CNNs的表示能力。然而,尽管卷积神经网络在目标检测和分割方面取得了巨大的成功,但在红外小目标检测领域,对深度学习方法的研究却很少。我们认为其主要原因如下:
1.到目前为止还缺乏一个公共数据集。 深度学习迫切需要数据。然而,到目前为止,还没有针对单帧检测场景的高质量标注的公共红外小目标数据集,在这些数据集上可以训练、测试和比较各种新方法。
2.最小的内在信息。 SPIE将红外小目标定义为一个256×256图像的总空间范围小于80像素(9×9)。纹理或形状特征的缺乏使得纯粹的以目标为中心的表示不足以进行可靠的检测。特别是在深度网络中,小目标很容易被复杂的环境所淹没。
3.分辨率和语义学之间的矛盾。 红外小目标经常被淹没在复杂的低信号杂波比的复杂背景中。对于网络来说,检测这些低虚警的模糊目标需要对整个红外图像的高级语义理解和精细分辨率的预测图,这是深度网络的内在矛盾,因为它们通过逐渐衰减特征大小来学习更多的语义表示。
此外,这些最先进的网络是为通用的图像数据集设计的。直接使用它们进行红外小目标检测,由于数据分布的差异较大,可能会导致灾难性的失败。它需要在多个方面重新定制网络,包括:
1.重新定制降采样方案:许多研究强调,在设计CNNs时,预测器的接受域应该与对象尺度范围相匹配。如果不对降采样方案进行重新定制,随着网络的深入,很难保留红外小目标的特征。
2.重新定制注意模块:现有的注意模块倾向于聚合全局或长期上下文。基本的假设是对象相对较大,分布更全局,这与ImageNet 中的对象是一致的。然而,红外小目标的情况不是这样的,一个全局注意力模块会削弱它们的特征。这就产生了一个问题,什么样的注意力模块适合突出红外小目标。
3.重新定制特征融合方法:最近的工作以单向、自上向下的方式融合跨层特征,目的是基于高级语义选择正确的底层特征。然而,由于小目标可能已经被深层的背景所淹没,一个纯粹的自上而下的调制可能不起作用,甚至是有害的。
因此,除了一个标注的数据集和对空间降采样的重新调整外,还需要重新设计注意模块和特征融合方法。
1.2 贡献
为了支持数据驱动的方法,我们首先提供了一个开放的数据集来推进被称为SIRST的单帧红外小目标检测的研究。从数百个红外小目标序列中选择具有代表性的帧,并手工标记为5种注释形式,使训练各种机器学习方法成为可能。据我们所知,SIRST不仅是第一个这样公众的,而且是与其他私有数据集相比最大的(4×larger)。此外,还提出了一种新的评价度量来更好地平衡数据驱动方法和传统的模型驱动方法。
在本文中,我们提出对各级特征相互交换高级语义和低级细节的思想,以解决红外小目标和一般数据集中目标之间的尺度不匹配所引起的问题。为此,我们提出了一种非对称上下文调制(ACM)机制,这是一种可以集成到多个主机网络中的插件模块。我们的方法补充了最先进的自上而上的高级语义反馈路径,采用反向自下而上的上下文调制路径,将较小尺度的视觉细节编码到更深的层次,我们认为这是为红外小目标实现更好的性能的关键因素。
此外,这种高级和低级特征之间的相互调制以非对称的方式实现的,其中自上而下的调制是由传统的全局通道注意调制(GCAM)将高级大规模语义信息传播到浅层,而自下而上的调制是通过像素级通道注意调制(PCAM)实现的,以保持和突出高级特征中的红外小目标。我们提出的PCAM背后的想法是,尺度并不仅限于空间注意,而通道注意也可以通过改变空间池化的大小在多个尺度上实现。对于红外小目标,所提出的PCAM非常适合它的小尺寸。
2. 相关工作
2.1 单帧红外小目标检测
由于缺乏公共数据集,该领域的大多数最先进的方法仍然是非学习方法和高度依赖于目标/背景假设的启发式方法。一般来说,大多数研究人员将单帧检测问题建模为各种假设下的离群值检测,例如,显著的离群值,循环背景中的稀疏离群值,平滑背景中的弹出离群值。然后通过显著性检测、稀疏和低秩矩阵/张量分解或局部对比度测量得到离群值映射。最后,通过给定一定的阈值,分割出红外小目标。虽然这些方法具有计算友好和无学习,但对场景变化的可辨别性和超参数敏感性不足。
我们注意到基于深度学习的红外小目标检测方法很少。我们的工作在两个重要方面有所不同: 1)我们提出了跨层特征融合的ACM模块,这是专门为红外小目标定制的。2)我们的目标是建立一个红外小目标检测的基准,其中我们不仅提供一个具有高质量标注的公共数据集,而且还提供一个实现最先进的方法、定制的评估指标和数据增强技巧的工具包。
2.2 深度网络中的跨层特征融合
为了精确的目标定位和分割,最先进的状态网络遵循粗到细的策略,巧妙地将较下层的细微特征和较高层的粗语义特征结合起来,例如U-Net和特征金字塔网络(FPN)。然而,大多数工作都集中于构建复杂的路径来连接跨层的特征。特征融合方法本身通常是通过简单的线性方法来实现的,无论是求和还是连接,这不能提供网络从底层动态选择相关特征的能力。近年来,人们提出了一些方法,即利用高级特征作为指导,通过全局通道注意模块来调节长跳连接中的低级特征。
请注意,我们提出的ACM模块遵循跨层调制的思想,但在两个重要方面有所不同: 1)我们的ACM模块不采用单向自上而下的路径,而是采用双向自上而下和自底向上的调制路径。2)利用自底而上调制路径的点级通道注意模块来保存和突出红外小目标的细微细节。
2.3 红外线小目标的数据集
与基于光学图像数据集的计算机视觉任务不同,由于许多复杂的原因,红外小目标检测长期处于数据稀缺的状态。大多数算法都是在由非常有限的图像组成的私有数据集上进行评估的,这很容易使性能比较显得不公平和不准确。一些机器学习方法利用序列数据集,如OSU热行人来进行训练和测试。然而,这些数据集中的对象并不是小目标,它们不仅不符合SPIE的定义,也不符合红外小目标检测的典型应用场景。此外,序列数据集不适合用于单帧检测任务,因为测试集不应该与训练集和验证集重叠。
相比之下,我们提出的SIRST数据集是第一个通过从序列中选择一个代表性图像显式地构建开放的单帧数据集。此外,这些图像被标注了五种不同的形式,以支持在不同的方法中建模检测任务。由于采集(中波长或短波长)红外数据的困难,据我们所知,SIRST不仅是第一个公共数据集,而且与其他私人数据集相比也是最大的。
3. SIRST:从模型驱动到数据驱动
我们贡献SIRST的动机是建立在数据驱动深度学习的最新进展和模型驱动方法主导的红外小目标检测领域的桥梁。为此,我们不仅将SIRST作为一个数据集,而且作为一个最先进的方法和定制的评估度量实现的工具包。
3.1 图像采集和注释
所提出的SIRST数据集包含427张图像,其中包括480个实例,大致分为50%的训练、20%的验证和30%的测试。为了避免训练、验证和测试集之间的重叠,我们只从每个红外序列中选择一个具有代表性的图像。由于缺乏红外序列,SIRST除了具有短波长和中波长的红外图像外,还包括了950 nm波长的红外图像。图1显示了一些有代表性的图像,从中我们可以看到许多目标非常暗淡,并且隐藏在复杂的背景中。即使对人类来说,检测它们也不是一项容易的任务,这需要对整体场景的高级语义理解和集中的搜索。
与一般数据集中的目标检测不同,红外小目标检测是一个离群值检测问题,它是一个二进制决策。由于目标太小,缺乏内在特征,它们都被归为一个类别,没有进一步区分其特定类别。我们为图像提供了五种标注来支持图像分类、实例分割、边界框回归、语义分割和实例定位。注释管道如图2所示。每个目标都通过观察它的移动顺序来确定,以确保它是一个真正的目标,而不是像素级的脉冲噪声。
3.2 数据集统计
每幅图像的目标数分布如图3(a)所示它显示,大约90%的图像只包含一个单一的目标。这一事实支持了许多模型驱动的方法,将检测任务转换为寻找最稀疏或最显著的目标。然而,应该注意的是,大约10%的图像仍然包含额外的目标,这些目标在这种独特的假设下会被忽略。
目标尺寸比例的分布如图3(b)所示,其中约55%的目标只占图像面积的0.02%。给定一个300×300的图像,目标仅仅是3×3像素。一般来说,检测较小的物体需要更多的上下文信息,而红外小目标由于低对比度和背景杂乱而将这一难度推到极端程度。因此,在设计CNNs时,首要考虑的应该是保留和突出深层红外小目标的特征。
目标在百分位等级上的亮度分布如图3©所示请注意,只有35%的目标是图像中最亮的。因此,在图像中选择最亮的像素不是一个好主意,导致检测率为0.35,误报率为65%。作为比较,本文提出的方法的检出率为0.84,误报率为0.0065%,要小10000倍。考虑到65%的目标的亮度与背景非常相似,甚至更暗,我们应该仔细考虑对目标显著性的假设。
图1:来自不同背景的SIRST数据集的代表性红外图像。
( a )类别标记 ( b )实例分割 ( c )边界框 ( d )语义分割 ( e )实例定位
图2:所提出的SIRST数据集中不同类型的标注的说明。
3.3 归一化交并比(nIoU)
当将深度学习与红外小目标连接起来时,评价度量也是一个问题。一方面,利用传统的背景抑制因子或信号杂波比增益等滤波方法来测量目标周围的背景残差。然而,深度网络输出一个二进制掩码,其中这些度量值的值在大多数情况下将是无穷大的。另一方面,传统的方法倾向于将红外小目标检测建模为分割过程,但牺牲了分割目标的完整性来提高检测率,与语义分割的深度网络相比非常不利。
为了更好地平衡模型驱动和数据驱动的方法,我们提出了归一化交并比(nIoU)作为IoU的替代,定义为
n
I
o
U
=
1
N
∑
i
N
T
P
[
i
]
T
[
i
]
+
P
[
i
]
−
T
P
[
i
]
(
1
)
nIoU=\frac{1}{N} \sum_{i}^{N}\frac{TP[i]}{T[i]+P[i]-TP[i]} (1)
nIoU=N1i∑NT[i]+P[i]−TP[i]TP[i] (1)
其中,N为总样本数。使用nIoU,我们可以观察到模型驱动方法有所改进,数据驱动方法略有下降。请注意,IoU和nIoU都不能替代受试者工作特征(ROC)曲线,因为它们反映了固定阈值下的分割效果,而ROC反映了滑动阈值下的整体效果。
3.4 SIRST工具包和排行榜
为了促进可重复性的研究,除了一个带标注的数据集外,SIRST也是一个开放的工具包,它提供了数据处理实用程序、通用模型组件、损失函数和专门为红外小目标检测设计的评估指标。在这些模块化APIs的基础上,SIRST提供了具有训练有素的模型的最先进的网络实现。对于模型驱动的方法,具有最佳超参数设置的模型也提出了不损害最终性能的加速方案。基于这个开放的工具包,我们为所选的方法构建了一个排行榜,作为一个公平比较的地方。通过它,我们希望探索红外小目标探测的正确演化方向。
( a )目标号分布 ( b )尺寸比分布 ( c )亮度分布
图3:SIRST数据集统计数据的说明。
4. 不对称的上下文调制
我们现在提出了ACM模块和相应的网络来应对这些挑战: 1)如何构建一个深度模型来检测缺乏内在信息的红外小目标;2)如何在不覆盖目标细节的情况下对高级上下文信息进行编码。
4.1 重新思考自上而下的注意调节
给定一个低级特征X和一个高级特征Y,同时具有C通道和大小为H×W的特征图,自上而下的注意调制可以表述为
X
′
=
G
(
Y
)
⊗
X
=
σ
(
B
(
W
2
δ
(
B
(
W
1
y
)
)
)
)
⊗
X
(
2
)
X^\prime=G(Y)\otimes X=\sigma (\mathcal{B} (W_2 \delta(\mathcal{B}(W_1y))))\otimes X (2)
X′=G(Y)⊗X=σ(B(W2δ(B(W1y))))⊗X (2)
其中,y是由全局平均池化得到的全局特征上下文
y
=
1
H
×
W
∑
i
=
1
,
j
−
1
H
,
W
Y
[
:
,
i
,
j
]
y=\frac{1}{H\times W}\sum_{i= 1,j-1}^{H,W} Y[:,i,j]
y=H×W1∑i=1,j−1H,WY[:,i,j]。
δ
,
B
,
σ
,
⊗
\delta ,\mathcal{B} ,\sigma, \otimes
δ,B,σ,⊗分别表示校正的线性单位(ReLU)、批处理归一化(BN)、Sigmoid函数和元素级乘法。
W
1
∈
R
C
r
×
C
W_1\in\mathbb{R}^{\frac{C}{r}\times C}
W1∈RrC×C和
W
2
∈
R
C
×
C
r
W_2\in\mathbb{R}^{C\times \frac{C}{r}}
W2∈RC×rC是两个完全连接的层。r为通道还原比。
图4(a)所示的这种自上而下的调制意味着两个假设: 1)高级特征提供了关于目标的更准确的语义信息;2)全局通道上下文是一个有效的调制信号。然而,随着网络的深入,这两个假设对于红外小目标并不一定成立,因为在高级特征中,小目标很容易被背景淹没,而它们的特征在全局平均池中也会减弱。虽然通过自上而下的调制嵌入的语义信息可以帮助处理歧义,但前提是仍然保留小目标。
4.2 自下而上的点式注意调制
为了突出深层红外小目标的细微细节,我们提出了一个点级通道注意调制模块,该模块将每个空间位置的通道特征上下文单独聚合。与自上而下的调制相反,该调制路径以自下而上的方式传播上下文信息,以低层次特征的空间细节丰富高级特征图如图4(b)所示上下文调制的权重
L
(
X
)
∈
R
C
×
H
×
W
L(X)\in\mathbb{R}^{C\times H\times W}
L(X)∈RC×H×W可以计算为
L
(
X
)
=
σ
(
B
(
P
W
C
o
n
v
2
(
δ
(
B
(
P
W
C
o
n
v
1
(
X
)
)
)
)
)
)
(
3
)
L(X)=\sigma(\mathcal{B}(PWConv_2(\delta( \mathcal{B} (PWConv_1(X)))))) (3)
L(X)=σ(B(PWConv2(δ(B(PWConv1(X)))))) (3)
其中,PWConv表示点向卷积。PWConv1和PWConv2的内核大小分别为
C
4
×
C
×
1
×
1
\frac{C}{4}\times C\times 1\times1
4C×C×1×1和
C
×
C
4
×
1
×
1
C\times \frac{C}{4}\times 1\times1
C×4C×1×1。值得注意的是,L (X)与Y具有相同的形状,它可以以元素化的方式突出红外小目标。然后得到调制的高级特征
L
(
X
)
∈
R
C
×
H
×
W
L(X)\in\mathbb{R}^{C\times H\times W}
L(X)∈RC×H×W
Y
′
=
L
(
X
)
⊗
Y
(
4
)
Y^\prime=L(X)\otimes Y (4)
Y′=L(X)⊗Y (4)
图4:单向调制模块的示意图。(a)自上而下的全局注意调制,(b)提出的自下而上的点式注意调制。
4.3 非对称上下文调制模块
我们的目标是同时利用自上而下的全局注意调制和自下而上的局部注意调制来交换多尺度语境,以获得更丰富的语义信息和空间细节的编码。为此,提出了跨层特征融合的非对称上下文调制
Z
=
G
(
Y
)
⊗
X
+
L
(
X
)
⊗
Y
(
5
)
Z=G(Y)\otimes X+L(X)\otimes Y (5)
Z=G(Y)⊗X+L(X)⊗Y (5)
其中,
Z
∈
R
C
×
H
×
W
Z∈R^{C×H×W}
Z∈RC×H×W为融合特征,如图5所示,为简单起见,省略了ReLU和BN。
图5:所提出的非对称上下文调制。
4.4 例子:FPN和U-Net
根据该领域的主要实践,我们将红外小目标检测建模为一个语义分割问题。我们使用ResNet-20作为主干架构,如表1所示,其中我们根据深度(每个阶段的块数b)对模型进行缩放,以研究性能和网络深度之间的关系。只有当b = 3时,它才是ResNet-20的标准主干。需要注意的是,为了保持小目标,我们专门针对这一任务调整了降采样方案。在表1中,子采样仅在阶段2和阶段3的第一卷积层进行。为了展示所提出的ACM模块的普遍性和模块化,我们选择了FPN 和U-Net 作为主机网络。通过将原来的跨层特征融合操作,如在提出的ACM模块中加入FPN或U-Net连接,我们可以构建新的网络,即ACM-FPN和ACM-U-Net,用于红外小目标检测任务,如图6所示。
图6:建议的ACM-FPN和ACM-U-Net。
5. 实验
我们进行了消融研究,并与现有的方法进行了比较,以验证所提出的ACM模块和网络的有效性。特别是,我们将在实验评估中研究以下问题:
表1:ACM-FPN和ACM-U-Net的主干结构
1.Q1:我们将研究调整网络降采样方案的影响,以表明在设计红外小目标检测网络时,保留深层小目标是优先考虑的。
2.Q2:本文的一个主要贡献是补充了自底向上的调制路径,使网络能够以双向的方式交换低级和高级的信息。我们将研究在相同的参数预算和点信道注意下,双向调制是否优于自上而下调制方案。
3.Q3:我们的另一个贡献是非对称调制,其中自上而下和自底向上的调制分别通过全局通道注意和点向通道注意来实现。这就提出了一个问题,即这种非对称调制有多重要?它会优于其他对称方案吗?
4.Q4:最后,我们将分析基于所提出的ACM模块的网络与其他模型驱动方法和基线网络的比较情况,见第5.3节。
5.1 实验设置
我们将红外小目标检测建模为一个语义分割任务,并利用所提出的SIRST数据集进行实验评估。选择FPN 和U-Net 作为主机网络,其中ResNet-20是两者的骨干网络。选择ROC曲线、IoU和所提出的nIoU作为评价指标。由于大多数实验网络不能利用预先训练的权值,为了公平,每个架构实例都是从零开始训练的。He等人描述的策略用于权重初始化。我们选择SoftIoU 作为损失函数,涅斯特罗夫加速梯度法作为优化器。我们使用0.05的学习率,8个批处理大小,总共有300个周期。
对于数据驱动的方法,我们选择了FPN 、UNet、可选择核(SK)网络形式的FPN和U-Net(SK-FPN/SK-U-Net)、基于全局注意力上采样(GAU)的GAU-FPN/GAU-U-Net进行比较。对于模型驱动的方法,我们选择了11种方法,包括顶帽过滤器,局部对比法(LCM),改进的LCM(ILCM),局部显著性法(LSM),面核和随机漫步器(FKRW),基于贴片的多尺度对比度测量(MPCM),红外贴片图像模型(IPI),基于奇异值部分和(NIPPS)的非负IPI模型,重加权红外贴片张量模型(RIPT),张量核范数的部分和(PSTNN),和非凸秩近似最小化(NRAM)。
表2:对降采样方案和调制方案影响的消融研究。
Modulation Scheme | FPN as Host Network | FPN as Host Network | FPN as Host Network | FPN as Host Network | FPN as Host Network | FPN as Host Network | FPN as Host Network | FPN as Host Network |
---|---|---|---|---|---|---|---|---|
Modulation Scheme | IoU | IoU | IoU | IoU | nIoU | nIoU | nIoU | nIoU |
Modulation Scheme | b=1 | b=2 | b=3 | b=4 | b=1 | b=2 | b=3 | b=4 |
TopDownLoccal | 0.595 | 0.648 | 0.693 | 0.713 | 0.635 | 0.662 | 0.688 | 0.703 |
BiGlobal | 0.599 | 0.660 | 0.685 | 0.693 | 0.645 | 0.674 | 0.696 | 0.684 |
BiLocal | 0.591 | 0.662 | 0.713 | 0.722 | 0.657 | 0.694 | 0.709 | 0.714 |
Regular-ACM | 0.683 | 0.703 | 0.711 | 0.711 | 0.661 | 0.671 | 0.680 | 0.675 |
ACM | 0.645 | 0.700 | 0.714 | 0.731 | 0.684 | 0.702 | 0.713 | 0.721 |
Modulation Scheme | U-Net as Host Network | U-Net as Host Network | U-Net as Host Network | U-Net as Host Network | U-Net as Host Network | U-Net as Host Network | U-Net as Host Network | U-Net as Host Network |
---|---|---|---|---|---|---|---|---|
Modulation Scheme | IoU | IoU | IoU | IoU | nIoU | nIoU | nIoU | nIoU |
Modulation Scheme | b=1 | b=2 | b=3 | b=4 | b=1 | b=2 | b=3 | b=4 |
TopDownLoccal | 0.648 | 0.710 | 0.713 | 0.718 | 0.673 | 0.692 | 0.694 | 0.697 |
BiGlobal | 0.682 | 0.716 | 0.723 | 0.730 | 0.688 | 0.708 | 0.707 | 0.719 |
BiLocal | 0.670 | 0.715 | 0.718 | 0.742 | 0.680 | 0.710 | 0.713 | 0.720 |
Regular-ACM | 0.684 | 0.700 | 0.692 | 0.692 | 0.637 | 0.650 | 0.646 | 0.643 |
ACM | 0.707 | 0.732 | 0.741 | 0.743 | 0.709 | 0.720 | 0.726 | 0.731 |
5.2 消融研究
降采样方案的影响: 首先,我们通过比较表1中调整后的方案和[14]中的常规方案,即特征图是降采样的4倍以上,来研究降采样方案的影响。比较结果如表2所示。可以看出,基于ACM的网络的表现明显优于基于常规ACM的网络,特别是当网络越来越深时。结果表明,红外小目标检测需要定制网络降采样方案。否则,过度的降采样会导致深层小目标特征的丢失。
双向注意调制的影响: 在这部分中,我们比较单向自上而下调制模块,即上向下局部,如图7(a)所示,与双向调制模块,如图7(b)所示为了保持比较的公平性,我们同时保持点向通道注意的参数预算相同,即C2。从表2可以看出,BiLocal总是优于上向下局部,这说明使用双向注意调制比仅使用自上而下调制更好。我们认为,这种性能增益来自于通过提出的自下而上的调制路径嵌入到高级特征中的低级细节,这有助于在深层中保存小目标。
不对称注意调制的影响: 表2显示了双局部、BiLocal,BiGlobal(图7( c ))和所提出的ACM之间的比较,以验证了所提出的非对称注意调制的有效性,我们可以看到,与通道注意尺度同时为局部(BiLocal)或全局(BiGlobal)的调制方案相比所提出的ACM模块利用自上而下路径的全局通道注意,利用自下而上路径的点式的局部通道注意,在所有设置中表现最好。结果验证了我们提出的非对称调制的假设,即自上而下调制需要一个全局通道注意模块来获取整个图像的高级语义信息,而自下而上调制需要一个点级通道注意机制来获取更精细的细节。
(a)本地下载 (b) BiLocal © BiGlobal
图7:调制方案消融研究的结构。带点通道注意模块的( a )自上而下调制(上向下局部);( b )点通道注意模块双向调制(BiLocal );全局通道注意模块的( c )双向调制(BiGlobal)。所有这些体系结构共享相同数量的学习参数 C 2 C^2 C2。
5.3 与最先进的方法的比较
在本小节中,我们首先将所提出的ACMFPN和ACM-U-Net与其他最先进的网络进行比较,随着网络深度的增长。可以看出,1)所提出的网络在各种设置中都表现最好,即使图层是更少的。此外,这种性能优势不会随着网络的深入而减弱。它证明了本文的目标是,通过所提出的ACM模块,主网络可以获得显著的性能提高,即使每个网络的层或参数更少。2)随着网络深度的增长,仅仅是自上而下的全局注意调制的优势逐渐减弱。例如,当b = 4时,基线FPN和U-Net表现均匀甚至优于SK-FPN/SK-U-Net和GAU-FPN/GAU-U-Net,表明在自上而下的调制中,高级语义特征淹没小目标特征的风险较高。
图8:以FPN和U-Net作为主网络的IoU/nIoU与其他跨层调制方案的比较。
表3:19种方法的IoU和nIoU比较
Methods | Model-Driven | Model-Driven | Model-Driven | Model-Driven | Model-Driven | Model-Driven |
---|---|---|---|---|---|---|
Methods | LOcal Contrast Measurement | LOcal Contrast Measurement | LOcal Contrast Measurement | LOcal Contrast Measurement | LOcal Contrast Measurement | LOcal Contrast Measurement |
Methods | Tophat | LCM | ILCM | LSM | FKRW | MPCCM |
IoU | 0.220 | 0.193 | 0.104 | 0.1864 | 0.268 | 0.357 |
nIoU | 0.352 | 0.207 | 0.123 | 0.2598 | 0.339 | 0.445 |
Methods | Model-Driven | Model-Driven | Model-Driven | Model-Driven | Model-Driven |
---|---|---|---|---|---|
Methods | LOcal Rank+Sparse Decomposition | LOcal Rank+Sparse Decomposition | LOcal Rank+Sparse Decomposition | LOcal Rank+Sparse Decomposition | LOcal Rank+Sparse Decomposition |
Methods | IPI | NIPPS | IRIPT | PSTNN | NRAM |
IoU | 0.466 | 0.473 | 0.146 | 0.605 | 0.294 |
nIoU | 0.607 | 0.602 | 0.245 | 0.504 | 0.424 |
Methods | Data-Driven | Data-Driven | Data-Driven | Data-Driven |
---|---|---|---|---|
Methods | FPN Based | FPN Based | FPN Based | FPN Based |
Methods | FPN | SK | GAUT | ACM |
IoU | 0.720 | 0.702 | 0.701 | 0.731 |
nIoU | 0.700 | 0.695 | 0.701 | 0.721 |
Methods | Data-Driven | Data-Driven | Data-Driven | Data-Driven |
---|---|---|---|---|
Methods | U-Net Based | U-Net Based | U-Net Based | U-Net Based |
Methods | FPN | SK | GAUT | ACM |
IoU | 0.733 | 0.708 | 0.718 | 0.743 |
nIoU | 0.709 | 0.699 | 0.697 | 0.731 |
接下来,我们将所提出的网络与其他最先进的模型驱动方法以及数据驱动的网络进行比较。表3为共19种方法的IoU和nIoU比较结果。可以看出,1)所提出的网络在IoU和nIoU评价中都取得了最好的成绩,显示了所提出的非对称注意调制的有效性;2)数据驱动方法都优于模型驱动方法,这表明对于所提出的SIRST数据集,我们应该更加关注数据驱动方法,以获得最先进的性能。3)对于模型驱动的方法,其nIoU数通常高于IoU数,而数据驱动的方法则相反。它验证了我们的论点,即网络倾向于提高在较大目标上的性能,以最小化损失函数,并减少对较小目标的关注。在这个结论中,在评价红外小目标检测性能方面,nIoU是一个比IoU更好的指标。
最后,我们比较了图9中7种选定方法的ROC曲线。可以看出,所提出的ACM-FPN和ACM-U-Net的效果最好,显示了所提出的ACM模块的有效性。另一个有趣的一点是,虽然RIPT在表3中nIoU和IoU的表现比MPCM和IPI差,但在图9中ROC的表现却比MPCM和IPI差。据我们所知,这背后的原因是IoU和nIoU反映了固定阈值下的分割效果,而ROC反映了滑动阈值下的整体效果。结果表明,RIPT将检测能力与目标完整性进行了权衡。
图9:所选方法的ROC比较
6. 结论
在本文中,我们首先提供了一个开放的数据集,用于在单帧场景中检测和分割红外小目标。此外,我们提出了专门为红外小目标设计的非对称上下文调制。这种创新有两方面。首先,对自底向上的调制路径的补充使网络能够将精细细节的低级上下文嵌入到高级特征中。其次,点级通道注意模块突出了红外小目标的特征,而不是被它们的相邻背景所淹没。大量的消融实验证明了该体系结构的有效性。与其他最先进的方法相比,我们的网络可以以更少的参数和层获得更好的性能。