目录
摘要
论文网址:http://arxiv.org/abs/2205.13124
红外小目标分割(ISTS)的一个关键挑战是平衡假阴性FN和假阳性FP像素。FN players和FP players有不同的策略:一种是最小化FN,一种是最小化FP。效用函数推动了两个参与者的发展。文章认为像素游戏的纳什均衡是最优解,提出了最大信息调制,MIM有效地关注突出区域,包括小目标。在两个标准公共数据集上的大量实验也证明了文章方法的有效性。相比于其他的先进的方法,文章的方法在IOU和F1上取得了更好的效果。
介绍
红外线目标分割在很多应用领域包括军事领域的监视和侦察,精准打击和指导,生物医学领域的器官分割和细胞识别中起到基础作用。(引出方向,接下来引出该方向的痛点)在实际应用中,由于距离较远与RGB图像相比,IR红外目标通常暗淡,小,系数,如Fig. 1上面是红外图像,下面是RGB自然图像。
(现有方法的缺点)很多传统的方法依靠手工制作的特征。缺乏纹理和形状特征,难以适应开放和多样化的环境。它们主要要么将小目标简化为两点,要么在特定场景中对背景目标以及它们之间的关系进行建模。只有在特定的先验假设下,这种方法才能有很好的效果。然而,在背景场景多样化的开放环境中,很难对红外小目标进行鲁棒准确的分割。
CNN以数据驱动的方式学习红外小目标的表示。受深度学习在机器学习中的卓越性能的启发,基于CNN的方法在红外小目标检测和分割方面取得了新的进展。
一个主要的挑战是ISTS中的前景-背景不平衡的问题,图像中的前景像素远小于北京像素,大量背景像素被错误分割为目标(FPs),少量目标像素被杂波(FNs)淹没。
为了平衡FNs和FPs,很多基于CNN的方法都是通过加权和将两个目标合并为一个函数。组合目标函数包括Dice损失[18]Jaccard损失[19],Tversky损失[20],asymmetric similarity损失[21],sensitivity=specificity损失[22]和penalty损失[23]。
但是这种训练目标设计主要存在两个局限性:
- 以同样的策略最小化FNs和FPs回到这拮抗决策。
- 对损失函数的广泛研究表明,它们的超参数的设置是一项经验丰富且困难的工作。
因此,将FNs和FPs作为两个独立的目标进行优化是直观和合理的。
文章的工作受到博弈论的启发。设计了两个量身定制的子网,作为竞赛中FNs玩家和FPs玩家。FNs和FPs分别关注搂抱像素和误报像素。博弈论中的玩家、动作和效用函数分别对应于所提出的框架中的子网、网络参数的变化和损失函数。通过这种方式,ISTS被转化为一种游戏范式。在效用函数的约束下,游戏玩家选择效用最小化的动作。最后,对手达到纳什均衡,这是F N s和F P s之间的巧妙权衡。
巍峨获得高质量的分割淹没,图像的上下文对于小目标很重要。在深度CNN中主要通过降采样来扩展感受野。传统的深度卷积网络具有更大的感受野聚合上下文呢信息,但是会丢失一些空间位置信息。与大型目标不同,分辨率降低可能导致红外小目标无法分割,文章在FNs players和FPs players中都采用了膨胀卷积模块。全膨胀卷积网络可以获得更大的感受野,同时保持空间分辨率。由下图所示小目标有效地保留和增强了高分辨率功能。
与RGB图像分割中对象和背景之间语义依赖性相反,ISTS中目标和北京之间的语义对比很弱,小的红外目标只是局部突出,提出了最大信息调制MIM。MIM吸收了注意力机制在管理有效信息方面的优点,MIM有效地抑制了不相关信息,增强了小目标在所提出框架中的代表性。
1) 我们提出了一种新的视角,将红外小目标分割建模为多人策略游戏(PixelGame)。FNs player和FP players分别专注于减少pixelGame中的FNs和FPs
2)Pixel Game的新实用功能旨在鼓励两个玩家进行游戏。确保参与者充分玩游戏并最终达到纳什均衡。
3)为了处理小目标,在FN players和FP players中都采用了膨胀卷积模块。FDCN考虑了大感受野和高分辨率的特征图。
4)由于红外目标在图像中通常是局部突出区域,我们提出MIM通过计算局部极大值来抑制不相关的背景信息,从而提高对小目标的特征判别能力。
方法
pixel Game:基于博弈论的红外暗淡小目标分割。
将膨胀卷积和编码器解码器结合,形成FNs players和FPs players的骨干。
介绍在pixelGame中将ISTS任务转换为游戏。
应对三个挑战:a. 如何设计合适的子网来控制不同参与者的焦点。b. 如何提高小目标的特征表示能力。c. 如何设置一个科学有效的效用函数,去实现在竞争游戏中的纳什均衡
ⅠFNs-player and FPs-player
A. 两个分割网络作为博弈论中的两个玩家。
我们将 F N s 和 F P 分开,并雇用两个玩家来分而治之。为了获得更好的性能,两个子网根据任务使用不同的结构。FNs播放器和FPsplayer使用具有不同网络深度和膨胀因子的全膨胀卷积网络(FDCN)。
提议的像素游戏的插图。它由一个FN播放器,一个FP播放器和一个最大信息调制组成。特征图下的数字表示每层的膨胀因子。游戏的输入和输出分别是红外图像及其预测掩码。在pixelGame中,FNs玩家和FPs玩家是合作和竞争游戏中的玩家。pixelGame的效用功能由三部分组成,包括玩家效用、游戏效用和小目标约束。播放器实用程序引导两个玩家专注于不同的像素,游戏实用程序进一步增强了两个玩家之间的对抗和竞争。此外,我们对每个玩家的分段结果施加了小的目标约束。
分别是FNs-player和FPs-player的骨干网络。在所有模型中,除最后一个外,卷积层之后是批量归一化(BN)[65]和泄漏整流线性单元(leakyReLU)[32]。具体来说,S1播放器的目标是减少目标的假阴性像素,优化T N s和F N s。我们采用浅层编码器-解码器网络提取局部信息,并对可疑目标的所有像素进行分割。FDCN9使用9层卷积,膨胀因子从1增加到16。与FNs播放器相比,FPs播放器通过优化T P s和F P s提高了属于目标类的预测像素的精度。S2预测的像素可能尽可能精确。FPs-player需要更大的环境和更好的局部感受野,因此FDCN13更深,其膨胀因子更大。FDCN13包含13个卷积层,最大膨胀因子为64。最后,使用头部层预测每个像素的类别,生成前景和背景的二进制掩码。
B.Maximum Information Modulation
以注意力机制为代表的信息调制方法旨在使模型专注于任务相关信息。在RGB对象检测和分割中,SENet [66]通过学习不同通道之间的依赖关系,自适应地增强与任务相关的通道。非局部网络[67]用于捕获长程依赖关系,并在图像上建立具有一定距离的两个像素之间的相互作用。GCNet [33] 改进了非本地网络和 SENet,使独立于查询的轻量级模块能够有效地提取全局上下文信息。三重注意力[34]编码通道间关系和空间关系,并建立它们之间的依赖关系以计算注意力权重。
与RGB图像不同,红外暗淡小目标的SCR非常低,有用的目标信息通常淹没在不相关的杂波和噪声中。考虑到小目标难以细分,我们引入了全局最大池化(GMP)[68]和跨通道最大池化(cMaxPool)[34],以增强这些靶点的局部突出信息。MIM旨在提高提取特征的针对性和容量。在FDCN9和FDCN13中,我们在跳过连接中添加MIM模块。MIM和其他注意力模块之间的差异在图中突出显示。6. 从可视化结果可以看出,MIM在捕获低SCR红外小目标方面优于其他注意力机制。MIM 增强了与目标相关的显著信息,并抑制了与目标无关的大量噪声和杂乱。
其次,与RGB目标分割不同,IST中的目标通常相对较小。GMP选择特征图中的极值,可以有效提高特征图在区域内的显著性,抑制噪声。全局平均池化(GAP)[70]通常更关注大型对象。GAP倾向于对大型不相关的物体给出更高的响应,而忽略较小的极端区域。然而,在我们的任务中,要分割的小目标通常是图像中的局部极值点,GMP更有效地提取了与目标相关的特征。因此,GMP可以减少无用背景信息的影响,突出目标信息。
MIM的架构。它结合了不同的注意力机制来增强红外暗淡小目标的突出信息。⊗表示矩阵乘法,©表示张量串联,表示广播元素乘法,⊕表示矩阵加法。
C. Utility function
在评估分割结果时,预测结果通常分为四个部分:目标正确分割像素数(T P s)、背景错误分割像素数(F P s)、背景正确分割像素数(T N s)、目标错误分割像素数(F N s)。目标像素由 T P s 和 F N s 组成。背景像素包含 T N s 和 F P s。ISTS的混淆矩阵如表三所示。在混淆矩阵中,列表示 pixelGame 的预测掩码 O,行表示输入图像的地面实况 G。
为了给FNs玩家和FPs玩家游戏带来高质量的效果,我们根据每个玩家自己的关注点和游戏的整体约束条件,设计了一个新颖的效用函数。此实用程序函数由三部分组成:玩家效用函数、游戏效用函数和小目标约束。科学有效的效用函数帮助模型在竞技博弈中达到平衡状态。
- Player utility
2)Game utility
等式(14)使FNsplayer和FPs播放器的错误分割像素尽可能不同。游戏效用进一步加剧了他们之间的游戏对抗。显式拮抗效用约束不仅可以增强其结果的互补性,而且有助于博弈优化达到均衡状态。 - 小目标约束
对于 IST 的具体任务,我们增加了一个小的目标约束,以确保模型在合理的空间内进行优化。它的定义如下:
根据许多实验尝试游戏的效用函数定义如下:
D. PixelGame Network
FDCN9和FDCN13是pixelGame网络的骨干。高分辨率预测特征图对于小目标分割是必不可少的。扩张卷积捕获更大的感受野,而不会降低特征的空间分辨率。解码器的膨胀因子与编码器的膨胀因子对称。在编码器-解码器中结构中,具有相同膨胀因子的特征映射通过跳过连接跨层交换信息。较大的膨胀因子导致更大的感受野。一方面,大感受野中的一些像素没有得到充分利用。另一方面,大感受野捕获的像素的长距离依赖性并不准确。因此,我们使用MIM模块来改进小对象特征表示。具体实现如算法 1 所示。