红外综述Infrared small target segmentation networks: A survey

 DOI: https://doi.org/10.1016/j.patcog.2023.109788

Received date: 14 December 2022
Revised date: 28 May 2023
Accepted date: 27 June 2023

一、Introduction

红外探测系统相对于有源雷达成像系统具有一定的优势,即隐蔽性强、便携性好、能够探测盲区;与可见光成像系统相比,它们还具有较强的抗干扰能力和烟雾穿透性,适用于昼夜场景[1]。随着隐身和伪装技术的发展,主动雷达成像和可见光成像系统往往无法满足某些探测要求,尤其是在电磁干扰强的黑暗环境中,而红外探测系统可以有效地补充甚至取代这些传统技术[2,3]。

解决红外小目标检测算法的鲁棒性问题一直是一个研究挑战。此外,实时推理是在移动终端中部署红外小目标检测算法时面临的紧迫问题。总体而言,精度和速度是红外小目标探测系统性能的关键指标。

1.基于模型驱动的单帧图像检测和多帧(序列)图像检测的红外小目标检测算法思维导图如下:

模型驱动(Model-Driven)和数据驱动(Data-Driven)是两种不同的方法论,通常用于描述问题求解、决策制定或系统开发的方法和思维方式。它们有以下主要区别:

  1. 侧重点

    • 模型驱动:在模型驱动方法中,重点放在创建和使用预定义的模型上,这些模型通常基于领域知识和假设。模型可以是数学模型、物理模型、概念模型等,用于描述问题的本质特征。模型驱动方法强调理论分析和模型设计,然后使用这些模型来解决问题或做出决策。

    • 数据驱动:数据驱动方法则侧重于通过收集和分析实际数据来了解问题或系统的行为。它不依赖于先验的模型,而是通过数据来发现模式、关联和信息。数据驱动方法强调实际观察、统计分析和机器学习技术,以从数据中提取见解和进行决策。

  2. 假设与预测

    • 模型驱动:在模型驱动方法中,问题的解决或决策制定通常依赖于模型中的假设和预测。这意味着模型的准确性和适用性对问题求解的成功非常关键,因为模型的假设可能不完全符合实际情况。

    • 数据驱动:数据驱动方法不依赖于先验的假设,而是基于实际数据的观察和统计性质来制定决策或提取见解。这可以使数据驱动方法更灵活,适用于各种不同情境,但也需要处理数据的质量和代表性。

2.数据驱动的IR小目标分割网络

 

 由于红外小目标公共数据集的标签是以掩码的形式存在的,因此对有锚或无锚的红外小目标检测网络的研究很少。然而,由公共数据集支持的红外小目标分割网络已经取得了良好的检测结果,并得到了广泛的研究。

  1. 掩码标签(Mask Labels): 在目标检测任务中,标签通常用于指示图像中物体的位置和类别。而在红外小目标检测中,除了要确定目标的位置和类别外,还可能需要进一步精确地标记出目标的形状轮廓,以便更详细地描述目标的特征。这种详细描述目标形状的标签就被称为掩码标签,通常以像素级的形式来表示,类似于二值图像,其中目标区域为前景,非目标区域为背景。

  2. 有锚和无锚(Anchor-based and Anchor-free): 在目标检测算法中,锚(anchors)是一种用于预测目标位置的基准框。锚可以看作是不同尺寸和宽高比的矩形框,这些框被放置在图像上的各个位置,算法通过调整锚的位置和尺寸来匹配实际目标的位置。传统的目标检测方法(如Faster R-CNN)通常使用锚来定位目标。而在无锚方法中,算法直接预测目标的位置,而不依赖于预定义的锚框。无锚方法通常更加适用于特定类型的目标,如不同大小的小目标。

从图1和图2中可以看出,无论是模型驱动算法还是数据驱动算法,红外小目标检测主要分为单帧检测和多帧检测,每种算法都有其优缺点。多帧检测算法主要利用时空信息检测序列图像中的红外小目标并预测其运动轨迹。当视场中存在与真实目标非常相似的某些干扰(如破碎的云)时,这些方法通常比单帧算法更有效。然而,多帧检测算法无疑增加了计算复杂度,导致实时性较差。相反,单帧检测算法具有更好的实时性,但在复杂的背景干扰下,检测精度需要提高。

二、Related work

红外小目标分割网络的设计思想主要来源于经典的分割网络轻量级网络

1.经典的分割网络

1) 在编码阶段,经典分类网络,如VGG[11]、ResNet[12]、GoogLeNet[13]和Xception[14],主要用作编码的骨干(下采样和特征提取);2) 在解码阶段,主要使用反卷积、去极化和线性插值(上采样);3) 分别采用编码和解码对应的求和或concat方法对同尺度特征图进行特征融合;4) 受SENet[15]和ExFuse[16]注意机制的启发,空间注意或通道注意机制模块已被纳入,以更有效地提取目标特征。5) DeepLabV2[17]下的萎缩空间金字塔池(ASPP)模块已被提出用于解决多个目标大小的问题。6) 经典网络只关注分割精度,由于网络参数众多,对硬件要求很高,并且消耗大量时间。

2.经典分割网络的设计基础

1) 减少主干的深度、信道的数量、卷积层的数量以及集成方法的复杂性;2) 用组/深度可分离卷积来替换所述卷积层;3) 增加了早期数据处理;4) 取消所述完全连接的层;以及5)使用迁移学习的设计概念来重组或拆分网络模型。此外,王新潮团队在过去三年中为轻量级网络的设计提出了许多解决方案,如元聚合方案[46]、通过因子分解的数据集提取[47]、动态稀疏变换器方案[48]和变细的扩散概率模型[49]。

三、红外小目标特性分析

真实红外图像的典型样本可以直观地解释真实目标(TT)和各种干扰源之间的差异,如图所示。第3(A)段。五个典型分量被局部放大:TT、正常背景(NB)、高亮度背景(HB)、边缘背景(EB)和像素大小的高亮度噪声(PNHB),如图所示。第3(b)-(f)段。

1.IR小目标公共数据集简介

 红外图像具有以下特征[50]:

1) IR图像是表示缺少颜色信息的目标和背景温度分布的灰度图像。

2) 热成像系统的空间分辨率通常低于可见图像的空间分辨率,导致小目标具有相对模糊的边缘、低对比度和模糊的形状。

3) IR图像无法呈现场景中目标的特定纹理细节。

当前公布的IR小目标数据集存在以下问题:

1) 与上下文中的常见对象(COCO)、ImageNet、加拿大高级研究所(CIFAR)和其他公共数据集中的样本数量相比,IR小目标数据集中的样本数量太少。

2) 这些数据集没有包含足够丰富的红外图像背景和目标信息。

3) 数据集标签是像素级掩码注释,其准确性需要提高。

4) 在一些样品中有明显的人工合成痕迹。

5) 数据集中的目标和背景没有进行排序,而是以大杂烩的形式呈现。

2.红外小目标特性的统计分析

目标局部对比度的概率分布在红外图像中,真实目标可能不一定是最亮的,但比周围的邻域背景略亮。尽管背景可能具有高亮度,但它通常在大面积上温和分布,其内部对比度并不突出。

四、单帧红外小目标分割网络

(1)基于CNN方法的红外小目标分割网络

(a) 非对称上下文特征融合策略

        受ExFuse[16]、DFN[60]和SENet[15]在有效提取红外小目标特征中的使用的启发,注意力引导金字塔上下文网络(AGPCNet)[51]、不对称上下文调制(ACM)[52]等网络,和注意力融合特征金字塔网络(AFFPN)[61]使用自上而下的通道注意力机制提取高级语义信息,使用自下而上的空间注意力机制提取低级特征信息,如图所示。第7(a)-(c)段;X和Y分别表示浅特征图和深特征图。为了最大限度地将网络的焦点放在空间中的某个位置,采用了像素级的空间注意力机制。采用全局平均池的通道注意力机制,为尽可能多的不同通道分配尽可能多不同的权重,并采用非对称上下文特征融合来捕获尽可能多小的目标特征。

(b) 密集嵌套交互式特征融合策略

李等人[53]、何等人[64]和刘等人[65]分别设计了密集嵌套注意力网络(DNANet)、亚像素采样楔形网络(SPSCNet)和图像增强网络,以实现高层次和低层次特征之间的渐进交互,并有效集成包含低层次详细特征和高层次语义信息的多尺度特征图。通过反复融合和增强,小目标的上下文信息得到了组合和充分利用。这些网络的结构如图9(a)-(c)所示。此外,我们还设计了各种嵌套的网络结构,如图9(d)-(i)所示。因此,我们可以通过实验来确定更合适的嵌套结构。

(c) 多尺度特征融合策略

尽管红外小目标在图像中只占据几个像素,但它们会在不同的尺度上发生变化。为了使网络能够尽可能多地学习不同规模的IR小目标的特征,基于DeeplabV2[17]中的ASPP模块、局部相似性金字塔模块(LSPM)[66]、注意力引导金字塔上下文网络(AGPCNet)[51]、AFFPN[61]和多任务UNet(MTUNet)[67],可以使用空穴卷积和自适应全局平均池在高级特征图上构建多尺度特征图。然后,使用concat操作来执行拼接。最后,使用1×1卷积进行特征融合,如图10所示。

(d) 全局和局部块注意力融合策略

IR小目标的正负样本极不平衡导致训练效率低。Chen等人[68]通过结合红外小目标图像的全局和局部特征,提出了一种具有全局关注度的局部补丁网络(LPNet)。从全局角度提出了一种使用小目标扩散图训练的监督注意力模块,以抑制与小目标特征无关的大多数背景像素,如图所示。

正样本通常指的是目标类别,而负样本指的是非目标类别(背景)。在许多机器学习任务中,如二分类、目标检测、异常检测等,由于真实场景的分布不均衡,导致数据中正负样本的数量差异很大。

造成训练效率低下的原因包括:

  1. 样本不平衡影响梯度更新: 在训练中,模型通过梯度下降来更新参数。如果正负样本严重不平衡,那么负样本会占据训练过程中大部分的样本数量,导致模型可能更多地关注负样本,而对于正样本的学习则相对不足,从而影响模型的训练效果。

  2. 模型偏向: 在极不平衡的情况下,模型可能倾向于预测出现频率较高的类别,从而导致模型对于少数类别的识别能力下降。

  3. 不稳定训练: 不平衡的样本分布可能导致模型训练过程不稳定,难以收敛或产生不稳定的结果。

(e) 多监督机制策略

为了准确捕捉红外小目标的形状信息,张等人[54]提出了一种新的红外形状网络(ISNet),该网络主要包括一个泰勒精细差分(TFD)块和两个定向注意力聚合(TOAA)块,TFD块收集并增强来自不同级别的综合边缘信息,以提高目标和背景之间的对比度。TOAA块使用注意力机制来计算行和列方向上的低级别信息,并将其与高级别信息融合,以捕获目标形状特征并抑制用于特征融合的噪声。最后,使用骰子丢失和边缘丢失进行了多次监督培训。

1.为什么会存在不同级别的综合边缘信息?

存在不同级别的综合边缘信息是因为图像和数据通常在不同的尺度、分辨率和层次上包含了丰富的视觉信息。在图像处理和计算机视觉任务中,利用不同级别的综合边缘信息可以提供更全面、更丰富的视觉特征,从而帮助模型更好地理解图像中的内容。

以下是存在不同级别的综合边缘信息的几个原因:

  1. 多尺度表示: 图像中的物体和结构可能在不同的尺度上表现出不同的特征。为了全面捕获图像中的信息,需要在不同的尺度上分析图像,这就导致了不同级别的边缘信息。例如,某些边缘特征可能在粗糙的尺度上更容易检测,而其他特征可能在细粒度的尺度上更明显。

  2. 多层次特征: 计算机视觉任务通常使用多层次的神经网络来提取特征。这些层次可以捕获不同抽象级别的特征,从低层次的边缘、纹理到高层次的语义、形状。不同层次的边缘信息可以提供多层次的视觉表示。

  3. 噪声和变化: 图像通常受到噪声、光照变化、遮挡等因素的影响,这些因素可能在不同的层次和尺度上产生边缘信息。通过整合来自不同级别的信息,可以增强模型对这些变化的鲁棒性。

  4. 任务需求: 不同的计算机视觉任务对边缘信息的需求可能有所不同。一些任务可能需要更精细的边缘信息,而其他任务可能更关注整体的结构和形状。

2.多尺度怎么理解?

"多尺度" 指的是在不同的尺度(大小)上分析和处理数据,这可以涵盖多个方面,包括大小、通道、分辨率等。因此,"多尺度" 并不仅限于大小的变化,还包括其他特征的变化。

具体来说:

  1. 大小不同(尺度变化): 这是最常见的多尺度变化。图像或数据可以在不同的尺度上进行缩放、放大、裁剪等操作,从而产生不同大小的版本。这种变化可以帮助捕获不同尺度下的特征和结构。

  2. 不同通道(颜色/特征通道): 多尺度分析可以在不同的颜色通道或特征通道上进行,以捕获多样性的信息。例如,在图像中的红、绿、蓝通道可能呈现不同的视觉信息。

  3. 分辨率不同: 分辨率指的是图像或数据中的细节级别。通过改变分辨率,可以从粗糙到细致地分析数据,从而捕获不同细节级别的特征。

  4. 层次结构: 在深度学习中,多尺度可以表示在不同层次的网络中提取特征。不同层次的网络可以捕获不同抽象级别的信息,从边缘、纹理到语义。

  5. 空间变换: 多尺度分析还可以涉及空间变换,如几何变换、旋转、平移等,以提取不同空间位置上的特征。

(f) 生成对抗策略

由于红外小目标的正负样本极不平衡,Wang等人[10]引入了一种用于红外小目标检测的生成对抗性网络(GAN),以平衡漏检和虚警问题;所提出的由两个生成器和一个鉴别器组成的条件生成对抗性网络(MDvsFA)有效地平衡了这个问题。关于发电机,G1和G2分别降低了漏检率和误报率,如图14(a)所示。最后,将鉴别器网络用于对抗性训练,以有效平衡问题,如图所示。第14(b)段。在推断阶段,使用两个生成器生成的结果的平均值作为最终分割结果。

生成对抗网络GAN是什么?

生成对抗网络(Generative Adversarial Network,简称 GAN)是一种深度学习架构,由伊恩·古德费洛等人于2014年首次提出。GAN 的设计灵感来自于博弈论中的“对抗”概念,它由两个互相对抗的网络组成:生成器(Generator)和判别器(Discriminator)。

生成器的任务是创建看起来与真实数据相似的新样本,而判别器的任务是区分生成器生成的样本与真实数据样本。两个网络相互对抗,通过不断的迭代训练,使得生成器逐渐生成更逼真的样本,同时判别器也变得越来越擅长区分生成样本和真实样本。

(g) 轻量化设计策略

提高红外小目标的探测精度和速度是红外探测系统能否有效满足超视距作战、敌前探测和及时预警的战场要求的关键。因此,设计一种可以部署在嵌入式设备中的高精度、高速度的红外小目标检测算法具有重要的现实意义。

(h) 单点监管策略

现有的基于深度学习的红外小目标分割网络都依赖于具有像素级注释的完全监督训练。然而,像素级标签标注需要大量的人工成本,而且红外小目标的边缘形状非常模糊,难以实现精确标注。为了解决这个问题,Ying等人[76]首先提出了一种用于弱监督单帧红外小目标检测问题的新框架,称为单点监督标签进化(LESPS)。具体而言,LESPS利用训练阶段的中间网络预测来更新当前标签,直到下一次标签更新为止。通过迭代标签更新和网络训练,网络预测最终可以近似更新后的伪掩模标签,并且可以同时训练网络,以端到端的方式实现像素级SIRST检测。

(2)IR基于模型驱动+CNN方法的小目标分割算法

考虑到IR小目标可能不是图像中的最亮点,局部对比度的差异是必要的。Hou等人[78]提出了一种鲁棒的红外小目标检测网络(RISTDnet)。首先,采用传统的滤波方法增强红外小目标的强度。随后,使用角点检测来找到潜在的目标区域。最后,将这些区域输入到基于CNN的分类器中,以消除非目标区域并有效抑制复杂背景杂波。

角点检测是计算机视觉领域中的一项基础任务,旨在识别图像中的角点或特定位置,这些位置在图像上呈现出较大的强度变化。角点通常是图像中物体的边缘、角落或交汇点,它们在图像处理和计算机视觉任务中具有重要的意义,因为角点包含了物体的关键信息。

角点检测的目标是从图像中找到这些特定位置,通常表现为局部区域的强度峰值。角点检测的应用广泛,包括目标跟踪、图像匹配、三维重建、相机标定等领域。

(3)基于CNN+Transformer方法的红外小目标分割算法

Dosovitskiy等人[81]提出了一种视觉转换器(ViT)。通过这一点,他们首次证明了变换器可以完全取代CNN,并直接应用于图像块序列的分类和预测。ViT的整体结构如图22(a)所示。

5.多帧红外小目标分割和超分辨率增强网络

虽然单帧红外小目标检测具有较低的计算复杂度,并提供了良好的实时性能,但它没有考虑帧之间的关系,导致在复杂环境中漏检或误报。因此,一些学者考虑了图像帧之间的关系,并相应地提出了基于深度学习框架的图像序列中红外小目标的分割算法。

6.损失函数

在语义分割网络的训练过程中,需要计算预测结果和标签之间的差异。然后可以使用梯度下降方法来最小化这些差异,以进一步研究相关规则和优化方向。损失函数𝐿(𝜃, 𝑑) ≥ 0通常用于表示真值之间的误差𝜃 和预测值𝑑. 预测越准确,损失值就越小。考虑到红外小目标分割任务是一个正负样本极不平衡的二元任务,常用的均方误差(MSE)损失、平均绝对误差(MAE)损失和交叉熵损失等损失函数不适用于红外小目标的分割任务。考虑到红外小目标的特点,可以使用以下损失函数进行训练。

(1)二进制交叉熵损失

(2)焦点损失

(3)骰子损失和IoU损失

(4)特维斯基损失

(5)不同损失函数的组合应用

7.评价指标

(1)精度指标

(2)精确度、召回率和F1分数

(3)IoU和mIoU

(4)PR曲线、ROC曲线和AUC面积

8.计算复杂度指标

(1)执行效率

(2)内存使用

(3)延迟和FPS

(4)稳健性指数

9.实验分析

10.算法方面问题

1) 数据集不够丰富。数据是深度学习算法研究的基础,而红外小目标公共数据集分辨率低、数量少、掩码标签不准确,严重影响了分割算法的准确性。

2) 算法设计需要优化。图图29清楚地表明,在目标能量弱、局部对比度低和背景干扰严重的情况下,13种不同的IR小目标分割网络会产生误报或漏检。因此,为了更有效地提取红外小目标的语义信息,需要在算法设计上付出更多的努力。

3) 评价指标有待讨论。现有的基于深度学习的分割算法评价指标过于片面,无法充分反映红外小目标分割算法的性能。合理的评价指标是必要的,值得进一步讨论。

  • 7
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值