点击蓝字
关注我们
关注并星标
从此不迷路
计算机视觉研究院
公众号ID|计算机视觉研究院
学习群|扫码在主页获取加入方式
计算机视觉研究院专栏
Column of Computer Vision Institute
在海洋领域,红外检测技术对于在安全任务中及时定位和检测舰船具有重要意义。然而,由于红外舰船目标常常处于像素占比小、对比度低以及背景复杂的环境条件下,这给多舰船的检测、分类和定位任务带来了巨大挑战。
PART/1
概述
为了解决这些问题,我们提出了一种边缘信息引导的红外舰船目标检测(EGISD-YOLO)网络。在该网络中,设计了一种密集型跨阶段局部(dense-csp)结构,对YOLO的CSP模块进行改进,以提高主干网络特征信息的可复用性。此外,为了解决复杂背景下图像产生的噪声和干扰问题,设计了一种反卷积通道注意力模块(DCA),将上下文语义信息与图像相关联,通过关联上下文语义来获取目标的局部信息。至关重要的是,我们提出了一种边缘引导结构,该结构以低层特征的边缘信息作为线索,与高层特征进行融合,以丰富目标轮廓,从而提高目标定位能力,使得网络在低对比度条件下仍具有鲁棒性。最后,我们在网络末端添加了一个小尺寸预测头,以进一步提升对弱目标的检测能力。实验证明,所提出的EGISD-YOLO网络对红外舰船目标具有更好的检测性能。
PART/2
背景
近年来,红外检测技术发展迅速,其非接触式以及被动检测的特点使其成为民用侦察与检测领域的研究热点,受到了世界各国的广泛关注。在海洋领域,红外检测技术已广泛应用于预警系统、防空系统和海防系统中。在海防系统中,海上舰船目标检测不仅能够探测舰船目标以防止碰撞,还能为海上搜救等工作提供技术支持,因此备受关注。与可见光相比,红外具有抗干扰能力强、可24小时连续工作、夜间无需补光等特点,并且在隐藏自身的同时还能较好地检测其他目标物体。然而,由于其目标因素的独特性,对红外舰船进行精确检测和识别极具挑战性。一般来说,海上舰船目标由于成像距离的原因,导致目标在整个图像中所占像素较小,而且由于红外图像纹理特征较少,与背景之间的对比度低,很容易淹没在复杂的海杂波中,这些特点使得红外舰船小目标检测更加困难。在港口场景中,由于拍摄距离较近,停靠的舰船目标数量较多,且每个目标在整个图像中所占像素较多,这些不同的场景和目标大小给海上舰船目标的检测带来了一定的困难,如下图所示(这些图像来自下文第三节介绍的红外舰船数据集)。
当前红外舰船目标检测方法的准确性和实时性尚不能完全满足海防场景的需求,因此红外舰船目标检测技术仍然是当前研究的重点和难点。早期的传统目标检测方法,通常使用基于手工设计特征的算法,通过在图像上滑动窗口并使用分类器或回归器来检测目标,但大多由于其有限的特征表示能力、依赖手工标注的边界框、处理尺度和旋转时缺乏鲁棒性、难以处理目标遮挡和部分可见性问题,以及训练和推理效率相对较低。如今,随着深度学习的快速发展,它为目标检测领域带来了巨大帮助。目前主流是使用深度卷积神经网络(CNN)来学习特征,这类方法具有很强的特征表达能力和泛化能力,在应对舰船目标处于港口等复杂场景时表现较好,并且无需手动提取特征,而是直接从原始图像中检测目标,因此能够大大提高舰船检测的定位精度和效率。
(A)边缘引导方案在图像处理和计算机视觉领域,早期对图像边缘信息的研究大多用于图像增强或目标轮廓获取,例如,使用索贝尔(sobel)算子、坎尼(canny)算子等方法进行图像梯度计算和阈值处理,以识别边缘信息。然而,随着深度学习的发展,由于图像边缘特征包含有关物体形状和轮廓的丰富信息,并且具有在神经网络中辅助获取目标定位和分割语义的特性,因此它们被广泛应用于目标分割和目标检测的研究中。在目标分割研究方面,文献以边缘信息为引导来锐化目标,边缘信息大多是从上下文语义中整合而来,以获取定位信息,辅助合成的高低层特征信息的融合,从而实现分割。而文献则通过掩码引导的金字塔网络来获取边缘语义;在目标检测研究方面,文献使用不同尺度的编码器部分,将特征与目标显著边缘提取网络逐步融合,形成一个U形结构,以合并物体特征并增强边缘,从而应对物体的粗糙边界。然而,目前目标检测方向的大多数研究都是针对显著目标的边缘,对于对比度低且轮廓边界模糊的红外舰船图像,其引导网络的结构仍值得进一步改进和探索。
(B)深度学习方案早期的传统目标检测方法,如哈尔(haar)特征和自适应提升(AdaBoost)级联方法、基于方向梯度直方图的方法基于特征变换的方法等,但大多由于特征表示不足、对照明变化敏感、受复杂背景干扰、难以应对视角变化、存在目标遮挡问题以及分辨率低等一些缺点,这些缺点限制了它们在红外舰船目标检测任务中的准确性和鲁棒性。深度学习作为计算机视觉领域的一个重要分支,在目标检测、分割和分类等任务中取得了显著的成果。这类方法可以通过构建深度神经网络模型,从大量图像数据中学习高级特征表示,从而实现对图像的理解和分析。
目前,主流的检测网络分为两类检测类型:1)单阶段检测;2)两阶段检测。单阶段检测算法,如YOLO、SSD、RetinaNet等,只需要一个特征提取过程,检测速度更快,非常适合对实时性有要求的场景,但相对检测精度较低;两阶段检测算法以RCNN系列算法(FasterRCNN、MaskRCNN等)为代表,首先使用生成的多个候选框进行特征提取和分类,然后对被分类为目标的候选框进行定位调整以完成回归任务,其精度较高,但无法满足海上监测等任务的实时性需求。基于近期的研究学习,我们总结发现,使用YOLO模型作为框架的网络在各种检测任务中表现良好。例如,文献基于YOLO算法优化了交并比(IoU)损失和模块计算方法,以便将其应用于嵌入式设备部署和舰船检测。文献分别基于YOLOv3和YOLOv5设计了相关结构,并添加了注意力模块,以提高遥感舰船图像的检测精度。在文献中,使用YOLOv5对合成孔径雷达(SAR)舰船图像检测模型的轻量化方法进行了深入研究。端到端回归方法通过图像分割来预测边界框和类别,具有很强的实时性和全局感知能力,适合红外舰船目标的检测和分类。因此,在对各种结构进行分析和比较后,我们最终选择YOLOv5作为所提出方法的网络主干。
PART/3
新算法框架解析
为了详细研究和分析图像特征和算法特点,如下图所示:
我们分别使用分割算法和边缘提取方法来提取掩码图像和边缘图像。具体来说,在分割过程中,我们将数据集中的xml真值标签转换为YOLO格式的相应标签,然后在ISAT平台上通过人工监督,使用分割一切模型(SAM)分割方法中的移动版SAM模型(mobile-sam)将红外舰船目标与背景分离,并转换为掩码图像。然后使用坎尼(Canny)算子和形态学操作,利用掩码提取目标边缘并对边缘进行平滑处理,最后生成边缘真值图像,以便与设计的网络进行比较并评估相应的指标。本研究中的红外舰船目标检测方法将充分利用这个数据集的优势和特点,具有以下好处和意义。真实场景验证:这个数据集是在真实的海防场景下收集的,涵盖了广泛的实际环境,如海洋、港口和滨水区域。因此,我们的红外舰船目标检测方法可以在真实场景中进行验证,并且验证结果对于实际应用更具有效性;多样性:该数据集收集了不同分辨率和焦距的红外图像,并且包含七种类型的舰船目标。这种多样性使得我们的方法能够在不同类型的舰船目标上进行测试和评估,提高了该方法的泛化能力;大规模数据:该数据集包含8000多幅红外图像,提供了丰富的训练和测试数据。因此,它可以有效地提高我们的红外舰船目标检测方法的性能和准确性;标注准确性:数据集中的舰船目标使用矩形框进行标注。xml标签包含了每种舰船类型的数量、大小和位置信息,因此保证了边缘和掩码图像生成的准确性。这种标注准确性使我们能够进行准确的目标检测和识别,并评估我们的方法在目标定位和边界框回归等任务上的有效性。
整体架构EGISD-YOLO的网络架构如上图(a)所示。整体由三个部分组成:主干网络(Backbone)、颈部网络(Neck)和预测头(PredictorHead)。该网络以YOLO-v5s模型为基本框架,其模块组成如上图(b)所示。与YOLO-v5的其他几种模型相比,该模型的参数数量较少,检测速度更快,这确保了对舰船目标的实时检测,也便于我们对网络进行改进。首先,在主干网络部分,我们用新的密集CSP(DenseCSP)模块替换了所有原有的CSP模块,通过特征复用和梯度流来增强特征表达能力。然后,在主干网络和颈部网络之间,如上图(a)中黄色部分所示,设计了一个边缘引导结构。
该结构从主干网络底部的CBS模块开始,依次与顶部的CBS模块进行跳跃连接,在整合到感受野最大的CBS模块后,通过一个EG模块层将特征的边缘信息引入颈部网络中两个不同尺度的特征中,这增强了对淹没在背景中的目标的定位能力。此外,在颈部网络中添加了通道注意力机制,该机制与SPPF的融合特征相呼应,在不显著增加计算量的情况下增强了对目标语义的关注。最后,在预测头部分新增加了第四个预测头,用于聚焦弱目标,降低检测结果的误检率和漏检率。与原始的YOLO-v5结构相比,我们面向红外舰船目标的模型能够展现出更好的检测效果。
密集型跨阶段局部(DenseCSP)模块
CSP模块的结构可参考上图(b)中所示的CSP2_X,它将输入特征拆分成两个分支进行处理,这促进了特征的复用以及信息的流动;跨层连接确保了模型的推理速度和梯度传播的稳定性。密集(Dense)结构能够增加模块内部的非线性变换和特征组合,以便更好地捕捉输入数据中的复杂关系和特征交互作用,进而进一步增强特征表达能力。因此,我们将这两者相结合,构建了密集型跨阶段局部(DenseCSP)模块,其结构如下图所示。
反卷积通道注意力模块通道注意力机制能够在抑制红外舰船图像背景中存在的大量噪声和干扰方面发挥作用,通过网络自适应计算,对那些对特征目标关注度高的通道赋予更高的权重,就可以分离出重要信息。然而,我们通过实验发现,对于处于舰船种类繁多且存在弱目标环境下的图像而言,这些目标特征缺乏局部语义信息,我们需要扩大感受野来获取非局部的上下文信息。
结合上述情况,并受文献的启发,我们在主干网络(Backbone)的空间金字塔池化快速(SPPF)模块之后设计了一种将通道注意力和反卷积相结合的算法。首先,我们将输入特征“Feature1”输入到上图(a)所示的通道注意力结构中,通过池化操作和多层感知器(MLP)将全局信息转换为向量表示,然后对一维特征的非线性关系进行建模,该建模是通过对初始特征“Feature2”进行加权生成的;然后进入上图(b)中注意力机制的反卷积部分。
如上图所示,突出显示的部分是目标的关注区域,融合前的特征对背景中的特征缺乏敏感度。然而,在边缘信息引导下的目标特征明显将注意力从模糊的背景转移到了舰船目标上,这进一步证实了我们方法的有效性。
PART/4
实验及可视化
定量结果为了公平地评估EGISD-YOLO的性能,我们采用了七种最先进的目标检测方法进行对比,其中包括使用单阶段多尺度特征层的SSD、带有两阶段检测器和共享特征的Faster-RCNN、采用质心检测方法的CenterNet、具备结构扩展和双向加权特征能力的EfficientDet、使用焦点损失(FocalLoss)优化分类问题的RetinaNet,以及在全局感知和实时检测方面表现出色的YOLO系列(YOLO-v5、YOLO-v7)。为了充分展示参与实验的检测方法在我们实验中的性能和评估水平,我们选择忽略性能较差的传统方法,并将基于TensorFlow平台的RetinaNet和CenterNet适配到PyTorch深度学习框架中,以确保模型的计算速度和稳定性。
如上表所示,我们从最直观的精确率、用于验证检测结果真实性的召回率,以及不同阈值下的平均精度评估(mAP50和mAP{0.5:0.95})等方面对EGISD-YOLO和其他方法进行评估。其中,mAP50用于更宽泛的阈值性能评估,而mAP{0.5:0.95}则更倾向于严格的交并比(IoU)范围控制;此外,我们还引入了模型大小和检测速率来衡量模型的复杂度和实时性能。表格中用粗体标注的数据代表每列的最佳结果。可以看出,EGISD-YOLO在未显著增加复杂度的情况下,实现了最高的精确率(96.3%)和召回率(91.2%),同时也保持了较高的平均精度均值(mAP)水平,且检测速率与基线模型基本相同。此外,对于数据集中样本目标较少的帆船、独木舟和渔船类别,模型的学习任务更加困难,提高对这些类别的检测能力是一个巨大的挑战,这就要求模型在训练中展现出卓越的目标分类能力。因此,我们分别分析它们的精度指标,以观察网络的分类性能。
上面的两个图展示了这三个类别的精度对比,结果表明,大多数方法在处理这类目标时精度明显较低,这意味着在预测中出现漏检和误检的可能性更大,而我们的方法仍然表现出较高的检测正确率,这从侧面展示了该算法出色的鲁棒性。
如上图所示,我们使用所提出的EGISD-YOLO算法与其他方法,对数据集中预测集的四个具有代表性的场景进行预测实验,并分析所得到的定性结果。图中第一列是原始图像,我们可以观察到,在第一个场景较为复杂的图像中,大多数算法都出现了不同程度的误检和漏检情况。由于目标数量众多,这导致了严重的偏差,并且在像SSD和Retinanet等定位能力较弱的网络中,难以识别港口附近背景与目标之间的差异。相比之下,我们的方法不仅能够正确识别目标,而且在边缘信息的精确引导下还能获得较高的置信度分数。在第二张图像中,我们选择了一张背景与目标之间对比度较低的图像,这对于算法评估目标的置信度来说是一个相当大的挑战。例如,在CenterNet中,目标的置信度下降到大约一半,这对于严格的交并比(IoU)阈值处理任务来说,可能会导致目标的丢失。在第三张和第四张图像中,我们继续检验网络在分类和预测框方面的准确性,我们的算法既实现了准确的处理和判断,又展现出了出色的计算速度。
有相关需求的你可以联系我们!
END
转载请联系本公众号获得授权
计算机视觉研究院学习群等你加入!
ABOUT
计算机视觉研究院
计算机视觉研究院主要涉及深度学习领域,主要致力于目标检测、目标跟踪、图像分割、OCR、模型量化、模型部署等研究方向。研究院每日分享最新的论文算法新框架,提供论文一键下载,并分享实战项目。研究院主要着重”技术研究“和“实践落地”。研究院会针对不同领域分享实践过程,让大家真正体会摆脱理论的真实场景,培养爱动手编程爱动脑思考的习惯!
往期推荐
🔗