伪装目标检测及其拓展研究:综述

伪装目标检测(COD)指的是识别并分割出那些与其周围环境无缝融合的目标的任务。近年来,由于其在监控、野生动物保护、自主系统等多个领域的潜在应用,COD受到了广泛关注。尽管已有一些关于COD的综述,但它们在所涵盖论文的数量和范围上往往存在局限性,特别是自2023年中以来,该领域取得了迅速进展。为了填补这一空白,我们提供了迄今为止最全面的COD综述,涵盖了该领域的理论框架和实践贡献。本综述依次深入探讨四种不同领域的COD方法,基于传统手工特征和深度学习特征,并跨越了图像级和视频级两个层面。除此之外,我们还深入研究了COD与其他隐蔽场景理解方法之间的相关性,为后续研究奠定了理论基础。另外,我们还分析了如基于引用的COD和协同COD等新颖任务,这些任务在以往的工作中并未得到充分讨论。除了目标级检测外,我们还总结了实例级任务的扩展方法,包括伪装实例分割、计数和排序等。同时,我们概述了COD任务中常用的基准数据集和评估指标,并对图像和视频领域的深度学习技术进行了全面评估,考虑了定性和定量性能。最后,我们讨论了当前COD模型的局限性,并提出了九个有前景的未来研究方向,旨在解决固有挑战并探索新颖、有意义的技术。本次全面考察旨在深化对伪装场景下COD模型及相关方法的理解。本文对综述中关键图表及部分内容进行描述总结,欢迎从以下链接中获取综述完整内容,或从我们整理的Awesome仓库中获取更多信息。

论文下载链接:A Survey of Camouflaged Object Detection and Beyond

Awesome仓库链接:Awesome Concealed Object Segmentation

引言

背景

物体检测是计算机视觉的一项基本任务,涉及识别和定位图像或视频中的物体。它包括各种细粒度子域:通用目标检测(GOD)、显著目标检测(SOD)和伪装目标检测(COD)。GOD的目标是检测一般物体,而SOD的目标是识别从背景中突出的显著物体。相比之下,COD的目标是那些融入周围环境的物体,这使得它成为一项极具挑战性的任务。图1显示了目标犬与其背景在GOD、SOD和COD任务之间的关系,这些任务来自其中的经典数据集。COD因其在促进细微差别辨别的视觉感知发展和促进各种有价值的现实应用方面的优势,近年来得到了越来越多的关注和快速发展。然而,与GOD和SOD不同的是,COD涉及到检测故意设计成不显眼的物体,如图1中最右边隐藏在森林中的斑点狗,由于它与周围环境的伪装而难以被检测到,因此需要更复杂的检测策略。

图1 GOD、SOD和COD任务输入样本的差异。从左到右的三只狗分别来自GOD数据集COCO、SOD数据集DUTS和COD数据集COD10K

COD可进一步分为图像和视频任务。图像级COD用于检测静态图像中的伪装物体,而视频级COD(VCOD)用于检测视频序列中的这些物体。后者由于时间连续性和动态变化带来了额外的复杂性,需要能够有效提取空间和时间特征的模型。传统的COD方法,包括纹理、强度、颜色、运动和光流等,在特定的场景中显示了它们的优势,但也存在明显的缺点。这些方法依赖于人工设计的算子,特征提取能力有限,难以处理复杂的背景和变化的物体外观,限制了准确性和鲁棒性。相比之下,基于深度学习的COD方法通过自动学习丰富的特征表示,具有显著的优势。此外,这些方法利用各种策略来解决这些具有挑战性的任务,如聚合多尺度特征,模拟仿生机制,融合多源信息,学习多任务,联合SOD和设定新任务等策略。尽管这些方法具有优势,但它们也面临着棘手的挑战,包括对高计算、大型注释和干净成对数据集的需求。

动机

然而,现有的COD综述局限于范围狭窄和论文数量有限。例如,这些调查中讨论的大多数方法都是在2023年上半年之前,导致历史深度和领域广度不足。如图2所示,COD领域在2023年发展迅速。为了解决这些差距,我们提出了一项更全面的调查,不仅涵盖了图像和视频领域的传统和深度学习COD方法,还对这些领域的深度学习模型进行了基准测试。此外,据我们所知,这项调查是第一次深入探索基于参考的COD和协同COD等新任务。我们还对常用的COD数据集进行了更广泛的回顾,并全面介绍了最近的进展、挑战和未来趋势。

图2 柱状图显示了四种情况下COD方法的持续增长。对各个时期的代表性作品进行分类,并在线形图上进行标记,每个场景对应不同的颜色

贡献

  • 我们全面回顾了伪装场景理解(CSU)中现有的COD方法和相关任务,以及常用的数据集和评估指标。据我们所知,这项工作代表了迄今为止最广泛的调查,包括大约180个与CSU相关的前沿研究。

  • 我们在6个特征数据集和6个典型评价指标上,系统地对基于深度特征的具有代表性的40个图像级和8个视频级模型进行基准测试,并对其进行定量和定性分析。

  • 我们系统地分析了现有COD方法的局限性,并提出了未来研究的潜在方向。通过揭示这些挑战和机遇,我们的工作有助于指导和激励进一步的研究工作,以推进最先进的COD技术。

  • 我们创建了一个Awesome仓库,其中包含精心策划的COD方法,数据集和相关资源,这些资源将不断更新,以确保可以访问最新的信息。

图像级COD方法

图像级COD是指在静态图像中识别和区分旨在融入周围环境的物体的过程,目前备受关注。在本节中,我们根据它们使用的特征将这些方法分为两种主要方法:传统的COD方法和深度学习COD方法。传统方法通常依赖于手工制作的特征,而深度学习方法利用神经网络从数据中自动学习和提取判别特征。鉴于技术的快速发展,我们将主要关注深度学习COD方法,这最近已成为主流方法。

传统COD方法

COD最初植根于传统的图像级方法,利用手工制作的低级功能来捕捉纹理、强度和颜色的细微差别。这些方法构成了这个领域早期工作的基础。表1总结了这些方法的相关模型和特点。

表1 14种具有代表性的图像级COD传统方法

手工制作的低级特征是专门设计的,具有高度的辨别性,使它们在检测和分割对象时有效。通过强调纹理、颜色等的差异,这些特征有助于隔离隐藏的物体。然而,伪装试图将这些区别最小化,降低能见度并将物体混入背景中。因此,传统的方法在COD中是受局限的,在简单的场景和统一的背景下成功性较高,但这些方法往往在低分辨率图像或前景和背景具有显著视觉相似性的情况下表现不佳。

深度学习COD方法

传统方法依赖于手工制作的低级特征来捕获图像的关键属性,而深度学习方法通过自动学习表示直接从数据中提取复杂和深度的特征,在各种计算机视觉任务中表现出卓越的性能。根据现有的综述,COD的深度学习方法可以根据三个基本标准进行大致分类:网络架构,学习范式和监督水平,三个标准的详细描述如图3所示。

图3 深度学习COD方法的网络架构、学习范式和监督层次

表2和表3列出了2019-2022年和2023&2024年分别发表的104种具有代表性的图像级COD方法的关键特征。

表2 2019 - 2022年发表的36种具有代表性的图像级COD深度学习方法。N.A:根据输入输出配置不同的网络架构,包括L (线性)、A (聚合)、B (分支)和H (混合)。L.P.:学习范式,包括S(单任务)和M(多任务)。S.L:监管级别,包括F(全监管)、W(弱监管)、S(半监管)、U(无监管)和TF(无训练)

表3 2023&2024年发表的68种具有代表性的图像级COD深度学习方法

除此之外,从策略角度,现有的方法还采用了聚合多尺度特征、模拟仿生机制、融合多源信息、学习多任务、拼接SOD、建立新任务等策略来提高COD性能。这些策略强调了研究人员在应对COD挑战时采用的多样化和创新方法,揭示了推动进步的基本原则和技术。通过关注这些策略,我们可以更好地了解不同方法的优势和局限性,识别新兴趋势,并为未来的研究提供更清晰的路线图。然而,目前缺乏对所采用的各种战略的详细分类和分析。因此,我们的目的是提供一个详细的介绍这个领域。图4给出了本文中讨论的各种方法的全面细分,以及它们各自对整体分析的贡献,如下小节详细介绍,包括6种类型以及多任务和多源策略的子类型。

图4 本研究中分析的深度学习COD论文与每种策略的比例

视频级COD方法

与专注于单个静态图像的图像级COD技术不同,VCOD需要更加强调运动线索,以识别和定位连续视频帧中的伪装对象。VCOD通常利用时间信息,如跨帧的运动和变化,来显示在单个帧中难以检测到的对象。然而,这项任务提出了重大挑战,包括复杂的背景噪声、照明变化、遮挡和各种伪装策略。此外,视频数据的高维特性要求算法不仅在空间上准确,而且在时间上一致和稳定。在本节中,我们将现有的方法分为两大类:传统方法和基于深度学习的方法。

传统VCOD方法

与图像级方法相比,视频级方法包含了更多的技术,如光流分析和运动检测,使其在视频监控和安全方面具有实用性。如表4所示,本节将深入研究12种具有代表性的传统VCOD模型,并根据其所依赖的特征类型对这些方法进行分类和介绍。

表4 12种具有代表性的VCOD传统方法

深度学习VCOD方法

与传统的VCOD技术相比,深度学习方法通过自动学习大型数据集中的复杂特征表示来验证其显著优势。这些方法具有捕获复杂和微妙模式的独特能力,从而增强了对视频序列中对象动态的理解。然而,与基于图像的方法相比,视频数据呈现出更大的复杂性。这种增加的复杂性源于诸如更高的数据维度、跨帧的时间连续性以及视频内容中动态变化的不断演变性质等因素。这些因素要求模型不仅要具有强大的空间特征提取能力,还要具有准确捕捉细微时间变化的强大机制。尽管有了很大的进步,但现有的工作主要集中在利用不同帧之间的运动线索,这些方法仍处于发展的早期阶段,在成熟之前还有相当大的发展空间。表5详细列出了16种具有代表性的VCOD方法的关键特征。

表5 16种有代表性的VCOD深度学习方法。N.A.:网络架构,包括两阶段框架,具体来说,EM(显式运动方法)和IM(隐式运动方法),以及端到端框架(EE)。O.F:是否预生成光流图。S.L:监管级别,包括F(完全监管)、S(自我监管)和U(非监管)。S.D.:是否生成合成数据集

研究人员初期采用两步框架,即预先生成光流图或伪掩模作为视频目标检测的运动线索。然而,由于与累积误差和弱泛化相关的挑战,采用端到端通用模型来提高可靠性的趋势越来越大。图5阐述了这两种框架的区别。

图5  深度学习VCOD方法的两种框架,其中两阶段框架分为基于显式和隐式运动的方法

其他隐蔽场景任务

除了COD和VCOD的基本任务之外,隐藏场景理解领域已经发展到包含更广泛的高级语义任务。这些任务旨在提供对伪装对象的更深层次的理解,从它们的分类延伸到新的伪装图像的生成。本节将深入研究以下高级任务,每个任务都解决隐藏场景理解的独特方面。详细描述如图6所示。

图6 对COD、VCOD和其他伪装场景任务的描述。蓝框中的五个是对象级任务:(a)伪装对象分类(COCLs), (b)伪装对象定位(COL), (c)伪装对象检测(COD), (d)伪装实例计数(COCnt), (g)视频级伪装对象检测(VCOD)。剩下的两个黄色框中的是实例级任务:(e)伪装实例排名(CIR)和(f)伪装实例分割(CIS)

实验

数据集

表6 图像级和视频级COD数据集的基本信息。Level:图像(I)和视频(V)。Train/Test:用于图像数据集的图像或用于视频数据集的帧。N.Cam.:是否收集非伪装样本。Type:数据集的对象类别。Cls.:是否为COCnt提供分类标签。Fix.:是否提供COL固定注释。B. Box:是否提供边界框标签。Obj.:是否提供对象级分段掩码。Ins.:是否为COL提供实例级分段掩码。Ran.:是否为CIR提供排名标签。Scr.:是否以潦草的形式提供缺乏监督的标签。Gro.:是否为CoCOD提供组内图片对应的类别标注。Uns.:是否为OVCOS提供未知类。Ref.:是否为RefCOD提供参考图片

在目前的研究实践中,图像级COD模型实验通常选择的最具代表性的数据集是CHAMELEON、CAMO-COCO、COD10K和NC4K。用于训练的常用设置包括来自CAMO的1,000张图像和来自COD10K的3,040张图像,这些数据集的其余部分用于测试模型的泛化能力和可行性。为了保持分析的一致性,我们将在随后的图像级COD模型的性能比较中采用这种设置。

图7 来自8个特征COD数据集的示例。从左至右:(a) RGB图像,(b)对象级真值,(c)边缘图(d)实例级真值,(d)边缘图,(e)排序图,(f)固定图,(g)涂鸦注释。红色和蓝色框分别表示一组输入和输出

图8 来自三个特征VCOD数据集的示例。从左至右:(a) RGB帧,(b)对象级真值,(c)边界框

评价指标

我们使用现有研究四种常见评估指标来评估现有的COD模型。这些指标,即S-measure ( )、F-measure ( )、E-measure ( )和平均绝对误差( ),提供了对性能的全面评估。 、 和 越高, 越低,模型越准确。对于VCOD,除了上述四个指标,我们还使用平均Dice (mdevice)进行相似性评估,使用平均IoU (mIoU)进行重叠度量。较大的mdevice和mIoU分数表示较好的性能。

定量实验

表7 CHAMELEON,、CAMO、COD10K和NC4K测试数据集上COD方法的定量比较,其中竞争方法根据其使用基于卷积或基于Transformer的主干进行分类。红色和蓝色分别表示每个类别中的最佳和次佳

表8 CAD2016和MoCA-Mask测试数据集上VCOD方法的定量比较,其中竞争方法根据其使用的输入数据类型分为基于图像和基于视频的方法。红色和蓝色分别表示每个类别中的最佳和次佳

定性实验

图9 10种图像级COD方法的定性结果

未来研究方向

缓解当前问题

  • 数据稀缺性的深度生成模型:为了缓解数据的稀缺性,利用深度生成模型来合成多种逼真的伪装图像将通过数据集增强来提高训练效率,增强模型在处理伪装场景时的鲁棒性。随着以GAN和扩散模型为代表的图像生成模型的兴起,现在可以使用其他多模态输入(如文本)来控制和生成多样化和高质量的图像。这一进步可以有效地解决该领域长期存在的数据稀缺问题。通过同时使用生成的伪装对象数据和原始数据集进行训练,可以显著提高性能。

  • 处理复杂的场景和具有挑战性的样本:解决COD的复杂性需要解决复杂场景和困难样本所带来的各种挑战。关键问题包括极其复杂的背景和先进的伪装技术,使物体几乎看不见。图10描绘了一些极其隐蔽的场景,具有挑战性的样本,包括多目标、严重遮挡、外观模糊、小物体、破坏性、透明、背景高度重合、边界模糊、结构模糊、形状变化大、罕见、黑暗、退化场景中的物体等。

图10 极端复杂场景下12个具有挑战性的示例图。从左至右:(a) RGB图像,(b)对象级真实情况
  • 有限条件下的标注高效学习:在约束条件下的COD背景下,注释高效学习成为解决标记数据稀缺性的关键方法。诸如few/zero - shot学习、弱监督学习和开放世界学习等策略旨在缓解详尽注释需求的挑战。总的来说,这些方法努力克服稀缺注释和看不见的对象类所带来的困难,从而在实际的、注释受限的场景中推动隐藏对象检测的边界。

  • 伪装损失函数:特定伪装损失函数的引入通过将模型优化导向准确区分伪装区域和显著区域,从而增强了COD的训练过程。例如,SCLoss通过将空间一致性纳入模糊区域的学习过程显示出前景。这种方法显著提高了网络在伪装对象中识别边界和细微差别的能力。通过关注单个像素响应及其相互作用,SCLoss解决了单一响应损失函数的局限性,为伪装物体带来的挑战提供了更全面的解决方案。

  • 实时性能约束:COD的一个重大挑战是缺乏实时性能,主要是由于当前模型的高计算和内存要求。这种限制阻碍了在资源受限设备上的部署,限制了监视和自主导航等实际应用。无训练学习提供了一种解决方案,通过无需再培训即可快速适应,从而促进更快的部署。此外,基于绿色学习的梯度增强强调开发节能模型,通过选择性地关注具有挑战性的样本来降低计算成本,从而优化实时性能。开发轻量级架构的高效网络旨在最大限度地减少延迟和内存使用,使实时COD在实际场景中可行。

探索无限可能

  • 拥抱新的任务:除了本文提到的CoCOD和RefCOD任务之外,还有许多未开发的新任务可以进一步增强COD。例如,交互式COD (I-COD)可以在检测期间合并用户反馈,从而实现迭代改进和个性化。这将需要开发强大的交互机制,并确保系统对用户输入的响应。通过在这些新颖的任务中不断探索和创新,我们可以大大增强COD的能力和适用性,从而推动这个令人兴奋的领域的可能性。

  • 区分SOD和COD:在特征层面,深入研究SOD和COD之间的细微差别至关重要,因为两者虽然都在异常分割的范围内,但都针对不同的异常。当前的COD技术在突出对象上效果不佳,因为它们将突出错误地理解为伪装,因此将突出对象转移到隐藏场景需要增强鲁棒性。

  • 多模式信息融合:将文本、音频、视频、光学、深度、红外和3D等多模态进行集成,是COD中一个有希望但又充满挑战的方向。每种模式都提供了独特的见解,但也引入了额外的复杂性。解决这些挑战需要在多模态表示学习、融合算法和数据增强技术方面创新。

  • 面向效率的大规模视觉语言模型:大型视觉语言模型(VLMs)在各种任务中表现出优异的性能,引起了研究人员的广泛关注。然而,由于有限的数据可用性和涉及的大量计算需求,专门为COD量身定制的训练VLMs并不理想。在这种情况下,免训练的prompt工程已经成为解决与训练大型模型相关的资源密集型挑战的一个有前途的方向。主要的挑战在于设计有效的提示,可以在不需要大量训练的情况下从这些模型中引出细微的理解。最近的进展,如SAM,为整合视觉和语言模式提供了令人信服的途径,但效率仍然是主要问题。开发相对轻量级的模型,结合先进的快速工程技术,可以在处理多样化和具有挑战性的样品的同时,潜在地缓解效率问题。为了平衡性能和效率,我们可以利用大型和轻量级模型的优势,可能通过知识蒸馏、迁移学习、模型压缩、领域自适应、元学习或为特定任务量身定制的模块化架构等技术。此外,当训练数据和测试数据之间存在显著的领域差距时,设计即插即用组件是一种很有前途的方法。例如,适配器能够对大型预训练模型进行有效的微调,使它们能够适应伪装对象的细微差别,而无需重新训练的全部成本,从而显着降低计算开销。

总结

我们对快速发展的COD领域进行了全面而详尽的概述,包括图像和视频领域的传统和深度学习方法。通过回顾大约150项相关的COD研究,我们提供了迄今为止最广泛和详细的调查,为新手和知名学者提供了一个简洁而全面的视角。此外,我们还提供了6个特征数据集和6个评估指标的代表性图像和视频模型的定量和定性基准。通过严格的基准测试,我们确定了当前COD方法的主要局限性和挑战,从而为未来的研究方向铺平了道路。我们希望这项调查能激发创新的解决方案,推动COD技术的发展。此外,我们已经建立了一个专门的GitHub仓库来容纳COD技术,数据集和资源,确保研究社区可以轻松访问最新的发展和见解,以进行进一步的探索。

致谢

作者对范登平教授的精辟意见表示衷心的感谢,这些意见大大提高了本文的质量。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值