迈向大规模小目标检测:综述与数据集

为了准确检测小目标,领域内现有方法大多基于通用目标检测范式进行针对性改进,根据这些改进所采用关键技术的不同,可以分为六种类别:(1)面向样本的方法;(2)基于尺度感知的方法;(3)注意力启发的方法;(4)基于特征模仿的方法;(5)背景建模的方法;(6)由粗到精的方法。

(1)面向样本的方法

面向样本的方法旨在缓解小目标训练样本稀缺的窘境,主要包含通过数据扩充提升小目标实例个数,以及改进样本分配策略从而为小目标挖掘更加优秀的样本。样本划分是目标检测中至关重要的一步,尤其是对于小目标而言。
基于数据扩充的方法简单有效,但其性能提升依赖于数据集,即针对不同的数据集需要设计不同的增广策略。样本分配阶段往往依赖于目标区域和先验区域的交并比(Intersection-over-Union,IoU)或距离度量,这使得现有的策略倾向于为较大尺寸目标分配更多的训练样本,一定程度上抑制了小尺寸目标的检测性能。

(2)基于尺度感知的方法

图像中的目标往往有大有小,由此带来的尺度问题是目标检测乃至计算机视觉领域的核心问题之一。为了缓解这一问题,研究者们通过设计尺度特定的检测器以及特征融合操作,提升多尺度目标中的小目标检测精度。对于前者,基于不同尺度的目标所依赖的信息不同这一事实,设计了多分支并行的检测器。其中,浅层特征图负责检测小目标,中层和深层特征图则对中大尺寸目标进行检测。此外,还有一些算法改进训练阶段的数据处理策略,即只有当目标的分辨率落入特定尺度时才会被输入检测器进行训练,否则将被忽略掉。基于特征融合的方法利用融合操作,将富含更多细节信息、分辨率较高的浅层特征图与语义信息丰富、分辨率较低的深层特征图进行融合,从而得到兼顾语义信息和细节信息的高分辨率特征图,然后据此进行小目标检测。
总的来说,尺度特定的架构致力于在最合理的尺度上处理小目标,而特征融合的方法旨在弥合低层和高层特征图之间的空间和语义信息差距。然而,前者将不同大小的目标启发式地映射到相应的尺度层级,这可能会导致检测器混淆,因为单一层的信息不足以进行准确的预测。另一方面,在网络内部不同层级间信息的流动并不总是有利于小目标的表示,因而需要谨慎处理这一过程,防止小目标的原始响应被更深层次的信号淹没

(3)注意力启发的方法

注意力机制通过借鉴人类的认知机制,对特征图的不同部分分配不同的权重,以突出图像中的重要区域,同时抑制那些不必要的区域。图像中的小目标易被背景和噪声信息所干扰,很难获得高质量表示。基于注意力机制的方法通过筛选关键部分并抑制噪声区域,能够增强小目标的特征表达。
由于其灵活的结构设计,注意力模块可以嵌入几乎所有的检测架构中。与此同时,不可忽视的是,基于注意力的方法带来的性能提升是以高计算负担为代价的。此外,目前的注意力范式缺乏监督信号,因而只能以隐式进行优化。

(4)基于特征模仿的方法

小目标包含的信息有限,导致模型在分类和回归时能够利用的信息很少;与此同时,大目标往往具有清晰的视觉结构和更好的区分度。因此,一个自然而然的想法是通过模仿较大目标的区域特征来丰富小目标的特征表示。为此,已经提出了一些方案,可分为两类:基于相似性学习的特征模仿和基于超分辨率框架的方法。通过挖掘不同尺度对象之间的内在关系,这些策略在很大程度上改善了信息丢失和特征表示中的噪声问题。前者的核心思想是:在通用检测器上施加额外的相似性约束,从而弥合小目标和大目标之间的表示差异。后一种则主要借助生成式对抗网络(Generative Adversarial Network,GAN)[6]来复原或者提升小目标的区域表示。
通过向现有的检测器添加额外的相似性损失或超分辨率架构,特征模仿方法赋予模型挖掘小尺寸目标与大尺寸目标之间内在相关性的能力,进而增强小目标的语义表示。然而,无论是基于相似性学习还是基于超分辨率的方法,都需要避免特征塌陷问题,保持特征的多样性。此外,基于生成对抗网络的方法往往会产生虚假纹理和伪像,对检测结果产生负面影响。更糟糕的是,超分辨率架构的存在使得端到端优化变得更加复杂。

(5)背景建模的方法

人类能够有效地利用环境与物体之间的关系,或者物体之间的关联,以促进对物体和场景的识别。捕捉语义或空间关联的这种先验知识被称为背景或上下文信息,它传达了超出物体区域的线索。上下文信息在人类的视觉系统中至关重要,并且在物体识别、语义分割、实例分割等场景理解任务中也发挥着关键作用。有趣的是,丰富的上下文信息有时在决策支持方面比物体本身能够提供更多的帮助,特别是在识别视觉质量较差的物体时。为此,一些方法利用背景信息来提升小目标的表达能力,生成更具判别性的特征,最终提升其检测精度。
从信息论的角度来看,考虑的特征类型越多,越有可能获得更高的检测准确率。然而,无论是整体上下文建模还是局部背景信息引导,哪些区域应该被编码为背景区域需要被谨慎对待。换句话说,当前的背景建模机制以启发式和经验方式确定上下文区域,这不能保证所构建的目标表示具有足够的解释性和鲁棒性。

(6)由粗到精的方法

高分辨率图像中的小目标往往是非均匀分布的,而通用的分割与检测方案会在那些空白区域上消耗大量计算资源,导致推理过程十分低效。我们是否可以通过过滤掉那些没有目标的区域,从而减少无用的操作来提升检测效率呢?答案是肯定的!遵循该范式的方法跳出了处理高分辨率图像的通用流程。它们首先提取包含目标的区域,然后在这些区域上进行检测。这种处理方式确保了小目标能够以更高的分辨率进行处理,从而减轻了信息损失并提高了表示质量。
相较于通用的滑动窗口机制,由粗到精的方法赋予了模型自适应裁剪和灵活缩放操作的能力,即较小的目标可以在较高的分辨率下处理,而较大的目标可以在相对较低的分辨率下检测。在提升精度的同时,显著节省了推理时的内存占用,并减少了背景干扰。但是,这些方法必须解决一个关键问题:如何提取到包含目标的粗略区域?目前的方法要么依赖于手动添加额外的注释,要么依赖如分割网络或高斯混合模型等辅助架构,然而前者需要费力的标注,后者则会使得端到端优化变得复杂

总结与展望

本文对小目标检测进行了全面回顾,首先对基于深度学习的小目标检测算法进行了系统性的综述,同时总结和回顾了常用的一些数据集。为了推动该领域的进一步发展,我们构建了第一个专为小目标检测定制的大规模数据集SODA,包含SODA-D和SODA-A。基于这两个数据集,我们对数个代表性算法进行了性能评估和对比。最后我们对小目标检测的预期发展进行展望:
高效特征提取网络:如前所述,现有的骨干网络可能不利于提取小目标的高质量特征表示。因而设计一个针对小目标的的高效骨干网络——既具有强大的特征提取能力,又能避免高计算成本和信息损失——是一个需要深入研究的关键问题。
高质量的层级化特征表示:特征金字塔(Feature Pyramid Network,FPN)[13]是小目标检测模型中不可或缺的一部分。然而,当前的特征金字塔架构对于小目标检测而言并不是最优的,这是因为在启发式的金字塔层级分配策略下,只有极少的样本被分配到更高的层级(实际上,在我们的基准实验中只有P2层级的特征负责检测)。因此,高层级的特征图只能在隐式和间接的方式下进行优化,这会对最终特征融合的质量造成影响。此外,在高分辨率的低层级特征图上进行检测会带来较重的计算负担。因此,需要设计一个专为小目标检测任务量身定制的高效分层特征架构。
优化的样本分配策略:尽管当前的标签分配方案在通用目标检测和大目标上表现良好,但它们在处理极小目标时仍然面临巨大挑战,无论是基于重叠的策略还是基于分布的策略都是如此。因此,设计一个优化的策略来为尺寸有限的目标分配足够的正样本,可以显著稳定训练过程并进一步提升性能。
适用于小目标检测的评估指标:在某些特定场景下,小目标检测的首要任务是识别目标并获取其大致位置,而不是过度追求定位精度。因此,借鉴其他领域(如人群计数)的经验,设计一个适当的指标指导小目标检测架构在某些特定场景下的训练和推理,对领域未来的进一步发展至关重要。

  • 14
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值