Small Object Detection via Coarse-to-fine Proposal Generation and Imitation Learning(ICCV2023)

文章探讨了小目标检测中的样本不足和判别信息缺乏问题,提出CFINet框架,结合粗到细区域提议网络和特征模仿学习,通过动态锚点选择和特征模仿分支提升小目标检测性能。实验结果显示CFINet在SODA-D和SODA-a上表现出色。
摘要由CSDN通过智能技术生成



hh
源代码

-

Abstract

问题

众所周知,先验和目标区域之间的低重叠导致优化的样本池受限,而判别信息的缺乏进一步加剧了识别难度
说白了就是低重叠导致样本不足且微小目标判别信息匮乏

方法

为了缓解上述问题,作者提出了CFINet,一个基于粗到细管道和特征模仿学习的两阶段小目标检测框架
首先,作者引入了由粗到精的区域提议网络(Coarse-to-fine RPN, CRPN)。通过动态锚点选择策略和级联回归技术,确保为小目标提供足够且高质量的提议框。这样可以有效解决因传统锚框设计导致的小目标检测不足的问题。
接着在常规检测头结构中添加了一个特征模仿(Feature Imitation, FI)分支,该分支旨在以模仿的方式帮助模型更好地表征那些尺寸受限、容易困扰模型的目标实例。
此外,作者还设计了一种遵循监督对比学习范式的辅助模仿损失函数,用于优化这个FI分支,进一步提升模型对尺寸较小物体的识别能力和表示效果。

结果

当与Faster RCNN集成时,CFINet在大规模小目标检测基准(SODA- D和SODA- a)上实现了最先进的性能,突出了其优于基线检测器和其他主流检测方法的优势。

Introduction

小目标检测的两个固有挑战:训练样本不足和质量低,以及兴趣区域预测的不确定性
对于小目标来说,其先验与真值的IoU比很低。换句话说,现有的正样本准则在应用于小/微小对象时过于严格,导致可用于优化的样本数量有限。当然很显然的一个解决方法就是把IoU阈值调低,但低质量的样本违背了RPN的初衷,会加大后续回归子网络的任务难度

小目标通常缺乏判别信息和扭曲的结构,导致模型倾向于给出模糊甚至错误的预测。
high quality ̸= large size meanwhile small size ̸= low quality,即人类和模型对于好样本的评判标准是不同的。

综上所述,作者提出了一种基于粗到细管道和特征模仿学习的两阶段小目标检测器CFINet。
具体来说,受到级联区域提议网络(Cascade RPN)多阶段生成方案的启发,作者设计了一种名为“粗到精区域提议网络”(Coarse-to-fine Region Proposal Network, CRPN)的方法。主要工作如下:

  1. 动态锚点选择策略:首先,CRPN采用一种动态锚点选择策略来挖掘潜在的先验框。该策略旨在初步筛选并保留那些最有可能包含目标对象的锚框,以进行初步的粗略回归。

  2. 粗略回归与细化:基于所选锚点,网络进行初步的回归操作,以调整这些锚框的位置和大小,从而得到一组更接近实际目标边界框的改进锚点。

  3. 分类与精细回归:经过粗略回归后的锚点将被输入到区域提议网络中进一步进行分类和精细回归处理,确保输出高质量的目标候选框。

  4. 辅助特征模仿分支(FI Branch)为了增强模型对不确定或错误预测对象的学习能力,我们在常规的分类和回归设置基础上增加了一个辅助的特征模仿分支。该分支利用高质量实例区域的特征来指导那些难以正确预测目标的特征学习过程。

  5. 基于监督对比学习的损失函数(SCL Loss)设计了一个基于监督对比学习[20]的损失函数,用于整体优化过程。通过这个损失函数,网络能够更好地区分不同类别之间的特征空间,并促使低质量预测向高置信度、高质量预测靠拢,从而提升整个网络的学习效果和检测性能。

Method(details)

这张图展示了CFINet的整体架构。在这个网络中,粗粒度回归模块(CRPN)使用基于区域的锚点挖掘策略来确保各种大小的对象(例如小型:橙色方块,大型:绿色方块)有足够的候选人,并且基于动态pos阈值来进行分类。之后通过自适应卷积操作将这些候选转换成高质量提议(蓝色方块),再输入到RPN中生成最终的提案。另外还有一条称为Feature Imitation (FI)的辅助分支,其目的是促进对小型实例的表示学习,在这个过程中,那些不确定或错误预测的ROI特征会被拉入到嵌入空间中的示例特征集中,同时与其它类别和背景的示例特征分离开来。最后,为了收集这些示例特征,我们利用提出的质量指标Instance Quality(IQ) 来从模型预测中进行采样。整个系统还包括了一个损失函数 Feature Imitation Loss LFI,用于优化这个辅助分支FI。需要注意的是,图中只展示了单级特征金字塔网络(FPN)的特征,以便清晰地说明问题。

Limitations of Cascade RPN

Cascade RPN通过在每个特征点上放置一个锚点并进行多阶段细化,抛弃了启发式锚点设置。但对于中心区域非常小的小目标,第一阶段回归中使用的距离度量不能保证有足够的潜在锚点,此外,级联区域提议网络(Cascade RPN)仅在单个特征金字塔层级上标记符合条件的锚点为正样本,而这种启发式方案忽略了在其他层级可能存在并能够传达小目标存在和大致位置信息的有效锚点。这意味着传统的级联RPN可能因为其层级选择策略而错过了在不同尺度下捕获微小目标的机会

Coarse-to-fine RPN

为了在处理小实例时解决Cascade RPN的上述问题,作者提出了从粗到精的RPN。首先,作者设计了一个基于区域的锚点选择策略,以使不同大小的实例可以有(相对)足够的潜在锚点。具体而言,对于宽度为w,高度为h的物体,对于粗回归,凡IoU大于T a的锚点均视为正锚点,T a表示为:
γ表示一个比例因子,在实验中设置为默认值0.15,术语12实际上对应于SODA数据集的最小面积定义[9],它可以为极端大小的对象提供足够的样本,并且可以针对不同的数据集进行调优。此外,γ和max运算使优化不会被低质量的先验所淹没

以IoU(交并比)作为挖掘潜在有效锚点的标准。与传统的级联RPN仅在单个金字塔层级标记正样本不同,这种方法可以避免多阶段回归过程中可能出现的优化不一致问题。

通过采用连续阈值策略,模型能够更加平滑地确定哪些候选框应被视为正样本。这意味着,在整个训练和检测过程中,模型能够根据IoU得分连续调整对先验框是否为正样本的判断标准,从而更全面、灵活地考虑不同尺度下的目标信息,特别是对于小目标而言,有助于确保更多可能包含小目标的有效锚点被纳入到后续的分类和回归流程中,提高检测性能和准确性。

与级联RPN不同,CRPN保留了所有特征金字塔网络(FPN)层次{p2, p3, p4, p5}的锚点来执行第一阶段回归。通过这种方式,我们可以为极小的实例挖掘足够的潜在锚点,同时,较大的实例仍然可以获得适当的关注,因为与它们匹配的锚点自然具有更高的IoU。

在第一阶段回归之后,我们捕获到在已回归边界框内部的偏移量,并将这些偏移量与特征图一起输入至区域提议网络(RPN)。在此过程中,我们会利用自适应卷积[34]技术对特征进行对齐处理,从而执行第二阶段的回归以及前景-背景分类通过这种方式,模型能够基于第一阶段得到的粗略边界框进一步细化预测结果,确保对目标位置和大小的估计更加准确。自适应卷积有助于更好地整合不同尺度和位置下的特征信息,尤其对于尺寸较小的目标物体,这种逐步精细化的过程有助于克服传统方法中因固定锚点设计导致的小目标检测性能不足的问题。

Loss Function

使用交叉熵损失和IoU损失分别作为L cls和L·reg,c和f表示CRPN中的粗阶段和细阶段,并注意到只在后期进行分类,损失权重 α 1和α 2分别设置为9.0和0.9

以上步骤是为了生成高质量样本

Feature Imitation for Small Object Detection

利用不同尺度物体之间的内在关联来增强小物体的表征已经有了很多尝试,但大多缺乏有效性和多样性。

为了解决潜在的特征崩溃风险,减轻内存负担,并确保模型能够进行端到端优化,作者设计了一个特征模仿(Feature Imitation, FI)头部结构。最重要的是,在这个过程中,我们并不单纯依赖大规模物体作为指导,而是考虑了模型在当前状态下对每个实例的响应。通过这种方式,我们可以在线构建一个动态且当前优化过的适当样本特征库。

FI头部允许网络根据当前学习状态选取高质量实例特征作为模板,引导模型更好地理解和表达各种大小的目标,尤其是那些尺寸较小、传统方法难以有效处理的对象。这种自适应的学习方式有助于提升小目标检测性能,并使得整个检测流程更加高效和灵活。

FI分支主要由样本特征集(Exemplar Feature Set)和特征到嵌入(Feature-to- embedding, Feat2Embed)模块组成,前者保留高质量范例的RoI特征,后者将输入投影到嵌入空间

What is a proper exemplar

给定一个真值(Ground-truth, GT)对象g = (c∗, b∗),其中c∗表示其类别标签,b∗则代表其边界框坐标。假定检测头为该GT对象输出一组预测结果S = {C_i, IoU_i} i=1,2,…,M,其中C_i ∈ R^(N+1) 表示预测出的分类向量,IoU_i 表示预测框与GT之间的交并比(Intersection over Union),而N是前景类别的数量在特征模仿分支中,我们将优先选择那些分类正确且与真实边界框重叠度高的预测作为优质样本,以便引导模型更好地学习和表征小目标的特征。

接着,我们可以从预测集中筛选出潜在的高质量预测子集S′ = {(C_j, IoU_i) | arg maxC_j= c∗} j=1,2,…,M’,其中M’ ≤ M,表示至少有一个类别预测正确的预测结果集合。现在对象g的实例质量定义为:
GT的IQ可以作为当前模型检测能力的指标,使我们能够捕获具有精确定位和高置信度分类分数的高质量样本,而混淆模型的实例通常无法实现这两个目标。通过设置合适的阈值,我们可以选择合适的实例来构建教师特征集,并进行模仿过程

Feat2Embed Module

我们没有直接测量不同RoI特征之间的相似性[38],而是首先使用简单的Feat2Embed模块对这些特征进行嵌入。FI分支的输入是通过RoI-wise操作获得的区域特征x i∈R H×W×C,例如RoI Align,首先通过三个连续的3 × 3卷积层(不进行填充操作)进行处理,抽象出紧凑表示。值得注意的是,我们在提取当前区域特征时更新了参数,在提取样本特征时冻结了参数(参见图2中的Feat2Embed模块),从而提高了性能的稳定性。随后,将中间特征映射到两层感知器和128维的嵌入层之上的嵌入空间,其中隐藏层的维数设置为512。最后,将Feature Imitation分支的输出定义为:

Θ_FI表示待优化的特征模仿分支的参数,v_i是输入特征x_i经过该分支后得到的嵌入向量表示。这一嵌入向量能够更好地捕捉目标物体的关键信息,并且在后续的学习过程中帮助模型模仿高质量示例的特征表达,从而提升小目标检测的效果。

Loss Function

FI头的目标很简单:计算提案的RoI特征与嵌入空间中存储的高质量实例的RoI特征之间的相似性从而将那些混淆模型的实例的特征拉近属于类别的样本特征,同时将其他类别和背景的特征分开。为此,作者提出了一种基于监督对比学习的损失函数[20],它扩展了对比学习设置,并通过利用可访问的标签信息为锚点对象提供多个正样本。为FI分支量身定制的损失函数如下:

Ppos和Pneg分别是正负样本集,vp和vn是从Ppos和Pneg中选取的正负样本,j表示当前提案,τ表示温度,该温度在对比学习中起着至关重要的作用,需要精心设计,我们进行烧蚀研究(见表9)以确定我们框架中的最佳设置。

总损失函数如下:
L_cls 和 L_reg 分别是检测头原有的分类损失和回归损失,而 α3 是用于调整特征模仿部分权重的缩放因子。通过对比学习设置,我们不仅能够实现模仿学习,还能有效防止特征崩溃问题的发生,从而显著提升对小目标实例的表征能力。

此外,模仿学习过程仅在训练阶段实施,并不会影响到推理阶段的速度。这意味着在模型训练时,特征模仿分支有助于模型优化其对小目标的识别性能,而在实际应用中进行目标检测时,这一过程将不会增加额外的计算负担,确保了模型高效运行。

Training

样本集E = {E_i} c=1,2,…,N包含了N个前景类别的高质量特征,其中E_i = {x_i,j} j=1,2,…,N_i对应于第i类的示例特征集合,N_i表示该类别示例特征的数量。

我们使用一个阈值T_hq来筛选出那些适合作为优质示例的高质量实例。在实际操作中,为了减小网络波动的影响,我们会设定每个实例高质预测数量的一个上限值。函数Γ用于对这些高质量实例的特征进行增强,即对于一个高质量实例而言,其正样本特征是自身经过变换后的结果

Input:

  1. 在当前批次GT boxes集合G 和相应的RoI特征xi g;
  2. 样本特征集合ε = {εi}c=1,2,…,N;
  3. 在当前批次 RoI 特征背景集X_bg ;
  4. 高质量样本阈值Thq;
  5. 正负样本数量N_pos和N_neg;
  6. 变换函数Γ;

Output:
在循环开始之前,我们已经将所有gt框及其对应RoI特征存储在一个列表G,并且有一个示例特征列表E。现在我们需要从这些候选框中挑选一些用于后续操作。因此,在每次迭代中,我们都检查当前的gt框是否满足高质量要求。如果是的话,我们就将其加入到正向特征集Xpos中;否则就将其加入到负向特征集Xneg中。

  1. 通过比较当前gt框与所有其他gt框之间的重叠程度计算出质量指数IQ

  2. 接下来是从背景RoI特征集中选取一定数量的负样本特征进行采样。这里的采样策略是在保证足够多样性的同时尽可能地覆盖不同类型的实例。

  3. 只有当当前gt框的IQ大于某个阈值的时候才会执行下一步的操作。

    1. 此时我们将当前gt框的RoI特征加回到输入特征集中去。

    2. 利用了一个预定义的功能转换函数Γ(),它可以改变RoI特征的空间分布或颜色空间表示形式等等,以便更好地适应模型的需求。

  4. else

    1. 如果IQ小于阈值Thq,那么我们就从样本特征集中选取一定数量的特征来进行采样。
  5. 至此为止,我们的两个子集都得到了填充。

  6. 由于我们在前面的循环中可能会多次遇到同一个gt框,所以为了确保不会重复计数,我们现在合并这两个子集。

  7. 最后一步就是将所有的RoI特征转化为最终的嵌入式表示

通过这样的训练方式,我们可以确保模型能够从足够多且高质量的示例中学习到更稳定、有效的特征表示,从而提升对小目标检测性能。

Conclusion

本文中,作者提出了一种基于由粗到精区域提议网络(Coarse-to-fine Region Proposal Network, CRPN)和特征模仿设置的两阶段检测器——CFINet。其中,CRPN能为尺寸特别小、尤其是具有极端限制尺寸的小目标生成足够多且高质量的提议框

然后,在特征模仿分支之上的新颖检测头设计能够促进模型在对比学习范式下对那些给模型带来挑战的小目标进行有效的表示和识别。通过这种结构设计,CFINet能够克服传统方法在处理微小目标时由于先验锚点与实际物体区域重叠度低而导致的样本不足区分信息匮乏的问题,从而提升对各类大小目标的检测性能。

实验结果表明,我们的方法在大规模小目标检测数据集SODA-D和SODA-A上达到了最先进的性能。在未来,一个更灵活和通用的实例质量指标值得研究。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值