《Few-shot Object Counting and Detection》CVPR2022

概述

摘要: 论文提出了一个新的任务——少量样本目标计数和检测(Few-shot Object Counting and Detection, FSCD)。在这项任务中,研究者们旨在通过给定少量目标类别的示例边界框来计数和检测图像中所有目标对象。这项任务与少量样本目标计数(Few-Shot Object Counting, FSC)共享相同的监督,但除了总数之外,还需要输出对象的边界框。为了解决这一挑战,作者引入了一个新颖的两阶段训练策略和一个新颖的不确定性感知的少量样本目标检测器:Counting-DETR。前者旨在生成用于训练后者的伪Ground-Truth边界框。后者利用前者提供的伪Ground-Truth数据,但采取了必要的步骤来考虑伪Ground-Truth的不完美性。为了验证所提方法在新任务上的性能,作者引入了两个新数据集:FSCD-147和FSCD-LVIS。这些数据集包含具有复杂场景、每张图像中多个对象类别以及对象形状、大小和外观的巨大变化的图像。所提出的方法在计数和检测指标上都大幅超越了从少量样本目标计数和少量样本目标检测中适应过来的非常强的基线。

拟解决的问题: 论文解决的问题是,在少量样本的情况下,如何同时进行目标计数和边界框检测。这与以往的任务不同,因为通常目标检测和计数是分开处理的,而FSCD需要同时完成这两项任务,并且只有少量的标注样本可用。

回归函数扩展FamNet用于目标检测的FSCD的局限性。(a)该方法的处理流程:回归器以样本盒及其特征作为输入,以峰值密度位置的特征预测峰值位置的边界盒。(b)限制1:当样本与背景或密集区域外观相似时,FamNet预测的密度图质量较差。第一行是输入图像,每个图像都有几个样本,第二行是FamNet预测的相应密度图。(c)限制2:非判别峰值特征不能表示形状和大小有显著差异的物体。绿色框是根据在标注点处提取的特征进行预测的。

创新之处

  1. 提出了一个新的任务定义,即FSCD,它要求同时进行目标计数和边界框检测。
  2. 引入了两个新的数据集FSCD-147和FSCD-LVIS,这些数据集具有复杂场景和多样的对象类别。
  3. 提出了一个两阶段训练策略,首先生成伪Ground-Truth边界框,然后使用这些框训练检测器。
  4. 开发了一个新的不确定性感知的少量样本目标检测器Counting-DETR,它考虑了伪Ground-Truth的不完美性。

方法

  • 两阶段训练策略:第一阶段,Counting-DETR被训练以生成训练图像的伪Ground-Truth边界框;第二阶段,使用生成的伪Ground-Truth边界框对Counting-DETR进行微调,以在测试图像上检测对象。
  • Counting-DETR:这是一个基于对象检测器Anchor DETR的改进模型,它使用点特征直接预测对象边界框,并引入了不确定性估计来调节训练过程。

(1)Counting-DETR首先在几对点和边界框上进行训练,然后用于预测带注释的点的伪 GT 框; (2) Counting-DETR 被训练来预测对象边界框,预测目标是来自第一阶段的伪 GT 框。具体来说,输入图像首先通过 CNN+FPN 主干网络以提取其特征图。样本特征从它们的框中提取,并与特征图集成,生成样本集成的特征图。然后将该特征图作为编码器-解码器转换器的输入,以及第一阶段的注释点或第二阶段的锚点,用于前景/背景分类和边界框回归。在第二阶段,估计的不确定性被用来用新的不确定性损失来规范训练,以解释伪GT包围盒的不完善。 

2.1 Encoder-Decoder

采用示例集成的特征图和一组查询点作为输入,预测每个查询点的边界框。

编码器:主要目的是处理输入的图像特征图,通过自注意力(Self-Attention)机制来增强特征。自注意力机制允许模型在处理图像的不同区域时能够相互参考,从而更好地理解图像内容和上下文信息。

解码器:使用编码器输出的增强特征图,并结合查询点(Query Points)来预测每个查询点对应的对象的边界框和类别。

  • 输入:解码器接收来自编码器的增强特征图和一组查询点。这些查询点是2D点,代表图像中潜在对象位置的初始猜测。
  • 交叉注意力层:解码器中的交叉注意力层允许查询点与编码器的输出特征进行交互,这样每个查询点都可以获取到全局的上下文信息。
  • 输出:解码器输出每个查询点的预测结果,包括对象的类别得分和边界框坐标。类别得分用于判断查询点位置是否存在目标对象,边界框坐标则用于精确定位对象的位置和大小。

 在训练过程中,使用焦点损失(Focal Loss)和边界框回归损失(如L1损失和GIoU损失)来优化模型的预测。这些损失函数帮助模型更准确地预测对象的类别和位置。

不确定性损失:考虑到伪地面真实边界框的不完美性,引入不确定性损失来调节模型的训练,使得模型在预测不确定性较高的边界框时受到较小的损失惩罚。

2.2 两阶段训练策略

提出的Few-Shot目标检测器Counting-DETR只能对所有对象的bounding box监督进行训练。但是,我们只对几个示例进行边界框注释,所有对象的点注释作为 FSCD 的设置。因此,我们提出了一种两阶段训练策略

  • 第一阶段,使用示例集成的特征图和示例边界框的中心作为查询点,训练编码器-解码器模型。在这个阶段,模型被训练来预测与查询点相关的边界框。
  • 第二阶段,使用第一阶段生成的伪地面真实边界框来微调模型,以提高在实际测试图像中检测和计数目标对象的性能。
  • 17
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值