《Few-shot Object Counting and Detection》CVPR2022

最新推荐文章于 2024-12-12 15:04:21 发布

夏日的盒盒

最新推荐文章于 2024-12-12 15:04:21 发布

阅读量1.3k

点赞数 21

文章标签：人工智能计算机视觉视觉语言模型目标检测目标计数

本文链接：https://blog.csdn.net/qq_46981910/article/details/141872964

版权

概述

摘要：论文提出了一个新的任务——少量样本目标计数和检测（Few-shot Object Counting and Detection, FSCD）。在这项任务中，研究者们旨在通过给定少量目标类别的示例边界框来计数和检测图像中所有目标对象。这项任务与少量样本目标计数（Few-Shot Object Counting, FSC）共享相同的监督，但除了总数之外，还需要输出对象的边界框。为了解决这一挑战，作者引入了一个新颖的两阶段训练策略和一个新颖的不确定性感知的少量样本目标检测器：Counting-DETR。前者旨在生成用于训练后者的伪Ground-Truth边界框。后者利用前者提供的伪Ground-Truth数据，但采取了必要的步骤来考虑伪Ground-Truth的不完美性。为了验证所提方法在新任务上的性能，作者引入了两个新数据集：FSCD-147和FSCD-LVIS。这些数据集包含具有复杂场景、每张图像中多个对象类别以及对象形状、大小和外观的巨大变化的图像。所提出的方法在计数和检测指标上都大幅超越了从少量样本目标计数和少量样本目标检测中适应过来的非常强的基线。

拟解决的问题：论文解决的问题是，在少量样本的情况下，如何同时进行目标计数和边界框检测。这与以往的任务不同，因为通常目标检测和计数是分开处理的，而FSCD需要同时完成这两项任务，并且只有少量的标注样本可用。

回归函数扩展FamNet用于目标检测的FSCD的局限性。(a)该方法的处理流程:回归器以样本盒及其特征作为输入，以峰值密度位置的特征预测峰值位置的边界盒。(b)限制1:当样本与背景或密集区域外观相似时，FamNet预测的密度图质量较差。第一行是输入图像，每个图像都有几个样本，第二行是FamNet预测的相应密度图。(c)限制2:非判别峰值特征不能表示形状和大小有显著差异的物体。绿色框是根据在标注点处提取的特征进行预测的。

创新之处：

提出了一个新的任务定义，即FSCD，它要求同时进行目标计数和边界框检测。
引入了两个新的数据集FSCD-147和FSCD-LVIS，这些数据集具有复杂场景和多样的对象类别。
提出了一个两阶段训练策略，首先生成伪Ground-Truth边界框，然后使用这些框训练检测器。
开发了一个新的不确定性感知的少量样本目标检测器Counting-DETR，它考虑了伪Ground-Truth的不完美性。

方法

两阶段训练策略：第一阶段，Counting-DETR被训练以生成训练图像的伪Ground-Truth边界框；第二阶段，使用生成的伪Ground-Truth边界框对Counting-DETR进行微调，以在测试图像上检测对象。
Counting-DETR：这是一个基于对象检测器Anchor DETR的改进模型，它使用点特征直接预测对象边界框，并引入了不确定性估计来调节训练过程。

（1）Counting-DETR首先在几对点和边界框上进行训练，然后用于预测带注释的点的伪 GT 框； (2) Counting-DETR 被训练来预测对象边界框，预测目标是来自第一阶段的伪 GT 框。具体来说，输入图像首先通过 CNN+FPN 主干网络以提取其特征图。样本特征从它们的框中提取，并与特征图集成，生成样本集成的特征图。然后将该特征图作为编码器-解码器转换器的输入，以及第一阶段的注释点或第二阶段的锚点，用于前景/背景分类和边界框回归。在第二阶段，估计的不确定性被用来用新的不确定性损失来规范训练，以解释伪GT包围盒的不完善。