⭕️【读文献】DAVE – A Detect-and-Verify Paradigm for Low-Shot Counting

Abstract

低样本计数器估算与选定类别对应的对象数量,基于图像中仅有少量或没有标注的示例。目前最先进的技术通过对象位置密度图的总和来估算总数量,但这种方法无法提供单个对象的位置和大小,而这些信息对许多应用至关重要。基于检测的计数器可以解决这一问题,但在总数精度上有所欠缺。此外,这两种方法在存在其他类别对象时,往往会因为许多误报而高估数量。我们提出了DAVE,这是一种基于“检测和验证”范式的低样本计数器,通过首先生成高召回率的检测集,然后验证检测结果以识别并删除异常值,从而避免上述问题。这种方法共同提高了召回率和精度,最终实现了更为准确的计数。DAVE在总计数平均绝对误差(MAE)方面比最先进的基于密度的计数器提高了约20%,在检测质量上比最新的基于检测的计数器提高了约20%,并且在零样本和基于文本提示的计数方面设立了新的行业标准。

1. Introduction

低样本计数指在图像中估算目标对象的数量,仅基于少量标注的示例(少样本)或甚至不提供示例(零样本)。由于专门基准的出现【22, 26】,低样本计数研究最近激增。目前最先进的低样本计数器都是基于密度的【6, 26, 28, 38】。这意味着它们通过对估算的对象存在密度图进行求和来估算总数。只有最近,基于少样本检测的方法【22】才出现,这些方法通过检测到的对象数量来估算计数。

基于密度的方法在总计数估算方面显著优于基于检测的计数器,但它们无法提供诸如对象位置和大小等详细输出。然而,后者在许多下游任务中非常重要,如生物医学分析【35, 41】,其中可解释性对于人类专家的验证以及后续分析至关重要。因此,在基于密度和基于检测的低样本计数器之间存在着巨大的应用差距。

此外,无论是基于密度还是基于检测的计数器在包含多种对象类型的场景中都容易失败(见图1)。其原因在于特异性与泛化性之间的权衡。为了获得较高的召回率,需要对图像中目标对象类型的多样化外观进行泛化。然而,这也会导致其他类别对象的误检测(误报),从而降低精度并导致计数过高。一个可能的解决方案是对多类别图像进行训练【22】,但这通常会导致召回率降低和计数低估。

我们通过提出低样本计数器DAVE来解决上述问题。DAVE结合了基于密度和基于检测的方法的优点,并引入了一种新的“检测与验证”范式。DAVE通过应用两阶段管道(见图1)解决了现有计数器的特异性与泛化性问题。在第一阶段的检测阶段,DAVE利用基于密度的估计来获得高召回率的候选检测集,尽管其中可能包含误报这一问题在第二阶段的验证阶段得以解决,通过分析候选对象的外观来识别和排除异常值,从而提高检测精度。随后,将第一阶段中估计的位置密度图中对应异常值的区域移除,从而改善基于密度的总计数估计。此外,我们将DAVE扩展至基于文本提示和零样本的场景,使DAVE成为首个支持零样本和基于文本提示检测的计数器

本文的主要贡献在于提出了低样本计数的“检测与验证”范式,该范式同时实现了高召回率和高精度。所提出的架构是第一个扩展到所有低样本计数场景的方案。DAVE独特地融合了基于密度和基于检测计数的优点,是首个具有检测输出的零样本计数器。DAVE在具有挑战性的基准【26】上超越了所有最先进的基于密度的计数器,包括长期的领先者【6】,相对减少了20%的平均绝对误差(MAE)和43%的均方根误差(RMSE)的总计数误差。它还在最新的基准FSCD147【22】上,超过了所有最先进的基于检测的计数器,在检测指标上提高了约20%,并在总计数估计中减少了38%的MAE。此外,它在基于文本提示的计数中设立了新的行业标准。DAVE的零样本变体在检测精度方面与最新的少样本计数器持平,同时超过了所有零样本基于密度的计数器。因此,DAVE在多种计数设置中同时超越了基于密度和基于检测的计数器。

2. Related Work

物体计数最初是通过检测特定类别的物体进行的,例如车辆【5】、细胞【8】、人【17】和息肉【41】。为了应对在密集区域表现不佳的问题,基于密度的方法【3, 4, 29–31】作为一种替代方案出现。

所有这些方法都依赖于大量数据集来训练特定类别的模型,然而在许多应用中这些数据集并不可用。
无类别的方法通过测试时适应各种对象类别,并且只需最少的监督来解决这一问题。早期的代表性方法【19】【37】提出通过应用孪生匹配网络来比较图像和示例特征,以预测密度图。最近,FSC147数据集【26】被提出,以促进少样本计数方法的发展。Famnet【26】提出了一种在测试时对骨干网络进行适应的方法,以改进密度图的估计。BMNet+【28】通过联合学习表示和非线性相似性度量来改进定位,并引入了自注意力机制以减少类内外观变异性。SAFECount【38】引入了特征增强模块,提升了泛化能力。CounTR【16】使用视觉Transformer【7】进行图像特征提取,并使用卷积编码器提取示例特征。一个基于交叉注意力的交互模块被提出,用于融合图像和示例特征。LOCA【6】提出了一种对象原型提取模块,该模块结合了示例的外观和形状,并进行了迭代适应。

所有少样本计数方法都需要少量标注的示例来指定对象类别。随着大语言模型(如【23】)的最新发展,基于文本提示的计数方法应运而生。这些方法不再使用边界框标注来指定示例,而是使用目标对象类别的文本描述。ZeroCLIP【36】提出了基于文本构建原型的方法,这些原型用于选择相关的图像区域作为计数的示例。CLIPCount【15】利用CLIP【23】进行图像-文本对齐,并引入了补丁-文本对比损失来学习用于密度预测的视觉表示。几项研究【13, 25】处理了极端情况,其中没有提供示例,任务是计数主要类别的对象(即零样本计数)。

最近的少样本方法【6, 16】在零样本计数方面也表现出显著的性能,且几乎没有进行架构上的改动。基于密度的计数器的一个共同缺点是它们不提供对象位置。

为了应对基于密度的计数器的上述限制,最近提出了首个少样本计数和检测方法【22】,通过扩展一种基于Transformer的对象检测器【2】来实现检测由示例指定的对象。然而,与最先进的基于密度的计数器相比,基于检测的计数器在总计数估算方面仍然远远落后。

3. Counting by detection and verification

图2

3.1. Detection stage

3.2. Verification stage

3.3. Zero-shot and prompt-based adaptation

零样本计数。DAVE 可以轻松适应零样本设置,在这种设置中不提供示例,任务是计数和检测多数类的对象。首先,将位置密度预测部分替换为其零样本变体【6】,以应对缺乏示例的情况。检测阶段和大部分验证阶段保持不变。验证阶段唯一的变化是聚类选择方法:保留所有大小至少为最大聚类45%的聚类作为正检测,其余的则被识别为异常值。这是为了考虑到由于缺乏指定外观相似度水平的示例,聚类可能会分裂的可能性。

基于提示的计数。零样本 DAVE 扩展到基于提示的计数设置中,在这种设置中,目标对象类别由文本提示指定。唯一的修改是在验证阶段的聚类选择协议。通过 CLIP 提取文本提示的嵌入,并与每个已识别聚类的 CLIP 嵌入进行比较。后者是通过屏蔽对应于该聚类的边界框以外的图像区域并计算 CLIP 嵌入得到的。计算文本嵌入与各个聚类嵌入之间的余弦距离,并将提示与聚类的相似性低于最高相似度85%的聚类标识为异常值。

3.4. Training

少样本计数数据集通常包含所有对象的中心标注,并且仅为 k=3的示例提供边界框。我们将训练过程设计为遵守这些限制。对象中心可以用于训练位置密度预测网络。由于 DAVE 使用 LOCA【6】进行初始密度预测,我们使用公开可用的预训练 LOCA 版本,并仅在两个阶段训练检测和验证阶段的自由参数。

 

4. Experiments

4.1. Implementation details

预处理。根据【16】,输入图像被调整大小,以使示例的宽度和高度的平均值在 50 到 10 像素之间。在零样本设置中,方法是进行引导式处理,即首先应用第一次传递来估计对象的大小,然后应用第二次传递,按少样本情况进行调整大小。

4.2. Density-based counting performance

DAVE 与基于密度的最先进计数方法进行了比较。为了确保比较的一致性,DAVE 中的密度基础计数估计也被考虑在内,即通过对输出位置密度图 \(G\)(第3.2节)进行求和来估计计数。这些方法在具有挑战性的 FSC147 数据集【26】上进行了评估,该数据集包含 6135 张图像,涵盖 147 个对象类别,分为 3659 张训练图像、1286 张验证图像和 1190 张测试图像。各个类别在不同的数据集划分中不重叠,以反映实际应用中目标对象类别在训练期间不可见的情况。在每张图像中,标注了三个示例的边界框,并通过点标注标记了所有目标对象。按照标准评估协议【26, 28, 38】,使用平均绝对误差(MAE)和均方根误差(RMSE)进行评估。

少样本计数。在少样本计数中,所有三个示例都被视为输入。DAVE 与最新的最先进基于密度的计数方法进行比较,包括:LOCA【6】、CounTR【16】、SAFECount【38】、BMNet+【28】、VCN【24】、CFOCNet【37】、MAML【10】、FamNet【26】和 CFOCNet【37】。结果汇总在表 1 中。

DAVE 在所有少样本基于密度的计数方法中表现优异,超出了所有对手。它在验证集和测试集上的 MAE 分别比长期领先的 LOCA【6】提高了 13% 和 20%。在验证集和测试集上,它分别实现了 14% 的相对改善和显著的 43% RMSE,从而确立了新的最先进水平。

为了验证性能改进的来源,我们可视化了 DAVE 的密度预测,并与最新的最先进方法进行了比较(图 3)。我们观察到,其他方法经常将错误类别的对象计入其中(第 1、2、3、4、5、6、7 列)或将背景纹理中的结构计入(第 8、9、10 列)。这表明相关方法过度泛化了定位特征,从而提高了召回率,但精度降低。然而,DAVE 保持了高召回率,同时成功识别并抑制了密度图中的相应激活,从而提高了精度。这表明了提出的检测与验证范式对基于密度的计数的强大好处。

一-shot 计数。在一-shot 计数设置中,考虑了单个示例。与最新的最先进方法 GMN【20】、CFOCNet【37】、FamNet【26】、BMNet+【28】、CounTR【16】和 LOCA【6】的比较结果如表 2 所示。DAVE 在一-shot 计数中表现出色,超越了之前最佳表现方法,验证集和测试集上的 MAE 分别提高了 5% 和 10%,RMSE 分别提高了 9% 和 12%。结果表明,检测与验证范式有助于充分利用唯一可用示例中的有意义信息,从而实现性能提升。

基于提示的计数。DAVE 在第 3.3 节中的基于提示的修改(在此称为 DAVEprm)与最新的最先进的基于提示的计数方法 ZeroClip【36】、CounTX【1】和 CLIP-Count【15】进行了比较。表 3 的结果显示,DAVEprm 在验证集和测试集上分别比最佳计数器 CounTX【1】提高了 12% 和 5% 的 MAE,以及 17% 和 3% 的 RMSE。因此,DAVE 在这一设置中确立了新的最先进水平。

零-shot 计数。DAVE 在第 3.3 节中的零-shot 修改(在此称为 DAVE0-shot)与最佳零-shot 计数器 LOCA【6】、CounTR【16】、RepRPN-C【25】和 RCC【13】进行了比较。表 4 的结果显示,DAVE0-shot 在验证集和测试集上分别比最先进的 LOCA【6】 提高了 11% 和 7% 的 MAE,并且在 RMSE 上超越了所有最先进的方法。

4.3. Detection performance

少-shot 检测。少-shot 检测性能在 FSCD147【22】数据集上进行了评估,该数据集最近通过对所有对象进行边界框标注而扩展自 FSC147【26】。我们遵循标准评估协议【22】,使用平均精度(AP)和 IoU=50 时的平均精度(AP50)作为主要性能指标。DAVE 与最近的少-shot 检测基础计数器 C-DETR【22】以及适应的少-shot 检测器 FSDetView【34】、AttRPN【9】进行了比较。 

表 5 中的结果显示,DAVE 在所有指标上都创下了新的最先进水平,无论是在验证集还是测试集上。在验证集中,DAVE 在 AP 和 AP50 上分别超越了最新的 C-DETR【22】40% 和 45%;在测试集中,DAVE 分别在 AP 和 AP50 上超越了 C-DETR 18% 和 24%。

高 AP50 和 AP 表明 DAVE 在检索更多对象的同时,假阳性更少,且检测对象的定位更为准确(见图 4,第 1 行和第 2 行)。DAVE 在高密度区域和小对象的检测中表现也相当出色,这些区域对于当前最先进的方法来说非常具有挑战性(见图 4,第 3 行和第 4 行)。与最佳方法相比,DAVE 更好地学习了由细粒度对象组成的目标的外观,从而改善了检测效果(例如,图 4 第 5 行的药丸碗)。这些结果展示了检测与验证方法在精确定位方面的巨大潜力。

我们进一步在两个近期数据集 FSCD-LVIS [22] 和 FSCD-LVISuns [22] 上评估了 DAVE。这两个数据集均来源于 LVIS [11] 数据集,包含 6196 张图像和 377 个类别。在 FSCD-LVIS [22] 数据集中,测试集中的一些类别也出现在训练集中。第二个数据集 FSCD-LVISuns [22] 确保测试集中不包含训练期间观察到的类别。结果显示,在 FSCD-LVIS 上,DAVE 相较于最佳方法 C-DETR 的 AP 和 AP50 分别提高了 37% 和 55%。在 FSCD-LVISuns 上,DAVE 也显著超越了最佳方法,AP 和 AP50 分别提高了 7% 和 25%。

零-shot 检测。根据我们所知,DAVE0-shot 是首个能够进行计数和检测的零-shot 方法。因此,我们将其与最佳的计数和检测方法 C-DETR [22] 进行比较,但后者不是零-shot,因为它需要三个输入示例。结果如表 7 所示,DAVE0-shot 展现了卓越的性能。在验证集上,它在 AP50 上比 C-DETR [22] 提高了 12%,在测试集上则表现相当。虽然在检测的鲁棒性(AP50)上与 C-DETR 相当,但定位的准确性略低(AP 较低)。尽管如此,这一结果仍然很显著,考虑到 C-DETR 需要带注释的示例作为输入,而 DAVE0-shot 不需要。这项实验验证了提出的检测与验证范式在所有低-shot 计数任务(包括少-shot 和零-shot)的普遍适用性。

 少-shot 检测计数。之前的实验分析了检测的准确性。为了进一步分析检测能力,我们测量了通过检测到的边界框数量来近似估计的计数准确性。在以下结果中,我们使用上标 DAVEbox 来区分与基于密度的计数估计的结果。结果见表 8。DAVEbox 显著优于所有现有技术,特别是它在 MAE 上比 C-DETR 提高了 38%,在 RMSE 上提高了 40%。这进一步确认了 DAVEbox 相较于最近的检测方法的出色检测性能。需要注意的是,DAVEbox 不仅在 MAE 上超越了所有检测基础的计数器,还超越了所有已发布的基于密度的计数器,包括 LOCA [6](表 1),后者至今未被检测基础的计数器挑战过。

4.4. Ablation study

  • 17
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值