⭕️【文献阅读】(23ICCV)LOCA

《A Low-Shot Object Counting Network With Iterative Prototype Adaptation》

paper:[2211.08217] A Low-Shot Object Counting Network With Iterative Prototype Adaptation (arxiv.org)

code:djukicn/loca: LOCA - A Low-Shot Object Counting Network With Iterative Prototype Adaptation (ICCV 2023) (github.com)

目录

摘要

图1

图2

1. Introduction

2. Related work

3. A low-shot prototype adaptation counter


摘要

我们考虑在图像中使用仅有少量标注样本(少样本)或没有样本(无样本)来对任意语义类别的对象进行低样本计数。标准的少样本流程包括从样本中提取外观查询,并将其与图像特征匹配以推断对象数量。现有方法通过特征池化提取查询,这忽略了形状信息(例如,大小和长宽比),导致对象定位精度和计数估计降低。

  • 低样本计数:指的是在只有少量标注样本的情况下进行对象计数,这通常是一个具有挑战性的任务,因为模型需要从有限的数据中学习并泛化到新的图像。

  • 少样本(few-shot):在这种设置中,模型只有几个标注样本来学习识别和计数特定类别的对象。

  • 无样本(no-shot):在这种更为极端的设置中,模型没有任何标注样本,需要依赖其他方式(如迁移学习或零样本学习技术)来识别和计数对象。

  • 标准少样本流程:通常包括以下步骤:

    1. 提取外观查询:从标注样本中提取特征,这些特征代表对象的外观。
    2. 匹配图像特征:将提取的外观查询与图像中的特征进行匹配,以识别对象。
    3. 推断对象数量:基于匹配结果来估计图像中对象的总数。
  • 特征池化:是一种特征提取技术,通过聚合局部特征来生成全局特征描述符。然而,这种方法可能会丢失有关对象形状的重要信息。

  • 忽略形状信息:在特征池化过程中,对象的大小和长宽比等形状信息可能会被忽略,这些信息对于精确的对象识别和计数是重要的。

  • 定位精度:指模型识别和定位图像中对象的能力。如果模型不能准确地识别对象的形状和大小,定位精度会受到影响。

  • 计数估计:基于对象定位的结果来估计图像中对象的总数。如果定位精度降低,计数估计的准确性也可能受到影响。

这段描述强调了现有方法在进行少样本或无样本对象计数时的一些局限性,特别是在提取查询时忽略形状信息的问题。为了提高对象计数的准确性,可能需要开发能够同时考虑外观和形状信息的特征提取和匹配方法。

我们提出了一种具有迭代原型适配的低样本对象计数网络(LOCA)。我们的主要贡献是新的物体原型提取模块,它迭代地将样本的形状和外观信息与图像特征融合。该模块可以轻松适应零样本场景,使LOCA能够涵盖整个低样本计数问题的范围。LOCA在FSC147基准测试上的均方根误差(RMSE)方面,在一次样本和少样本上比所有最新的最先进方法提高了20-30%,并在零样本场景中实现了最先进的水平,同时展示了更好的泛化能力。代码和模型可在此处获取:https://github.com/djukicn/loca。

  • LOCA:Low-shot Object Counting network with iterative prototype Adaptation(具有迭代原型适配的低样本对象计数网络)的缩写,是一种针对低样本计数问题设计的深度学习模型。

  • 主要贡献:提出了一种新颖的物体原型提取模块,该模块能够迭代地融合样本的形状和外观信息与图像特征。

  • 迭代原型适配:指的是模型能够通过迭代过程不断优化和适配原型,以更好地匹配图像中的对象特征。

  • 易于适应零样本场景:模块设计允许它在没有样本的条件下也能工作,这通常涉及到使用迁移学习或其他先进的机器学习技术。

  • FSC147基准测试:这是一个用于评估对象计数模型性能的数据集,LOCA在这个数据集上的表现超过了其他最新的最先进方法。

  • RMSE:均方根误差(Root Mean Square Error),是一种常用的评估模型预测精度的指标,值越低表示模型预测越准确。

  • 提高了20-30%:指的是LOCA在RMSE指标上比其他方法平均降低了20到30个百分点,这是一个显著的性能提升。

图1

图1:LOCA将形状和外观信息注入到对象查询中,以在密集和稀疏分布的场景中精确计数各种大小的对象。它还扩展到零样本场景,并在低样本范围内实现了卓越的定位和计数误差。

图2

图 2. LOCA 架构。输入图像被编码成特征 fE,然后通过由对象原型提取模块预测的 n 个对象查询进行逐深度相关(*)。响应图 R 是通过对 n 个相似度图 R 进行逐元素最大值计算获得的;然后由解码器上采样成最终的密度图。

1. Introduction

对象计数考虑在图像中估计特定对象的数量。基于对象检测器的解决方案已经广泛探索了如人群[1, 33]、汽车[20, 12]或动物种类[2, 32]等类别。然而,这些方法需要大量的标注训练数据集,并且不适用于对只有少量标注的新类别、以前未观察到的类别进行计数。后者问题通过低样本计数来探索,它包括少样本和零样本计数。少样本计数器只通过边界框(样本)标注了它们中的少数几个来计算某个类别所有出现的对象,而零样本计数器考虑在没有标注的情况下计算最频繁的类别。

少样本计数器最近随着一个具有挑战性的数据集的出现而获得了关注,并遵循一个通用流程。图像和样本特征被提取为目标原型,通过相关性与图像进行匹配。最终,获得的中间图像表示被回归为一个二维目标密度图,其值的总和即为目标计数估计。这些方法主要在中间图像表示的构建方法上有所不同,分别基于孪生相似性、交叉注意力或特征与相似性融合。尽管受到的关注较少,零样本计数器遵循类似的原则,但要么通过区域提议的多数投票来识别可能的样本,要么通过注意力模块隐式地识别样本。

所有的少样本计数器都通过将从样本中提取的图像特征汇聚成固定大小的相关滤波器来构建目标原型。因此,这些原型无法编码目标的形状信息(如宽度、高度和比例),从而导致密度图的准确性降低。最近的研究表明,这种信息丢失可以通过复杂的架构来学习非线性相似性函数部分解决。然而,我们认为,可以使用一种更简单的计数架构,通过明确处理样本形状并应用适当的目标原型适配方法来解决这个问题。

处理样本形状。

我们提出了一种带有迭代原型适配的低样本目标计数网络(LOCA)。我们的主要贡献是新的目标原型提取模块,该模块分别提取样本的形状和外观查询。形状查询通过考虑样本外观以及未注释目标的外观逐渐适配成目标原型,从而获得优异的定位特性,并导致高度准确的计数(如图1所示)。据我们所知,LOCA是第一个明确使用样本形状信息进行计数的低样本计数方法。与大多数研究不同,LOCA并不尝试将样本外观转移到图像特征上,而是构建能够跨图像级别类内外观泛化的强大原型。

LOCA在最近的FSC147基准测试中([24])优于所有最先进的方法(在许多情况下是更复杂的方法)。在标准的少样本设定中,它实现了约30%的相对性能提升;在单样本设定中,它甚至优于专门为该设定设计的方法,并在零样本计数上达到了最先进的水平。此外,LOCA在汽车计数数据集CARPK([12])上展示了出色的跨数据集泛化能力。

2. Related work

历史上,对象计数已经通过针对特定类别的检测器来解决,例如针对人群[1, 33]、汽车[20, 12]和动物[2]的检测器,但这些方法在处理极其拥挤的场景时表现不佳。在水母息肉计数的场景中,[32]因此提出对图像进行分割,并将分割结果解释为一系列圆形对象的集合。另外,[1, 6]将计数框架定义为对象密度图的回归,其求和预测了对象的数量。这些方法的一个主要缺点是它们需要每个对象类别都有大型的标注训练数据集,这通常是一个不切实际的要求。

作为回应,类别无关的计数器得到了探索,这些计数器在测试时仅使用少量用户提供的目标样本专门用于目标类别。一个早期的代表[18]提出了一个双流通用匹配网络,它提取图像和样本目标特征,将它们连接起来,并将表示回归到最终的密度图。CFOCNet[30]指出,简单的连接会导致不可靠的定位,并提出了一个受跟踪文献[3]启发的孪生相关网络,以改进定位和计数。Ranjan等人[24]通过测试时的孪生网络主干适配,提出了进一步提高相关性鲁棒性的方法。Shi等人[26]提出了一种联合学习表示以及非线性相似度度量的替代方法,以改进定位,并应用自注意力机制减少测试图像中的类内外观变异性。You等人[31]在应用位置回归之前,将相似度图与图像特征结合起来,以提高计数准确性,并提出了一个可学习的相似度度量来指导样本和图像特征的融合。Liu等人[16]采用了视觉转换器[7]进行图像特征提取,并使用卷积编码器提取样本。交叉注意力用于融合图像和样本特征,卷积解码器回归密度图。最近,少样本计数通过采用基于变压器的目标检测器[29],扩展到了少样本检测[21],不仅预测位置,还预测目标边界框。

虽然大多数研究解决了有若干个(通常是三个)样本可用的情况,但只有少数近期的研究考虑减少这个数量。Lin等人[13]提出了一种只需要单一样本的计数方法。他们的方法基于变换器架构,并通过若干自注意力和交叉注意力模块来表述图像和样本特征之间的相关性。零样本计数的极端情况[22, 11]也已经被探索。Ranjan和Hoai[22]提出了RepRPN-Counter,它结合了一个区域提议网络[25],该网络还预测每个提议的重复得分。重复得分最高的提议被用作样本,并通过FamNet[24]来预测多个密度图。另一方面,Hobley和Prisacariu[11]开发了一种弱监督方法,该方法隐式地识别最有可能被计数的对象类别,并为该类别预测密度图。具有无监督训练阶段的视觉变换器[16]也在零样本计数中显示出成功。

3. A low-shot prototype adaptation counter

低样本原型适配计数器

Without loss of generality, we present our low-shot counting method LOCA in the context of few-shot counting. Given an input image $\mathbf{I}\in\mathbb{R}^{H_0\times W_0\times3}$ and a set of $n$ bounding boxes denoting a few selected objects, LOCA predicts a density map $\boldsymbol{R}\in\mathbb{R}^{H_0\times W_0}$ whose values sum into the number of all objects of the selected class present in $\mathbf I$.

不失一般性,我们在少样本计数的背景下介绍我们的低样本计数方法LOCA。给定一个输入图像$\mathbf{I}\in\mathbb{R}^{H_0\times W_0\times3}$ 和一组 $n$个边界框,表示少量选定的对象,LOCA 预测一个密度图$\boldsymbol{R}\in\mathbb{R}^{H_0\times W_0}$,其值的总和等于在 $\mathbf I$中所选类别的所有对象的数量。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值