[2309.05277] Interactive Class-Agnostic Object Counting (arxiv.org)
code:
目录
Abstract
我们提出了一个新的交互式类别无关目标计数框架,用户可以通过交互提供反馈来提高计数器的准确性。我们的框架由两个主要部分组成:一个用户友好的可视化工具来收集反馈,以及一个有效整合反馈的机制。在每一次迭代中,我们生成一张密度图来展示当前的预测结果,并将该图分割成不重叠的区域,每个区域内的目标数量容易验证。用户可以通过选择一个计数明显错误的区域,并指定该区域内目标数量的估计范围来提供反馈。为了改进计数结果,我们开发了一种新的适应性损失函数,以强制视觉计数器输出用户指定范围内的预测计数。为了有效和高效地适应,我们提出了一个细化模块,它可以与任何基于密度的视觉计数器一起使用,并且只有细化模块中的参数将在适应过程中更新。我们在两个具有挑战性的类别无关目标计数基准测试 FSCD-LVIS 和 FSC-147 上进行的实验表明,我们的方法可以通过最少的用户输入将多个最新视觉计数器的平均绝对误差降低大约 30% 到 40%。我们的项目可以在 Count What You Want 上找到。
- 交互式类别无关目标计数:提出了一种新的框架,允许用户通过交互反馈来提高目标计数的准确性。
- 框架组成:包括用户友好的可视化工具和高效的反馈整合机制。
- 迭代过程:生成密度图,分割成易于验证的非重叠区域,并允许用户提供特定区域的目标数量反馈。
- 适应性损失:开发了一种新的损失函数,用于调整预测计数以符合用户指定的范围。
- 细化模块:提出了一个可以与任何基于密度的视觉计数器配合使用的模块,仅更新该模块的参数以实现快速适应。
- 实验结果:在 FSCD-LVIS 和 FSC-147 基准测试上,通过最少的用户输入显著提高了计数准确性。
1. Introduction
The need for counting objects in images arises in many applications, and significant progress has been made for both class-specific [17, 30, 13, 46, 47, 9, 3, 24, 44, 25, 19, 38, 23, 16, 34, 36, 1] and class-agnostic [49, 35, 33, 41, 51, 26, 31, 32] counting. However, unlike in many other computer vision tasks where the predicted results can be verified for reliability, visual counting results are difficult to validate, as illustrated in Fig. 1. Mistakes can be made, and often there are no mechanisms to correct them. To enhance the practicality of visual counting methods, the results need to be more intuitive and verifiable, and feedback mechanisms should be incorporated to allow errors to be corrected. This necessitates a human-in-the-loop framework that can interactively display the predicted results, collect user feedback, and adapt the visual counter to reduce counting errors.
图像中的目标计数需求在许多应用中都会出现,并且对于特定类别的计数[17, 30, 13, 46, 47, 9, 3, 24, 44, 25, 19, 38, 23, 16, 34, 36, 1]以及类别无关的计数[49, 35, 33, 41, 51, 26, 31, 32]都取得了显著进展。然而,与许多其他计算机视觉任务不同,在这些任务中预测结果可以被验证其可靠性,视觉计数结果难以验证,如图 1 所示。错误可能会发生,而且通常没有机制来纠正它们。为了提高视觉计数方法的实用性,结果需要更加直观和可验证,并且应该纳入反馈机制以允许纠正错误。这就需要一个人机交互框架,它可以交互式地显示预测结果,收集用户反馈,并适应视觉计数器以减少计数错误。
-
目标计数的应用需求:图像中的目标计数在许多领域都有需求,如人群计数、野生动物监测等。
-
类别特定与类别无关的计数:研究在特定类别的计数上取得了进展,即只针对某些特定类别的物体进行计数。同时,类别无关的计数方法也得到了发展,这些方法旨在对任意类别的物体进行计数。
-
结果验证的挑战:与计算机视觉的其他任务相比,视觉计数的结果验证更为困难,因为缺乏直观和可靠的方法来确认计数的准确性。
-
错误与纠正机制:在视觉计数过程中可能会犯错误,而且通常缺少有效的机制来检测和纠正这些错误。
-
提高实用性的需求:为了使视觉计数方法更加实用,需要使结果更易于理解和验证,并引入反馈机制以便在发现错误时进行纠正。
-
人机交互框架:提出了一个包含人机交互环节的框架,该框架可以:
- 交互式地展示预测结果。
- 收集用户的反馈。
- 根据反馈调整视觉计数器,以减少计数误差。
-
用户参与的重要性:通过用户的参与,可以提高计数的准确性,因为用户可以识别并纠正自动计数过程中的错误。
-
适应性:视觉计数器需要能够根据用户的反馈进行适应性调整,以提高其性能和可靠性。
然而,为视觉计数开发一个交互式框架是具有挑战性的。第一个挑战是为用户提供一个直观的计数结果可视化工具。当前最先进的视觉计数方法通常生成一个密度图,然后对密度值求和以获得最终计数。然而,如图 1 所示,验证最终预测的计数可能很困难,验证中间密度图也是如此,这是由于密度图的连续性质与图像中物体的离散性质之间的不匹配。第二个挑战是设计一种适当的用户交互方法,该方法需要最少的用户努力,同时适用于对目标计数提供反馈。第三个挑战是为选定的交互类型开发一个有效的适应方案,该方案可以整合用户反馈并提高视觉计数器的性能。在本文中,我们解决了上述所有三个挑战,以开发一个视觉计数的交互式框架。
-
开发交互式框架的挑战:在视觉计数任务中引入用户交互虽然有其优势,但也带来了一系列挑战。
-
直观可视化:第一个挑战在于如何提供一个让用户能够直观理解计数结果的可视化工具。密度图是一种常用的可视化手段,但由于其连续性,可能难以与图像中离散的物体直接对应。
-
验证预测计数:用户可能难以验证预测的计数是否准确,尤其是在密度图与实际物体分布不完全对应的情况下。
-
用户交互方法:第二个挑战是确定如何设计用户交互,以便用户能够以最少的努力提供有效的反馈。这可能涉及到用户界面设计、交互流程的简化等。
-
反馈机制:需要设计一种机制,让用户能够方便地指出预测中的误差,并提供正确的计数信息。
-
适应方案:第三个挑战是开发一个有效的适应性方案,使系统能够根据用户的反馈进行调整,从而提高计数的准确性。
-
性能提升:通过整合用户反馈,目标是提高视觉计数器的性能,减少计数误差。
-
解决挑战:本文提出了一个框架,旨在解决上述挑战,通过交互式方法增强视觉计数的准确性和可靠性。
-
研究贡献:通过提出交互式框架,本文的研究工作为视觉计数领域提供了一种新的研究方向,强调了用户体验和交互在提高计数准确性中的重要作用。
For the first challenge, we propose a novel segmentation method that segments a density map into non-overlapping regions, where the sum of density values in each region is a near-integer value that can be easily verified. This provides the user with a more natural and understandable interpretation of the predicted density map. Notably, developing such an algorithm that must also be suitably fast for an interactive system is challenging, which constitutes a technical contribution of our paper.
对于第一个挑战,我们提出了一种新颖的分割方法,该方法将密度图分割成不重叠的区域,在这些区域中,每个区域内的密度值之和是一个可以容易验证的近似整数值。这为用户提供了对预测密度图的更自然和易于理解的解释。值得注意的是,开发这样一个算法,既要满足技术要求,又要适合交互式系统的快速需求,是一项挑战,这也是我们论文的一个技术贡献。
-
分割方法的创新性:作者提出了一种新的分割技术,用于处理视觉计数任务中生成的密度图。这种分割技术将密度图划分成多个小区域,每个区域都不与其他区域重叠。
-
分割结果的特点:每个分割区域的密度值总和接近一个整数,这意味着预测的物体数量接近一个整数值,便于用户直观理解和验证。
-
用户验证的便利性:由于分割后的区域密度值总和为近似整数值,用户可以更容易地检查每个区域的物体数量,从而验证计数的准确性。
-
算法性能的重要性:算法需要快速运行,以适应交互式系统的要求。用户在交互式系统中期望得到即时反馈,因此算法的响应速度对于用户体验至关重要。
-
技术挑战:开发一个既快速又准