《Learning to Count without Annotations》CVPR2024

摘要

论文提出了一种名为UnCounTR的模型，该模型能够在没有任何手动标注的情况下学习进行基于参考的对象计数。这是通过构建“Self-Collages”（自我拼贴画）实现的，即在背景图像上粘贴不同对象的图像作为训练样本，提供覆盖任意对象类型和数量的学习信号。UnCounTR基于现有的无监督表示和分割技术，首次成功展示了无需手动监督即可进行参考计数的能力。实验表明，该方法不仅超越了简单的基线和通用模型（如FasterRCNN和DETR），而且在某些领域与监督计数模型的性能相匹配。

概述

拟解决的问题： 现有的基于参考的对象计数方法依赖于手动标注的数据集，因为手动在图像中标注数十个对象的成本很高。这限制了模型在更大和更多样化数据集上的性能提升。作者提出的方法旨在解决这一问题，即如何在没有手动标注的情况下训练有效的对象计数模型。

创新之处：

提出了一种简单而有效的数据生成方法，通过构建“Self-Collages”来生成训练样本，无需手动标注即可获得学习信号。
利用自监督预训练的视觉特征（如DINO特征），开发了一种基于Transformer模型架构的计数模型UnCounTR。
通过实验验证了该方法在没有手动标注的情况下训练的有效性，并且在某些情况下能够与监督学习方法相媲美。

方法

该方法首先利用无监督聚类算法对大量图像进行分类，以形成不同的对象类别，然后随机选择背景和对象图像，通过调整对象图像的大小并将其粘贴到背景图像上，构建出包含多个对象的“自我拼贴画”（Self-Collages）作为训练样本；接着，使用自监督预训练的DINO特征提取器来编码这些拼贴画和单个对象示例，并通过一个基于Transformer的模型架构，即UnCounTR，来学习如何根据示例预测整个图像中的对象数量；最后，模型通过最小化预测的密度图和由拼贴画中对象位置生成的伪标签之间的均方误差来进行训练，从而实现无需人工标注的高效视觉计数。