#今日论文推荐# ECCV2022 | RU&谷歌提出用CLIP进行zero-shot目标检测
构建鲁棒的通用对目标测框架需要扩展到更大的标签空间和更大的训练数据集。然而,大规模获取数千个类别的标注成本过高。作者提出了一种新方法,利用最近视觉和语言模型中丰富的语义来定位和分类未标记图像中的对象,有效地生成用于目标检测的伪标签。从通用的和类无关的区域建议(region proposal)机制开始,作者使用视觉和语言模型将图像的每个区域分类为下游任务所需的任何对象类别。作者演示了生成的伪标签在两个特定任务中的价值:开放词汇检测,其中模型需要推广到看不见的对象类别;半监督对象检测,其中可以使用额外的未标记图像来改进模型。本文的实证评估显示了伪标签在这两项任务中的有效性,在这两项任务中,本文的表现优于竞争基线,并实现了开放词汇表目标检测的SOTA。
目标检测的最新进展建立在大规模数据集上,这些数据集为许多物体类别提供了丰富而准确的人类标注边界框。然而,此类数据集的标注成本是巨大的。此外,自然对象类别的长尾分布使得为所有类别收集足够的标注更加困难。半监督对象检测(SSOD)和开放词汇表对象检测(OVD)是通过利用不同形式的未标记数据来降低标注成本的两项任务。在SSOD中,给出了一小部分完全标注的训练图像以及大量未标注图像。在OVD中,在所有训练图像中标注一部分所需的对象类别(基本类别),任务是在测试时检测一组新的(或未知)类别。这些对象类别可以出现在训练图像中,但不使用地面ground truth框进行标注。一种常见且成功的方法是使用未标记的数据来生层伪标签。然而,所有先前关于SSOD的工作都只利用了一小部分标记数据来生成伪标签,而大多数先前关于OVD的工作根本没有利用伪标签。
论文题目:Exploiting Unlabeled Data with Vision and Language Models for Object Detection
详细解读:https://www.aminer.cn/research_report/62ea2a087cb68b460ffa9e3dhttps://www.aminer.cn/research_report/62ea2a087cb68b460ffa9e3d
AMiner链接:https://www.aminer.cn/?f=cs