1、COCONut: Modernizing COCO Segmentation
中文标题:COCONut:现代化 COCO 分割
简介:在过去几十年中,视觉领域在视觉识别方面取得了显著进展,其中数据集基准的改进功不可没。特别值得注意的是,现有的COCO基准推动了现代检测和分割系统的发展。然而,在过去的十年里,COCO分割基准的改进相对较慢。最初,该基准使用粗略的多边形注释来标注物体实例,并逐渐引入了粗略超像素注释来标注物体区域,然后通过启发式方法将它们合并以生成全景分割注释。这些注释是由不同的评定者完成的,导致了粗糙的分割掩模以及分割类型之间的不一致性。在本研究中,我们对COCO分割注释进行了全面的重新评估。通过提高注释质量并扩展数据集,我们现在拥有了一个包含383K张图像和超过5.18M个全景掩模的数据集,我们称之为COCOnut,即COCO的下一代通用分割数据集。COCOnut通过精心制作高质量的掩模,协调了语义分割、实例分割和全景分割之间的注释,并为所有分割任务建立了强大的基准。据我们所知,COCOnut是首个经过人工评定验证的大规模通用分割数据集。我们预计,COCOnut的发布将显著促进社区对新型神经网络性能的评估和进展。
2、Probing the 3D Awareness of Visual Foundation Models
中文标题:探索视觉基础模型的 3D 意识
简介:最近,大规模预训练模型在视觉领域取得了重大进展,这些模型具备强大的能力。最新的模型不仅可以在其训练任务的图像上表现出色,而且它们的中间表示对于其他视觉任务,如检测和分割,也非常有用。鉴于这些模型可以在2D空间中对对象进行分类、描述和定位,我们想弄清楚它们是否也能够准确表示其3D结构。在本研究中,我们对视觉基础模型的3D感知进行了分析。我们认为,3D感知意味着表示能够编码场景的3D结构,并且能够在不同视角下一致地表示物体表面。为了探究这一问题,我们进行了一系列实验,使用特定任务的探测器和冻结特征的零样本推理过程。我们的实验揭示了当前模型存在一些限制。我们的代码和分析结果可以在https://github.com/mbanani/probe3d找到。
3、Training-free Boost for Open-Vocabulary Object Detection with Confidence Aggregation
中文标题:通过置信度聚合实现开放词汇目标检测的免训练提升
简介:开放词汇物体检测(OVOD)的目标是在训练时未见过的新类别中定位和识别视觉对象。然而,实证研究表明,高级检测器通常会给这些新实例分配较低的分数,因为在推断过程中常用的贪心策略(如非极大值抑制(NMS))会无意中抑制这些实例,导致新类别的检测性能较差。本研究系统地研究了这个问题,并探讨了常用的两阶段OVOD范例。具体而言,在区域提议阶段,包含新实例的提议会显示出较低的物体得分,因为在训练阶段它们被视为背景提议。同时,在对象分类阶段,由于已见训练样本的偏见造成的视觉-语言不一致性,新对象会共享较低的区域-文本相似性(即分类分数)。为了缓解这个问题,本研究引入了两种先进的措施来调整置信度分数并保留错误拒绝的对象:(1)通过估计区域/对象提议的重叠度来估计类别无关的定位质量,(2)使用新类别的代理原型进行文本引导的视觉相似性估计。本研究结合专门为区域提议和对象分类阶段设计的调整技术,提出了一种用于开放词汇物体检测范例的聚合置信度估计(AggDet)。我们的AggDet是一种通用的、无需训练的后处理方案,可以持续提高开放词汇检测器的性能,而无需增加模型规模和架构设计。例如,在OV-COCO和OV-LVIS基准测试中,AggDet分别获得了3.3%和1.5%的性能增益,而无需进行任何额外的训练成本。