CVPR 2024 | 一种新颖的基于生成式的 OVD 检测范式:GenerateU

标题:Generative Region-Language Pretraining for Open-Ended Object Detection
论文:https://arxiv.org/pdf/2403.10191.pdf
源码:https://github.com/FoundationVision/GenerateU

导读

本文提出了一种全新的开放词汇对象检测方法,称为生成式开放对象检测(generative open-ended object detection, GenerateU),旨在解决在推理阶段没有确切类别知识的情况下进行对象检测的问题。

以以往典型的 OVD 方法不同,如上图所示,GenerateU 主要有几点优势:

  1. 预定义类别的依赖性

    • 经典OVD方法:通常依赖于预定义的类别或短语提示(text prompts),这些类别或短语在训练阶段被定义,并在推理阶段用于将图像区域与文本对齐。这意味着,尽管OVD方法试图解决封闭集问题,允许模型检测训练时未见过的类别,但在推理时仍然需要预先定义的类别信息。
    • GenerateU:相比之下,GenerateU不依赖于任何预定义的类别信息。它将对象检测任务视为一个生成问题,模型不仅检测图像中的密集对象,还能自由生成它们的名称。这种方法更加通用和实用,尤其是在用户在推理过程中缺乏对对象类别的精确知识的情况下。
  2. 类别信息的显式定义

    • 经典OVD方法:需要显式定义类别信息,这可能会引入语言歧义(例如,“person”,“a man”,“young boy”等相似的对象名称)或不够全面(例如,图中的“chain link fence”被遗漏)。
    • GenerateU:不需要显式定义类别信息,模型通过学习图像区域与文本描述之间的关联来生成对象名称,这使得模型能够更灵活地适应各种未知或未定义的对象。
  3. 实际应用场景

    • 经典OVD方法:在实际应用中可能受限,因为它们需要预先定义的类别集合,这在动态或未知的环境中可能不切实际。
    • GenerateU:由于不依赖预定义类别,更适合于用户在推理时对对象类别缺乏精确知识的场景,例如在探索新环境或处理未知对象时。

背景

在正式介绍本文方法之前,我们先简要理解下一些相关的技术脉络。

OVD

Open-Vocabulary Object Detection, OVD 是一种旨在扩展传统对象检测能力的方法,允许模型在训练阶段未见过的类别上进行泛化,其主要有两个特性:

  1. 语言监督学习:开放词汇检测方法通常利用语言监督来学习视觉模型,这种方法在图像识别任务中变得流行。通过结合图像和文本信息,模型能够更好地理解图像内容。
  2. 扩展到对象检测:许多最近的工作将开放词汇图像识别的成功扩展到了对象检测领域,提出了多种OVD方法。

以下是一些经典的工作:

  • OVRCNN:作为OVD的先驱工作之一,OVRCNN成功地将训练有素的视觉-语言模型应用于检测框架。
  • ViLD和RegionCLIP:这些方法利用CLIP的能力,通过知识蒸馏从以分类为导向的模型中学习视觉区域特征。
  • OV-DETR:基于DETR构建的新型开放词汇检测器,通过将分类表述为输入查询和指代对象之间的二元匹配。
  • OWL:提出了一个两步框架,使用标准的视觉变换器进行对比性图像-文本预训练和端到端检测微调。

除此之外,还有 Grounding-DINO、YOLO-World 以及 APE 等非常不错的 OVD 算法,大家可以关注下。总的来说,OVD 的目标是泛化到训练阶段未见过的新颖类别。然而,现有的OVOD工作通常依赖于预训练的视觉-语言模型来计算图像区域与任意类别名称之间的相似性。在推理阶段,仍然需要预定义类别。与现有方法不同,GenerateU 框架深入探讨了一个新的挑战——如何在推理过程中有效处理确切类别未知的场景。

MLLMs

多模态大语言模型(Multimodal Large Language Models, MLLMs)是一种结合了视觉和语言处理能力的模型,它们利用大型语言模型(Large Language Models, LLMs)作为核心智能,并与大量的图像-文本对进行训练,以提高在各种视觉与语言任务上的表现。

MLLMs以LLMs为基础,这些模型在处理自然语言方面表现出色,能够理解和生成复杂的文本。通常来说,MLLMs 需要使用大量的图像-文本对进行训练,这些数据对模型理解视觉内容和相关语言描述之间的关联至关重要。MLLMs在多种视觉与语言任务中表现出色,如视觉问答(VQA)、图像字幕生成等。

下面列举一些经典的 MLLMs 工作:

  • BLIP-2:提出了一种通用且高效的预训练策略,该策略利用现成的冻结预训练图像编码器和大型语言模型,通过插入适配器来增强模型的能力。
  • LLaMA-Adapter:通过在LLaMA的Transformer中插入适配器,引入了少量可学习参数,将LLaMA转变为一个能够遵循指令的模型。
  • LLaVA:代表了一个新颖的端到端训练的大型多模态模型,结合了视觉编码器和Vicuna,用于通用的视觉和语言理解,并具备令人印象深刻的聊天能力。

当然,上面的工作大多是基于全图语义理解,为了提升 MLLMs 的细粒度感知能力,后续研究进一步探索增强多模态模型的对象定位能力:

  • Kosmos-2:解锁了模型的定位能力,使模型能够提供视觉回答,如边界框,支持更广泛的视觉-语言任务,包括指代表达理解。
  • UNINEXT:将多种实例感知任务重新定义为统一的对象发现和检索范式,通过简单地改变输入提示,灵活地感知不同类型的对象。
  • DetGPT:基于语言指令定位感兴趣的对象,并允许用户与系统进行更高级别的交互,如视觉推理。

总的来说,多模态大语言模型在视觉和语言的结合上取得了显著进展,它们能够处理复杂的视觉-语言任务,并在理解图像内容和相关文本描述之间建立了强大的关联。而GenerateU框架则是在这一基础上,进一步探索了在没有预定义类别的情况下,如何为图像中的对象生成准确的类别名称。

Dense Captioning

Dense Captioning 是一种图像理解技术,旨在为图像中的各个区域生成一组描述性文本,这些描述不仅包括对象的类别,还可能包括对象的属性和它们之间的关系。Dense Captioning 的一个代表性工作是DenseCap,它开发了一个全卷积的定位网络来提取图像区域,然后使用递归神经网络(RNN)语言模型为这些区域生成描述。在Dense Captioning中,每个提取的区域都被视为一个独立的图像,并尝试为其生成包含多个对象及其属性的描述,例如“骑滑板的猫”或“戴红帽子的熊”。

最近,CapDet和GRiT尝试通过引入额外的语言模型作为 caption head,将 OVD 方法和Dense Captioning集成起来。然而,如上所述,这些方法要么在推理时仍然需要预定义的类别空间,要么仅限于封闭集对象检测问题。

与 Dense Captioning不同,GenerateU 提出的生成式开放式对象检测专注于在零样本设置中将单个对象描述为类别名称。这意味着GenerateU旨在识别和命名图像中的每个对象,而不是生成包含多个对象及其属性的复杂描述。

方法

GenerateU 框架是一个为开放世界对象检测而设计的模型,它能够定位图像中的所有对象,并以自由形式的方式提供相应的类别名称。简单来说,GenerateU的目标是构建一个能够处理开放世界对象检测的模型,它包含两个主要组件:一个开放世界对象检测器和一个语言模型。这个方法的核心在于,它不依赖于预定义的类别信息,而是能够自由地生成对象的名称。

开放世界对象检测

开放世界对象检测的第一步是准确地从图像中提取对象区域。GenerateU选择 Deformable DETR 作为检测器,因为它减少了对启发式方法的依赖,并提供了一个灵活的查询到实例的管道。

Deformable DETR 使用匈牙利匹配算法来学习预测查询和真实对象之间的映射,并结合分类损失和边界框回归损失来训练匹配的对象查询。在开放集问题中,GenerateU采用类别不可知的检测方法,只将匹配的查询分类为前景或背景,涉及二元交叉熵、广义IoU和L1回归损失。

从冻结的多模态大型语言模型转移

一旦对象候选区域被定位,GenerateU利用预训练的多模态大型语言模型(MLLM)来减少训练成本,并提供强大的零样本语言能力来生成对象名称。MLLM通常由三个组件组成:图像编码器、适配器网络和语言模型。GenerateU将类别不可知的Deformable DETR和冻结的图像编码器集成到MLLM中,只有检测头是可训练的。

生成式区域-语言预训练

与使用冻结的MLLM不同,GenerateU直接将开放世界对象检测器与语言模型链接起来,并激活图像编码器和语言模型作为可训练组件。使用基于编码器-解码器的语言模型,视觉表示作为编码器的输入,相关文本作为解码器的生成目标。在训练过程中,还引入了区域-词语对齐损失,以帮助模型学习区分区域特征。

丰富标签多样性

为了解决人工注释的成本和资源限制问题,GenerateU使用预训练的模型来生成伪标签,补充图像中缺失的对象。此外,语言模型中的beam search自然会产生同义词,从而提供多样化的对象标签。

值得一提的是,此处不仅会生成边界框,还为每个框生成描述性标签,如此一来,得到的伪标签是多样化的,并且也会非常丰富。例如,图中用白色下划线标注的伪标签表示这些标签是由模型生成的,而黑色下划线标注的名词短语表示这些短语来自图像的标题,这些标题中的名词短语通常是人工编写的,用于描述图像内容。

通过这种方式,GenerateU不仅能够识别图像中的对象,还能够生成准确且描述性的标签,这些标签能够覆盖图像中的多种对象,并且用词丰富,体现了模型对语言的深入理解。通过生成接近人类描述的标签,模型展示了对图像内容的深入理解,包括对象的类型、属性和它们在场景中的关系。

实验

GenerateU的实验部分展示了该模型在开放词汇对象检测任务中的有效性,特别是在零样本条件下。通过在Visual Genome和GRIT数据集上的训练,GenerateU在LVIS数据集上取得了与GLIP相当的结果,证明了其在无需预定义类别信息的情况下进行对象检测的能力。实验中尝试了两种不同的视觉编码器(Swin-Tiny和Swin-Large),Deformable DETR架构包含6个编码器层和6个解码器层,对象查询的数量设置为300。语言模型采用FlanT5-base,并使用AdamW优化器进行训练

此外,模型还能够成功迁移到其他数据集,如COCO和Objects365,并在消融研究中通过端到端训练显著提高了性能。此外,通过与从冻结的多模态大型语言模型(MLLM)转移的方法进行比较,作者发现直接将MLLM应用于对象检测任务会导致性能下降。而通过端到端训练整个模型,可以获得更好的结果。

总结

总体而言,GenerateU通过其生成式的方法和端到端的训练策略,为对象检测领域提供了一种新的解决方案,尤其适用于在推理时缺乏精确类别知识的场景。代码已在GitHub上公开,大家可以进一步探索和应用。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

CVHub

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值