开源性能最强!中大和美团提出OV-DINO:语言感知的开放域目标检测方法!

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【Mamba和目标检测】交流群

添加微信号:CVer111,小助手会拉你进群!

扫描下方二维码,加入CVer学术星球!可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料,及最前沿应用!发论文/搞科研/涨薪,强烈推荐!

d42a23e3bba32d2e3349fa751ee773a9.png

本篇分享论文“OV-DINO: Unified Open-Vocabulary Detection with Language-Aware Selective Fusion”,由中山大学和美团联合提出新的开放域检测方法OV-DINO:基于语言感知选择性融合、统一的开放域检测方法,取得了开放域检测新SOTA!目前开源性能最强的开放域检测模型!(比GroundingDINO高12.7% AP!比YOLO-World 高4.7% AP!)

2dd70f4f148e8b97b1d02593ec37ebbb.png

项目:wanghao9610.github.io/OV-DINO

论文:https://arxiv.org/abs/2407.07844

代码(已开源):

https://github.com/wanghao9610/OV-DINO

在线Demo:http://47.115.200.157:7860/

1. 亮点

  • OV-DINO 是一种新颖的统一的开放域检测方法,能为实际应用提供出色的性能和效果。

  • OV-DINO 提出了一个统一的数据集成管道,用于整合多种数据源进行端到端的预训练;并提出了一个语言感知选择性融合模块,以提高模型的视觉语言理解能力。

  • 相比之前的方法,OV-DINO 在 COCO 和 LVIS 基准上显示出显著的性能提升,在零样本评估中,相比 Grounding-DINO 分别在 COCO 上提升了 2.5% AP,在 LVIS 上提升了 12.7% AP。

2. 摘要

开放域检测是一项具有挑战性的任务,因为它需要基于类名检测对象,包括在训练过程中未遇到的类名。现有的方法通过在多样的大规模数据集上进行预训练展示了强大的零样本检测能力。然而,这些方法仍然面临两个主要挑战:(i) 如何高效整合多样的数据源以进行端到端训练,(ii) 如何有效利用语言感知能力进行区域级的跨模态理解。为了解决这些挑战,我们提出了一种新颖的统一的开放域检测方法OV-DINO,该方法在多样的大规模数据集上进行预训练,并在统一框架中进行语言感知的选择性融合。具体来说,我们引入了一个统一的数据整合(UniDI)管道,以实现端到端训练,并通过将不同的数据源统一到以检测为中心的数据中来消除伪标签生成带来的数据噪声。此外,我们提出了一个语言感知选择性融合(LASF)模块,通过语言感知的查询选择和融合过程来实现模型的语言感知能力。我们在流行的开放域检测基准数据集上评估了所提出的OV-DINO的性能,以零样本方式在COCO数据集上实现了50.6%的AP,在LVIS数据集上实现了40.0%的AP,展示了其强大的泛化能力。此外,在COCO数据集上微调的OV-DINO实现了58.4%的AP,超越了许多使用相同骨干网的方法。

3. 方法

本文提出了一种名为OV-DINO的开放域检测方法。该模型在统一预训练框架内利用多种数据源实现了端到端预训练,在多个开放域检测数据集上取得了当前最好的性能表现。   

7c2645de494f8f566fbc96149ad60feb.png

图1 OV-DINO模型结构图

3.1 整体框架

OV-DINO的整体框架包括一个文本编码器、一个图像编码器和一个检测头。模型接收图像和提示文本作为输入,通过特定模板创建统一的文本嵌入表示。图像和文本嵌入经过编码器处理后,图像嵌入通过Transformer编码器生成精细化的图像嵌入。语言感知查询选择模块选择与文本嵌入相关的对象嵌入,并在解码器中与可学习的内容查询融合,最终输出分类分数和回归边界框。

3.2 统一数据集成(UniDI)

在预训练阶段,OV-DINO将检测数据、定位数据和图像-文本数据转换为统一的检测数据格式,从而简化模型优化过程并提高性能。检测数据和定位数据的集成相对简单,而图像-文本数据的转换则通过将图像描述视为图像的唯一类别来实现。所有文本输入都通过简单模板进行统一处理,确保一致的文本嵌入表示。   

3.3 语言感知选择性融合(LASF)

该模块包括语言感知查询选择和语言感知查询融合两个关键组件。查询选择组件通过评估图像嵌入和文本嵌入的相似性来选择对象嵌入。查询融合组件逐步融合语言感知对象嵌入,同时保留内容查询的原始语义。语言感知查询选择通过计算图像嵌入和文本嵌入的相似性矩阵,并选择最相关的嵌入。查询融合则在解码器层中动态更新内容查询,逐步引入语言感知上下文。

3.4 预训练

OV-DINO采用检测中心的数据格式,将不同类型的数据(检测数据、定位数据和图像-文本数据)转化为适合检测的格式,允许在统一的框架内进行预训练。模型的前向传播过程包括图像编码器提取图像嵌入、文本编码器提取文本嵌入、Transformer编码器生成精细化图像嵌入、语言感知查询选择模块选择对象嵌入,以及Transformer解码器通过选择性融合模块进行查询分类和边界框回归。模型通过统一的分类损失函数和目标框损失函数进行优化。

通过上述设计,OV-DINO实现了开放域检测的高效预训练和性能提升。

4. 实验

4.1 实验设置

OV-DINO使用Swin Transformer作为图像编码器和BERT-base作为文本编码器的模型架构,通过统一数据集成(UniDI)流程整合了多样化的数据源,如Objects365、GoldG grounding和Conceptual Captions图像-文本数据集,进行端到端的预训练。在此基础上,引入了语言感知选择性融合(LASF)模块来优化跨模态的语义对齐。在预训练阶段,批量大小为128,训练周期为24个epoch,使用了AdamW优化器,学习率调度采用多步衰减策略。在COCO数据集进行了额外的微调,批量大小为32,设置了更小的学习率。在COCO和LVIS基准数据集上进行评估,采用平均精度(AP)和固定平均精度(Fixed AP)作为主要指标。   

4.2 主要实验结果

4.2.1 COCO Benchmark

在零样本评估设置中,OV-DINO在COCO 2017验证集上取得了50.6%的平均精度(AP),这在同类方法中表现突出。该结果显著优于先前的方法,GLIP和G-DINO,显示了OV-DINO在处理未见类别时的强大泛化能力。在COCO数据集上进行微调后,OV-DINO进一步提升了性能,达到了58.4%的AP,刷新了该领域的记录。这一结果证明了OV-DINO不仅在零样本情况下表现出色,通过进一步的微调也能在封闭词汇集上实现卓越的检测性能。

4.2.2 LVIS Benchmark

在零样本评估设置中,OV-DINO在LVIS MiniVal数据集上取得了40.1%的AP,显著优于其他现有方法,如GLIP和G-DINO。在LVIS Val数据集上,OV-DINO也展现了强大的性能,取得了32.9%的AP。OV-DINO在处理LVIS数据集中的长尾类别时表现出色,能够检测到稀有(rare)、常见(common)和频繁(frequent)类别的物体。在LVIS MiniVal数据集上,OV-DINO在稀有类别上取得了34.5%的AP,在常见类别上取得了39.5%的AP,在频繁类别上取得了41.5%的AP。   

178e7664521524be1b2736c99c18d871.png

表1 COCO 实验结果

8c249d9893c2beb7b3ffd39332c93e20.png

表2 LVIS实验结果

4.3消融实验结果

4.3.1统一数据集成(UniDI)

消融实验显示,UniDI通过将不同数据源整合到统一的检测中心数据格式中,显著提高了模型在LVIS MiniVal数据集上的性能。   

4.3.2 语言感知选择性融合(LASF)

LASF模块通过动态选择与文本输入相关的对象嵌入,并将其与可学习的内容查询融合,进一步提升了模型的跨模态对齐能力。

4.3.3 LASF变体比较

对LASF的不同变体(Later-LASF, Middle-LASF, Early-LASF)进行了比较。结果显示,Later-LASF变体在零样本转移能力上表现最佳,被选为OV-DINO的默认架构。

4.3.4 文本嵌入池化方法

消融实验研究了不同的文本嵌入池化方法(如均值池化和最大值池化)对模型性能的影响。结果表明,均值池化在结合使用O365和CC数据集时表现更好,这有助于捕获提示文本的全面表示。

4.3.5 图像-文本数据源的影响

通过比较不同来源的图像-文本数据(如基于图像-文本相似度排名的底部100K样本、随机选择的100K样本和顶部100K样本)对模型性能的影响。结果显示,排名最高的数据源表现最佳,而排名最低的数据源表现最差,这突出了图像-文本数据集中不可避免的噪声,并强调了过滤操作的必要性。

5. 可视化结果

5.1 COCO可视化结果比较

可视化结果显示,OV-DINO能够准确地检测出图像中定义的所有对象,并且置信度分数较高。与GLIP和G-DINO等其他方法相比,OV-DINO的预测更加精确,并且能够检测到标签中未标记的额外对象。

5.2 LVIS可视化结果展示

LVIS数据集包含超过1000个类别,OV-DINO在零样本推断中展现了其检测多样化实例的能力。可视化结果突出了OV-DINO在长尾类别上的性能,显示出在图像中检测到丰富多样的物体类别,并且预测结果具有高准确性。

通过在COCO和LVIS数据集上的可视化结果,OV-DINO证明了其强大的零样本泛化能力,即使是在面对训练期间未遇到的类别时也能进行有效的检测。

12f0f6a15ecdf865141e52c03bc0b5be.png

图2 COCO 可视化结果比较   

87c1f702daa0b747c605b9cf371ad1ac.png

图3 LVIS 可视化结果展示

6. 结论

OV-DINO是一个统一的开放域检测方法,通过语言感知的选择性融合和统一数据集成(UniDI)显著提高了检测性能。在COCO和LVIS基准测试中,OV-DINO实现了超越现有最先进方法的性能,在零样本和微调评估中均展现出卓越的结果。通过引入语言感知的跨模态融合和对齐,OV-DINO为开放域检测(OVD)提供了一种新颖的视角,与传统的区域-概念对齐方法不同。尽管OV-DINO在性能上取得了显著成果,但仍存在一些挑战和局限性,如模型扩展性、计算资源需求等。期望OV-DINO能够激励未来在开放域视觉任务中更有效地利用语言感知跨模态信息的探索。

何恺明在MIT授课的课件PPT下载

 
 

在CVer公众号后台回复:何恺明,即可下载本课程的所有566页课件PPT!赶紧学起来!

ECCV 2024 论文和代码下载

在CVer公众号后台回复:ECCV2024,即可下载ECCV 2024论文和代码开源的论文合集

CVPR 2024 论文和代码下载

在CVer公众号后台回复:CVPR2024,即可下载CVPR 2024论文和代码开源的论文合集

Mamba、目标检测交流群成立

 
 
扫描下方二维码,或者添加微信号:CVer111,即可添加CVer小助手微信,便可申请加入CVer-Mamba、目标检测微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。
一定要备注:研究方向+地点+学校/公司+昵称(如Mamba、目标检测+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

 
 
▲扫码或加微信号: CVer111,进交流群
CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集上万人!

▲扫码加入星球学习
 
 
▲点击上方卡片,关注CVer公众号
整理不易,请赞和在看
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值