【OV-DINO介绍】
中山大学联合美团提出新模型OV-DINO,实现开放域检测开源新SOTA!
比Grounding DINO高12.7% AP,比YOLO-World 高4.7% AP。
目标检测技术一直是研究的热点。但传统的目标检测方法往往受限于预定义的类别集合,难以应对现实世界中种类繁多的物体。
为了突破这一限制,开放词汇检测(Open-Vocabulary Detection, OVD)应运而生。换言之,它能在模型在没有预先定义类别的情况下,通过文本描述来识别和检测物体。
OV-DINO是基于语言感知选择性融合、统一的开放域检测方法。作为最强开放域检测开源模型,目前项目已公开论文和代码,在线Demo也可体验。
什么是OV-DINO?
本文提出了一种名为OV-DINO的开放域检测方法。
整体框架包括一个文本编码器、一个图像编码器和一个检测头。模型接收图像和提示文本作为输入,通过特定模板创建统一的文本嵌入表示。
图像和文本嵌入经过编码器处理后,图像嵌入通过Transformer编码器生成精细化的图像嵌入。
语言感知查询选择模块选择与文本嵌入相关的对象嵌入,并在解码器中与可学习的内容查询融合,最终输出分类分数和回归边界框。
论文地址:
https://arxiv.org/abs/2407.07844
代码地址:
https://github.com/wanghao9610/OV-DINO
Demo:
http://47.115.200.157:7860/
【正式PK】
yolo-world
结果大失所望什么都没检测出来,不是说yolo-world零样本检测模型,提供了以往无法达到的高效率和准确性,实测多张图片效果邋遢。
OV-DINO
结果部分检测出来,证明比yolo-world强多了,注意需要设置合理阈值才能检测出来过高和过低都可能出现很差效果,经过多张图片测试效果比yolo-world强不少
【总结】
OV-DINO算法可以媲美goudingdino算法,yolo-world言过其实,经过多次图片同等条件测试yolo-world理论说的多牛x,实际效果经不起考验,在泛化场景根本不行。OV-DINO算法问世,标注国产开放集合检测新范式,为实际应用提供有力科学技术支撑。