[深度学习]开放域检测算法OV-DINO和yolo-world的pk比较

【OV-DINO介绍】

中山大学联合美团提出新模型OV-DINO,实现开放域检测开源新SOTA!

比Grounding DINO高12.7% AP,比YOLO-World 高4.7% AP。

量子位, 开放域检测新SOTA!中山大学美团出品,开源性能最强

目标检测技术一直是研究的热点。但传统的目标检测方法往往受限于预定义的类别集合,难以应对现实世界中种类繁多的物体。

为了突破这一限制,开放词汇检测(Open-Vocabulary Detection, OVD)应运而生。换言之,它能在模型在没有预先定义类别的情况下,通过文本描述来识别和检测物体。

OV-DINO是基于语言感知选择性融合、统一的开放域检测方法。作为最强开放域检测开源模型,目前项目已公开论文和代码,在线Demo也可体验。

什么是OV-DINO?

本文提出了一种名为OV-DINO的开放域检测方法。

整体框架包括一个文本编码器、一个图像编码器和一个检测头。模型接收图像和提示文本作为输入,通过特定模板创建统一的文本嵌入表示。

图像和文本嵌入经过编码器处理后,图像嵌入通过Transformer编码器生成精细化的图像嵌入。

语言感知查询选择模块选择与文本嵌入相关的对象嵌入,并在解码器中与可学习的内容查询融合,最终输出分类分数和回归边界框。

量子位, 开放域检测新SOTA!中山大学美团出品,开源性能最强

论文地址:
https://arxiv.org/abs/2407.07844
代码地址:
https://github.com/wanghao9610/OV-DINO
Demo:
http://47.115.200.157:7860/

【正式PK】

yolo-world

结果大失所望什么都没检测出来,不是说yolo-world零样本检测模型,提供了以往无法达到的高效率和准确性,实测多张图片效果邋遢。

OV-DINO

结果部分检测出来,证明比yolo-world强多了,注意需要设置合理阈值才能检测出来过高和过低都可能出现很差效果,经过多张图片测试效果比yolo-world强不少

【总结】

OV-DINO算法可以媲美goudingdino算法,yolo-world言过其实,经过多次图片同等条件测试yolo-world理论说的多牛x,实际效果经不起考验,在泛化场景根本不行。OV-DINO算法问世,标注国产开放集合检测新范式,为实际应用提供有力科学技术支撑。

  • 2
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

FL1623863129

你的打赏是我写文章最大的动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值