[深度学习]开放域检测算法OV-DINO和yolo-world的pk比较

FL1623863129

已于 2024-08-02 09:53:42 修改

阅读量220

点赞数 2

分类专栏：深度学习文章标签：深度学习 YOLO 人工智能

于 2024-08-02 09:48:53 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/FL1623863129/article/details/140864314

版权

深度学习专栏收录该内容

141 篇文章 18 订阅

订阅专栏

【OV-DINO介绍】

中山大学联合美团提出新模型OV-DINO，实现开放域检测开源新SOTA！

比Grounding DINO高12.7% AP，比YOLO-World 高4.7% AP。

量子位, 开放域检测新SOTA！中山大学美团出品，开源性能最强

目标检测技术一直是研究的热点。但传统的目标检测方法往往受限于预定义的类别集合，难以应对现实世界中种类繁多的物体。

为了突破这一限制，开放词汇检测（Open-Vocabulary Detection, OVD）应运而生。换言之，它能在模型在没有预先定义类别的情况下，通过文本描述来识别和检测物体。

OV-DINO是基于语言感知选择性融合、统一的开放域检测方法。作为最强开放域检测开源模型，目前项目已公开论文和代码，在线Demo也可体验。

什么是OV-DINO？

本文提出了一种名为OV-DINO的开放域检测方法。

整体框架包括一个文本编码器、一个图像编码器和一个检测头。模型接收图像和提示文本作为输入，通过特定模板创建统一的文本嵌入表示。

图像和文本嵌入经过编码器处理后，图像嵌入通过Transformer编码器生成精细化的图像嵌入。

语言感知查询选择模块选择与文本嵌入相关的对象嵌入，并在解码器中与可学习的内容查询融合，最终输出分类分数和回归边界框。

量子位, 开放域检测新SOTA！中山大学美团出品，开源性能最强

论文地址：
https://arxiv.org/abs/2407.07844
代码地址：
https://github.com/wanghao9610/OV-DINO
Demo：
http://47.115.200.157:7860/

【正式PK】

yolo-world

结果大失所望什么都没检测出来，不是说yolo-world零样本检测模型，提供了以往无法达到的高效率和准确性，实测多张图片效果邋遢。

OV-DINO

结果部分检测出来，证明比yolo-world强多了，注意需要设置合理阈值才能检测出来过高和过低都可能出现很差效果，经过多张图片测试效果比yolo-world强不少

【总结】

OV-DINO算法可以媲美goudingdino算法，yolo-world言过其实，经过多次图片同等条件测试yolo-world理论说的多牛x，实际效果经不起考验，在泛化场景根本不行。OV-DINO算法问世，标注国产开放集合检测新范式，为实际应用提供有力科学技术支撑。

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
[深度学习]开放域检测算法OV-DINO和yolo-world的pk比较

本文提出了一种名为OV-DINO的开放域检测方法。整体框架包括一个文本编码器、一个图像编码器和一个检测头。模型接收图像和提示文本作为输入，通过特定模板创建统一的文本嵌入表示。图像和文本嵌入经过编码器处理后，图像嵌入通过Transformer编码器生成精细化的图像嵌入。语言感知查询选择模块选择与文本嵌入相关的对象嵌入，并在解码器中与可学习的内容查询融合，最终输出分类分数和回归边界框。论文地址：代码地址：Demo：【正式PK】yolo-worldOV-DINO【总结】
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

FL1623863129 你的打赏是我写文章最大的动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。