U版YOLO-World来了，YOLOv8再度升级，三行代码上手YOLO-World！

最新推荐文章于 2025-03-11 16:50:30 发布

AIWalker-Happy

最新推荐文章于 2025-03-11 16:50:30 发布

阅读量3.2k

点赞数 23

分类专栏： YOLO 目标检测文章标签： YOLO 目标检测

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/huohu728/article/details/136279339

版权

本文首发：AIWalker
欢迎关注AIWalker，近距离接触底层视觉与基础AI

https://arxiv.org/abs/2401.17270
https://github.com/AILab-CVC/YOLO-World
https://github.com/ultralytics/ultralytics
https://www.yoloworld.cc/

YOLO-World亮点

YOLO-World是下一代YOLO检测器，旨在实时开放词汇对象检测。
YOLO-World在大规模视觉语言数据集上进行了预训练，包括Objects 365，GQA，Flickr 30 K和CC 3 M，这使得YOLO-World具有强大的zero-shot开集Capbility与Grounding能力。
YOLO-World实现了快速的推理速度；可以对用户给定词汇，所提重新参数化技术进一步加速推理和部署；

YOLO-World方案

上图为YOLO-World整体架构示意图，它包含一个YOLO检测器、一个文本编码器以及RepVL-PAN。文本编码器首先将输入文本编码为文本嵌入信息；图像编码器对基于输入图像提取多尺度特征信息；RepVL-PAN通过跨模态融合增强文本与图像表征。

YOLO Detector：编码器基于YOLOv8演变而来，YOLOv8由DarkNet骨干、PAN多尺度特征融合以及检测头构成；
Text Encoder：采用CLIP预训练文本编码器对输入文本T提取对应的文本嵌入 $\text{TextEncoder}(T) \in \mathbb{R}^{C \times D}$ ，这里C表示名词数目，D表示嵌入维度。相比于Text语言编码器，CLIP文本编码器可以提供更好的视觉-语义能力。当输入文本是句子时，我们采用n-gram

最低0.47元/天解锁文章

评论 4

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

AIWalker-Happy 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。