【论文笔记】YOLO-World: Real-Time Open-Vocabulary Object Detection

最新推荐文章于 2024-04-30 23:23:50 发布

CV视觉

最新推荐文章于 2024-04-30 23:23:50 发布

阅读量596

点赞数 19

文章标签：论文阅读 YOLO 目标检测机器学习深度学习人工智能计算机视觉

本文链接：https://blog.csdn.net/2401_83878212/article/details/137969744

版权

1.摘要

（1）基于yolo网络框架，通过在大规模数据集上进行视觉语言建模和预训练来增强YOLO的开放词汇检测能力。

（2）提出了一种新的可重新参数化的视觉-语言路径聚合网络( RepVL-PAN )和区域-文本对比损失，以促进视觉和语言信息之间的交互。

2.介绍

现有方法主要存在两方面的问题：

( 1 ) 计算量大；( 2 ) 边缘设备部署复杂。

已经有预训练大检测器的良好性能，而预训练小检测器以赋予其开放的识别能力仍未被探索。

利用预训练的CLIP [ 39 ]文本编码器对输入文本进行编码。我们进一步提出了可再参数化的视觉-语言路径聚合网络( Re-parameterizable Vision-Language Path Aggregation Network，RepVL-PAN )来连接文本特征和图像特征，以获得更好的视觉-语义表示。在推理过程中，可以移除文本编码器，并将文本嵌入重新参数化为Rep VL - PAN的权重，以实现高效部署。

此外，我们探索了一种先提示后检测的范式，以进一步提高真实世界场景下开放词汇目标检测的效率。

主要贡献：提出了一个可重新参数化的视觉-语言PAN来连接视觉和语言特征，并为YOLO - World提出了一个开放词汇的区域-文本对比预训练方案。

3.网络框架

4.方法

4.1 预训练提法：区域-文本对

传统目标检测使用，box和类别作为标签训练

区域-文本对：使用box和文本（文本可以是类别名称、名词短语，也可以是对象描述）作为标签训练。

4.2 模型架构

由YOLO检测器、文本编码器和可再参数化的视觉-语言路径聚合网络( RepVL-PAN )组成。

4.2.1 YOLO检测器：

YOLO - World主要是在YOLOv8 [ 20 ]的基础上开发的，它包含一个暗网主干[ 20、43 ]作为图像编码器，一个用于多尺度特征金字塔的路径聚合网络( PAN )，以及一个用于边界框回归和对象嵌入的头部。

4.2.2 文本编码器：

给定文本T，我们采用CLIP [ 39 ]预训练的Transformer文本编码器提取相应的文本嵌入W = TextEncoder ( T )∈RC × D，其中C为名词个数，D为嵌入维数。与纯文本语言编码器相比，CLIP文本编码器为视觉对象与文本之间的连接提供了更好的视觉语义能力[ 5 ]。当输入文本为字幕或指称表达时，我们采用简单的n - gram算法提取名词短语，然后将其输入到文本编码器中。

4.2.3 文本对比头：

根据先前的工作[ 20 ]，我们采用具有两个3 × 3卷积的解耦头回归边界框{ bk } K k = 1和对象嵌入{ ek } K k = 1，其中K表示对象的个数。我们提出了一个文本对比头来获得对象-文本相似度sk，j by：

其中L2 - Norm ( · )是L2范数，wj∈W是第j个文本嵌入。此外，我们加入了具有可学习的缩放因子α和平移因子β的仿射变换。L2范数和仿射变换对于稳定区域文本训练都很重要。

4.2.4 训练过程

在训练过程中，我们为每个包含4幅图像的拼接样本构造一个在线词汇表T。具体来说，我们从马赛克图像中抽取所有涉及的积极名词，并从相应的数据集中随机抽取一些消极名词。每个马赛克样本的词汇最多包含M个名词，默认M为80。

4.3.5 推理过程

在推理阶段，为了进一步提高效率，我们提出了一种先提示再检测的离线词汇策略。如图3所示，用户可以定义一系列自定义提示，这些提示可能包括标题或类别。然后，我们利用文本编码器对这些提示进行编码，并获得离线词汇嵌入。离线词汇表允许避免每次输入的计算，并提供了根据需要调整词汇表的灵活性。

5.重新参数化的视觉 PAN

出的RepVL - PAN的结构，它遵循[ 20、29 ]中自顶向下和自底向上的路径，建立了具有多尺度图像特征{ C3，C4，C5 }的特征金字塔{ P3，P4，P5 }。进一步地，我们提出了文本引导的CSPLayer ( T-CSPLayer )和图像池化注意力( I - -汇集注意力)，进一步增强图像特征和文本特征之间的交互，可以提高对开放词汇的视觉-语义表征能力。在推理过程中，离线的词汇嵌入可以重新参数化为卷积层或线性层的权重进行部署。

5.1 CSPLayer

CSPLayer (又称C2f)，将文本引导融入到多尺度图像特征中，形成了文本引导的CSPLayer。具体来说，给定文本嵌入W和图像特征Xl∈RH × W × D ( l∈{ 3,4,5 })，我们采用最后一个暗瓶颈块后的max - sigmoid注意力机制将文本特征聚合为图像特征。

5.2 Image-Pooling Attention

为了增强带有图像感知信息的文本嵌入，我们通过提出图像池化注意力机制来聚合图像特征来更新文本嵌入。与直接对图像特征使用交叉注意力不同，我们对多尺度特征使用最大池化得到3 × 3的区域，总共得到27个补丁标记.

附赠

【一】上千篇CVPR、ICCV顶会论文
【二】动手学习深度学习、花书、西瓜书等AI必读书籍
【三】机器学习算法+深度学习神经网络基础教程
【四】OpenCV、Pytorch、YOLO等主流框架算法实战教程

➤ 请关注公众号【学长论文指导】回复【156】即可获取
➤ 还可咨询论文辅导❤【毕业论文、SCI、CCF、中文核心、El会议】评职称、研博升学、本升海外学府！

CV视觉

关注

19
点赞
踩
13

收藏

觉得还不错? 一键收藏
0
评论
【论文笔记】YOLO-World: Real-Time Open-Vocabulary Object Detection

YOLO-World可以在提示中理解上下文以提供检测，不需要在特定类别上训练模型，因为该模型已使用图像文本对（image-text pairs）和基础图像（ grounded images）进行了训练，模型学会了如何接受任意提示。
复制链接

扫一扫