【论文笔记】YOLO-World: Real-Time Open-Vocabulary Object Detection

1.摘要

(1)基于yolo网络框架,通过在大规模数据集上进行视觉语言建模和预训练来增强YOLO的开放词汇检测能力。

(2)提出了一种新的可重新参数化的视觉-语言路径聚合网络( RepVL-PAN )和区域-文本对比损失,以促进视觉和语言信息之间的交互。

2.介绍

现有方法主要存在两方面的问题:

( 1 ) 计算量大;( 2 ) 边缘设备部署复杂。

已经有预训练大检测器的良好性能,而预训练小检测器以赋予其开放的识别能力仍未被探索。

利用预训练的CLIP [ 39 ]文本编码器对输入文本进行编码。我们进一步提出了可再参数化的视觉-语言路径聚合网络( Re-parameterizable Vision-Language Path Aggregation Network,RepVL-PAN )来连接文本特征和图像特征,以获得更好的视觉-语义表示。在推理过程中,可以移除文本编码器,并将文本嵌入重新参数化为Rep VL - PAN的权重,以实现高效部署。

此外,我们探索了一种先提示后检测的范式,以进一步提高真实世界场景下开放词汇目标检测的效率。

主要贡献:提出了一个可重新参数化的视觉-语言PAN来连接视觉和语言特征,并为YOLO - World提出了一个开放词汇的区域-文本对比预训练方案。

3.网络框架

4.方法

4.1 预训练提法:区域-文本对

传统目标检测使用,box和类别作为标签训练

区域-文本对:使用box和文本(文本可以是类别名称、名词短语,也可以是对象描述)作为标签训练。

4.2 模型架构

由YOLO检测器、文本编码器和可再参数化的视觉-语言路径聚合网络( RepVL-PAN )组成。

4.2.1 YOLO检测器:

YOLO - World主要是在YOLOv8 [ 20 ]的基础上开发的,它包含一个暗网主干[ 20、43 ]作为图像编码器,一个用于多尺度特征金字塔的路径聚合网络( PAN ),以及一个用于边界框回归和对象嵌入的头部。

4.2.2 文本编码器:

给定文本T,我们采用CLIP [ 39 ]预训练的Transformer文本编码器提取相应的文本嵌入W = TextEncoder ( T )∈RC × D,其中C为名词个数,D为嵌入维数。与纯文本语言编码器相比,CLIP文本编码器为视觉对象与文本之间的连接提供了更好的视觉语义能力[ 5 ]。当输入文本为字幕或指称表达时,我们采用简单的n - gram算法提取名词短语,然后将其输入到文本编码器中。

4.2.3 文本对比头:

根据先前的工作[ 20 ],我们采用具有两个3 × 3卷积的解耦头回归边界框{ bk } K k = 1和对象嵌入{ ek } K k = 1,其中K表示对象的个数。我们提出了一个文本对比头来获得对象-文本相似度sk,j by:

其中L2 - Norm ( · )是L2范数,wj∈W是第j个文本嵌入。此外,我们加入了具有可学习的缩放因子α和平移因子β的仿射变换。L2范数和仿射变换对于稳定区域文本训练都很重要。

4.2.4 训练过程

在训练过程中,我们为每个包含4幅图像的拼接样本构造一个在线词汇表T。具体来说,我们从马赛克图像中抽取所有涉及的积极名词,并从相应的数据集中随机抽取一些消极名词。每个马赛克样本的词汇最多包含M个名词,默认M为80。

4.3.5 推理过程

在推理阶段,为了进一步提高效率,我们提出了一种先提示再检测的离线词汇策略。如图3所示,用户可以定义一系列自定义提示,这些提示可能包括标题或类别。然后,我们利用文本编码器对这些提示进行编码,并获得离线词汇嵌入。离线词汇表允许避免每次输入的计算,并提供了根据需要调整词汇表的灵活性。

5.重新参数化的视觉 PAN

出的RepVL - PAN的结构,它遵循[ 20、29 ]中自顶向下和自底向上的路径,建立了具有多尺度图像特征{ C3,C4,C5 }的特征金字塔{ P3,P4,P5 }。进一步地,我们提出了文本引导的CSPLayer ( T-CSPLayer )图像池化注意力( I - -汇集注意力),进一步增强图像特征和文本特征之间的交互,可以提高对开放词汇的视觉-语义表征能力。在推理过程中,离线的词汇嵌入可以重新参数化为卷积层或线性层的权重进行部署。

5.1 CSPLayer

CSPLayer (又称C2f),将文本引导融入到多尺度图像特征中,形成了文本引导的CSPLayer。具体来说,给定文本嵌入W和图像特征Xl∈RH × W × D ( l∈{ 3,4,5 }),我们采用最后一个暗瓶颈块后的max - sigmoid注意力机制将文本特征聚合为图像特征。

5.2 Image-Pooling Attention

为了增强带有图像感知信息的文本嵌入,我们通过提出图像池化注意力机制来聚合图像特征来更新文本嵌入。与直接对图像特征使用交叉注意力不同,我们对多尺度特征使用最大池化得到3 × 3的区域,总共得到27个补丁标记.


附赠

【一】上千篇CVPR、ICCV顶会论文
【二】动手学习深度学习、花书、西瓜书等AI必读书籍
【三】机器学习算法+深度学习神经网络基础教程
【四】OpenCV、Pytorch、YOLO等主流框架算法实战教程

➤ 请关注公众号【学长论文指导】回复【156】即可获取
➤ 还可咨询论文辅导❤【毕业论文、SCI、CCF、中文核心、El会议】评职称、研博升学、本升海外学府!

  • 19
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
damo-yolo是一个关于实时物体检测设计的报告。物体检测是计算机视觉中的重要任务之一,它可以识别图像或视频中的各种物体,并对其进行分类和定位。damo-yolo是基于YOLO(You Only Look Once)算法的改进版本,旨在提高实时性能和准确性。 YOLO算法是一种基于深度学习的物体检测算法,其核心思想是将物体检测任务转化为一个回归问题,同时使用卷积神经网络进行端到端的训练。YOLO的优点是具有较高的处理速度,可以在实时场景中进行物体检测。 damo-yolo在YOLO算法的基础上进行了优化和改进。首先,对YOLO的网络结构进行了调整,引入了新的特征提取模块和上采样模块,以提高特征表示的能力。其次,优化了损失函数的计算方法,使其更加准确地度量物体检测结果与真实标注的差距。此外,damo-yolo还引入了多尺度处理和先验框的改进方法,以提高检测结果的准确性和鲁棒性。 在实验结果部分,报告给出了在常见的物体检测数据集上的性能评估。实验结果显示,damo-yolo相比于传统的YOLO算法,在保持实时性能的情况下,能够取得更好的检测精度。具体而言,报告给出了不同物体类别的AP(Average Precision)值和mAP(mean Average Precision)值进行对比分析,证明了damo-yolo在物体检测任务中的优越性。 最后,在总结部分,报告指出了damo-yolo设计的优点和存在的不足之处。同时,报告还提出了未来进一步改进的方向,如进一步优化网络结构、改进损失函数和增强数据扩充等。通过这些工作,可以进一步提升damo-yolo的性能和应用场景的拓展。 综上所述,damo-yolo是一个关于实时物体检测设计的报告,通过对YOLO算法的改进,提高了实时性能和准确性,并且具有一定的应用前景和改进空间。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值