CVPR 2024最新论文分享┆YOLO-World：一种实时开放词汇目标检测方法

最新推荐文章于 2025-03-21 12:55:38 发布

audyxiao001

最新推荐文章于 2025-03-21 12:55:38 发布

阅读量4.6k

点赞数 21

文章标签： YOLO 目标检测目标跟踪人工智能

本文链接：https://blog.csdn.net/audyxiao001/article/details/141966746

版权

论文分享简介

本推文主要介绍了CVPR 2024上的一篇论文《YOLO-World: Real-Time Open-Vocabulary Object Detection》，论文的第一作者为Tianheng Cheng和Lin Song，该论文提出了一种开放词汇目标检测的新方法，名为YOLO-World。论文通过引入视觉-语言建模和大规模预训练解决了传统YOLO检测器在固定词汇检测中的局限性。论文提出的YOLO-World模型，通过Re-parameterizable Vision-Language Path Aggregation Network（RepVL-PAN）及区域-文本对比损失，增强了视觉与语言信息的交互，从而在零样本检测中表现出色。该方法在LVIS数据集上实现了35.4 AP，并保持了高效的推理速度，且在多个下游任务中表现优异。推文作者为李杨，审校为朱旺和陆新颖。

论文下载地址：

https://arxiv.org/pdf/2401.17270

开源代码地址：

https://github.com/AILab-CVC/YOLO-World

1. 会议介绍

CVPR（IEEE / CVF Computer Vision and Pattern Recognition Conference）是计算机视觉和模式识别领域最具影响力的国际顶级会议之一。该会议由IEEE计算机学会主办，每年都会吸引全球范围内的研究人员、学者和业界专家参与。自1983年创办以来，CVPR已经发展成为展示和分享计算机视觉、深度学习、图像处理等领域最新研究成果的重要平台。该会议论文具有极高的学术质量和影响力，其接受的论文经过严格的同行评审，并往往代表了该领域的前沿研究。CVPR也是中科院JCR一区TOP会议，CCF-A类会议，发表的论文影响因子极高。CVPR每年吸引大量投稿，其激烈的竞争环境使得入选的论文具有较高的学术影响力。

2. 背景与挑战

目标检测是计算机视觉中一个长期存在且基本的挑战，广泛应用于图像理解、机器人和自动驾驶等领域。尽管深度神经网络的发展已使目标检测取得了显著进展，但现有方法主要处理具有固定词汇的目标检测，即只能检测预定义和标注好的类别，难以应对开放场景中的多样化目标检测。

（1）开放词汇目标检测的挑战：当前的目标检测方法在处理开放场景时面临许多挑战，特别是在计算负担和实际设备部署上的困难。大多数方法在固定类别的检测上表现良好，但在识别新类别时存在局限，尤其是词汇多样性不足且训练数据有限的情况下，模型难以进行泛化。

（2）现有方法的局限性：尽管一些方法尝试通过视觉-语言模型解决开放词汇检测问题，但它们通常依赖于大型且复杂的检测器，难以适应实际应用中的高效部署需求。许多方法在训练小型检测器方面表现欠佳，特别是在大规模数据预训练下，这些方法在实际场景中难以实现实时性。

为解决上述问题，论文提出了YOLO-World，旨在提高YOLO检测器在开放词汇下的检测能力，并通过高效的预训练方案来提升检测器的泛化能力，特别是在大规模数据集下的预训练，使其在零样本检测任务中表现优异。

3. 方法

图1 YOLO-World的整体架构

图1展示了YOLO-World的整体架构，其核心是通过视觉-语言跨模态融合实现开放词汇目标检测。YOLO-World基于YOLOv8，使用CLIP预训练的Transformer文本编码器将输入文本转化为文本嵌入，并结合YOLO检测器提取的多尺度图像特征。Re-parameterizable Vision-Language Path Aggregation Network（RepVL-PAN）将YOLO检测器生成的多尺度图像特征与文本编码器生成的文本嵌入结合，生成视觉和语言信息的联合特征表示。RepVL-PAN的设计允许在推理阶段将文本编码器移除，并将预计算的文本嵌入重新参数化为网络权重，以提高推理效率。模型在训练阶段采用区域-文本对比损失优化检测性能，而在推理阶段，YOLO-World使用预编码的离线词汇表，通过“提示-然后-检测”的策略实现高效推理和开词汇目标检测，从而在开放场景下表现出色。

4. 实验结果及可视化

1. 实验结果

表1展示了YOLO-World在LVIS数据集上的零样本检测性能，与其他最新的开词汇目标检测模型相比，YOLO-World表现出卓越的效率和准确性。不同规模的YOLO-World模型（S、M、L）在速度（FPS）和精度（AP）方面均超越了许多大型模型。例如，YOLO-World-L模型在LVIS数据集上达到了35.4的AP，并保持了52.0 FPS的推理速度，明显优于GLIP、Grounding DINO等模型的性能，尤其是在轻量化设计和高效推理上实现了突破。相比于依赖更大模型的DetCLIP，YOLO-World不仅在AP上接近（35.4 vs 34.4），而且推理速度快了约20倍。总的来看，表1的结果表明，YOLO-World在保持较高检测精度的同时，大幅提升了推理速度，尤其适用于实际部署中的实时应用。

表1 YOLO-World在LVIS数据上的零样本评估结果

表2展示了YOLO-World在COCO数据集上与其他YOLO系列模型的比较结果，分别对从头训练和零样本迁移的情况进行了评估。在从头训练的情况下，YOLO-World-L模型的性能达到53.3 AP，优于YOLOv8-L的52.9 AP，展示了其在COCO目标检测上的出色性能。在零样本迁移方面，YOLO-World在不经过额外微调的情况下，表现出了极强的泛化能力，YOLO-World-L模型通过预训练后达到44.4 AP，并通过微调进一步提升至53.3 AP。此外，YOLO-World在保持较高检测性能的同时，也兼顾了推理速度，其推理速度

接近其他高效的YOLO系列模型。表2的结果表明，YOLO-World不仅能够在固定词汇任务中取得良好的结果，还具备强大的零样本迁移能力，适用于广泛的应用场景。

表2 YOLO-World在COCO数据集上的比较结果

2. 可视化

图2展示了YOLO-World在LVIS数据集上的零样本推理结果，模型能够精准检测出图片中的多种物体，证明了其强大的泛化能力。

图2 YOLO-World在LVIS数据集上的零样本推理结果

图3展示了YOLO-World在自定义词汇下的检测能力，模型能够根据用户定义的词汇进行细粒度的目标检测，显示出其灵活适应不同检测需求的能力。

图3 YOLO-World在自定义词汇下的检测结果

图4体现了YOLO-World在指代目标检测中的表现，能够根据用户提供的描述性短语准确定位图片中的相关物体，表明其在跨模态理解方面的卓越性能。

图4 YOLO-World在描述性短语下的检测结果

5. 总结

该论文提出了一种面向开放词汇目标检测的高效模型，名为YOLO-World。通过融合视觉和语言模态，提升了YOLO系列检测器在零样本场景中的泛化能力。YOLO-World采用了Re-parameterizable Vision-Language Path Aggregation Network (RepVL-PAN) 和区域-文本对比损失，成功实现了高效的视觉-语义交互，并在大规模数据集上进行了预训练，使其在LVIS和COCO等数据集上的零样本检测和迁移学习任务中表现出色。实验结果表明，YOLO-World不仅在检测精度上超越了许多现有方法，还显著提升了推理速度，具备实际应用中的实时性和部署优势。总体而言，YOLO-World为开放词汇目标检测提供了一种高效且可扩展的解决方案。