YOLO-World

whaosoft143

已于 2024-02-19 22:36:04 修改

阅读量8.5k

点赞数 32

分类专栏：人工智能文章标签：人工智能

于 2024-02-02 22:51:48 首次发布

本文链接：https://blog.csdn.net/qq_29788741/article/details/136002075

版权

又一种yolo.....

一种新的可重参化的视觉语言路径聚合网络（RepVL-PAN）和区域文本对比损失，以促进视觉和语言信息之间的交互。作者的方法在以零样本方式检测广泛范围的物体时表现出色，且效率高。赋能YOLOv8开集检测能力，构建新一代YOLO新标杆

YOLO系列检测器已将自己确立为高效实用的工具。然而，它们依赖于预定义和训练的物体类别，这在开放场景中限制了它们的适用性。针对这一限制，作者引入了YOLO-World，这是一种创新的方法，通过视觉语言建模和在大型数据集上的预训练，将YOLO与开集检测能力相结合。具体来说，作者提出了一种新的可重参化的视觉语言路径聚合网络（RepVL-PAN）和区域文本对比损失，以促进视觉和语言信息之间的交互。作者的方法在以零样本方式检测广泛范围的物体时表现出色，且效率高。

YOLO-World在大规模视觉语言数据集上进行了预训练，包括Objects 365，GQA，Flickr 30 K和CC 3 M，这使得YOLO-World具有强大的zero-shot开集Capbility与Grounding能力。

在具有挑战性的LVIS数据集上，YOLO-World在V100上实现了35.4 AP和52.0 FPS，在准确性和速度上都超过了许多最先进的方法。此外，经过微调的YOLO-World在包括目标检测和开集实例分割在内的几个下游任务上取得了显著性能。

1 Introduction

目标检测一直是计算机视觉中一个长期而基础性的挑战，在图像理解、机器人学和自动驾驶车辆等领域有着众多的应用。随着深度神经网络的发展，大量的研究工作在目标检测领域取得了显著的突破。尽管这些方法取得了成功，但它们仍然有限，因为它们只处理具有固定词汇量的目标检测，例如，COCO 数据集中的80个类别。一旦定义并标记了目标类别，训练出的检测器只能检测那些特定的类别，这样就限制了在开放场景中的能力和适用性。

近期的工作探讨了普遍的视觉-语言模型，以解决开集检测问题，通过从语言编码器中提炼词汇知识，例如BERT。然而，这些基于蒸馏的方法受到很大限制，因为训练数据的稀缺性导致词汇多样性有限，例如OV-COCO仅包含48个基本类别。几种方法将目标检测训练重新定义为区域 Level 的视觉-语言预训练，并在大规模上训练开集目标检测器。然而，这些方法在现实场景中的检测仍然存在困难，主要受两方面影响：

计算负担重
边缘设备部署复杂

以前的工作已经证明了预训练大型检测器的性能潜力，而预训练小型检测器以赋予它们开放识别能力尚未被探索。

在本文中，作者提出了YOLO-World，旨在实现高效的开集目标检测，并探索大规模预训练方案，以将传统的YOLO检测器提升到一个新的开集世界。与先前方法相比，所提出的YOLO-World在具有高推理速度方面显著高效，易于部署到下游应用中。具体而言，YOLO-World遵循标准的YOLO架构，并利用预训练的CLIP文本编码器来编码输入文本。作者进一步提出了可重参化的视觉-语言路径聚合网络（RepVL-PAN），以更好地连接文本特征和图像特征，实现视觉语义表示。

在推理过程中，可以移除文本编码器，并将文本嵌入重新参数化为RepVL-PAN的权重，以实现高效部署。作者进一步研究了对YOLO检测器的大规模开集预训练方案，通过在大型数据集上对区域文本进行对比学习，将检测数据、定位数据以及图像文本数据统一为区域文本对。预训练的YOLO-World拥有丰富的区域文本对，展示了在大词汇检测方面的强大能力，且更多的数据训练将带来开集能力的更大提升。

此外，作者探索了一种“提示后检测”范式，以进一步改进实际场景中开集目标检测的效率。如图2所示，传统的目标检测器专注于固定词汇（封闭集）的检测，这些词汇是预定义且经过训练的类别。而之前的开集检测器则使用文本编码器对用户提示进行编码，以实现在线词汇的检测目标。值得注意的是，这些方法往往采用带有重型 Backbone 网络的大型检测器，例如Swin-L，以增加开集的容量。

相比之下，“提示后检测”范式（图2（c））首先对用户的提示进行编码以构建离线词汇，该词汇根据不同的需求而变化。然后，高效的检测器可以在不重新编码提示的情况下即时推理离线词汇。对于实际应用，一旦作者训练了检测器，即YOLO-World，作者可以预先编码提示或类别以构建离线词汇，然后无缝地将其整合到检测器中。

作者的主要贡献可以概括为三个方面：

作者介绍了YOLO-World，这是一个前沿的开集目标检测器，它具有高效率，适用于实际应用场景。
作者提出了一个可重新参数化的视觉-语言PAN模型，用以连接视觉和语言特征，并针对YOLO-World设计了一套开集区域文本对比预训练方案。
YOLO-World在大规模数据集上的预训练展示了强大的零样本性能，在LVIS上达到35.4 AP的同时，还能保持52.0 FPS的速度。预训练的YOLO-World可以轻松适应下游任务，例如，开集实例分割和指代目标检测。此外，YOLO-World的预训练权重和代码将开源，以促进更多实际应用。

2 Related Works

Traditional Object Detection

当前的目标检测研究主要集中在固定词汇（封闭集）检测上，其中目标检测器是在预定义类别的数据集上进行训练的，例如COCO数据集和Objects365数据集，然后检测固定类别集合内的目标。

在过去的几十年中，传统的目标检测方法可以简单地分为三类，即基于区域的方法、基于像素的方法和基于 Query 的方法。基于区域的方法，例如Faster R-CNN，采用两阶段框架进行 Proposal 生成和RoI（感兴趣区域）分类和回归。基于像素的方法倾向于是一阶段检测器，它们在预定义的 Anchor 点或像素上进行分类和回归。DETR首次通过 Transformer探索目标检测，并启发了大量的基于 Query 的方法。在推理速度方面，Redmon等人提出了YOLOs，利用简单的卷积架构实现实时目标检测。

一些研究提出了各种YOLO的架构或设计，包括路径聚合网