Yolo-Word论文精读

最新推荐文章于 2024-07-06 18:26:44 发布

小小酥kkk

最新推荐文章于 2024-07-06 18:26:44 发布

阅读量472

点赞数 26

文章标签： YOLO

本文链接：https://blog.csdn.net/ITdaka/article/details/138130692

版权

摘要
背景：作者指出，尽管YOLO（You Only Look Once）系列的对象检测器在效率和实用性方面表现出色，但它们通常只能检测预定义的对象类别，这限制了它们在更开放场景中的应用。
YOLO-World介绍：为了克服这一限制，作者提出了YOLO-World，这是一种新的方法，它通过视觉-语言建模和在大规模数据集上的预训练，增强了YOLO的开放词汇（open-vocabulary）检测能力。开放词汇检测指的是能够检测并识别在训练阶段未见过的对象类别。
主要贡献：
RepVL-PAN：提出了一种新的可重新参数化的视图-语言路径聚合网络（Re-parameterizable Vision-Language Path Aggregation Network, RepVL-PAN），该网络能够促进视觉信息和语言信息之间的交互。
区域-文本对比损失：引入了一种新的损失函数，用于优化模型在视觉和语言信息融合时的性能。
性能表现：在LVIS数据集上，YOLO-World实现了35.4的平均精度（AP）和52.0帧每秒（FPS）的性能，这在准确性和速度方面都优于许多现有的最先进方法。
下游任务：微调后的YOLO-World在多个下游任务上展现了卓越的性能，包括对象检测和开放词汇实例分割。
效率和部署：YOLO-World在推理阶段可以移除文本编码器，并将文本嵌入重新参数化为RepVL-PAN的权重，从而实现高效的部署。
预训练方案：作者探讨了一种开放词汇预训练方案，通过在大规模数据集上进行区域-文本对比学习，将检测数据、定位数据和图像-文本数据统一起来，以提升模型的开放词汇检测能力。
实际应用：作者承诺将开源YOLO-World的预训练权重和代码，以促进其在更多实际应用中的使用。
摘要的最后一部分还提到了一个图表（Figure 1），该图表比较了YOLO-World与最近的开放词汇方法在速度和准确性方面的表现。图表显示了在LVIS minival上的评估结果，以及在NVIDIA V100 GPU上测量的推理速度。图表中圆圈的大小代表了模型的大小。
1.Introduction
对象检测的重要性：对象检测是计算机视觉中的一个长期和基本的挑战，它在图像理解、机器人学和自动驾驶车辆等多个领域都有广泛的应用。

现有方法的突破：随着深度神经网络的发展，许多工作在对象检测方面取得了显著的突破。

固定词汇的局限性：尽管取得了成功，但现有方法通常仅限于处理具有固定词汇的对象检测。例如，在COCO数据集中，检测器被限制只能检测80个预定义的类别。

开放词汇检测的需求：一旦对象类别被定义和标记，训练有素的检测器只能检测这些特定类别，这限制了检测器在开放场景中的能力和适用性。

开放词汇检测的探索：近期的研究工作通过从语言编码器（例如BERT）中提取词汇知识，探索了流行的视觉-语言模型来解决开放词汇检测问题。

数据稀缺性的问题：然而，基于蒸馏的方法受到训练数据稀缺和词汇多样性有限的限制。例如，OV-COCO数据集只包含48个基础类别。

区域级视觉-语言预训练：一些方法将对象检测训练重新构想为区域级视觉-语言预训练，并大规模训练开放词汇对象检测器。

现实世界场景的挑战：这些方法在现实世界场景中的检测仍然面临挑战，主要有两个方面：(1) 重计算负担，(2) 边缘设备的复杂部署。

预训练大型与小型检测器：之前的研究表明预训练大型检测器的性能有希望，但尚未探索预训练小型检测器以赋予它们开放识别能力的可能性。

目标和方法：
论文提出了YOLO-World，旨在实现高效率的开放词汇对象检测，并探索大规模预训练策略，以提升传统YOLO检测器至开放词汇检测的新境界。

效率和部署：
与先前的方法相比，YOLO-World在保持高推理速度的同时，具有显著的效率，并且易于部署在下游应用中。

YOLO架构和CLIP文本编码器：
YOLO-World遵循标准的YOLO架构，并利用预训练的CLIP文本编码器对输入文本进行编码。

RepVL-PAN：
论文进一步提出了可重新参数化的视图-语言路径聚合网络（RepVL-PAN），用于连接文本特征和图像特征，以实现更好的视觉语义表示。

推理阶段的优化：
在推理过程中，可以移除文本编码器，并将文本嵌入重新参数化为RepVL-PAN的权重，从而实现高效的部署。

开放词汇预训练方案：
通过在大规模数据集上进行区域-文本对比学习，统一检测数据、定位数据和图像-文本数据成区域-文本对，进一步调查了YOLO检测器的开放词汇预训练方案。

预训练和数据量：
预训练的YOLO-World拥有丰富的区域-文本对，展现出强大的大词汇量检测能力，而且训练数据量的增加会导致开放词汇能力的更大提升。

prompt-then-detect范式：
论文还探索了一种prompt-then-detect（先提示后检测）范式，以进一步提高现实世界场景中开放词汇对象检测的效率。

传统与开放词汇检测的对比：
传统的对象检测器专注于固定词汇（close-set）检测，而先前的开放词汇检测方法则使用文本编码器对用户提示进行在线词汇编码并检测对象。

大型检测器的挑战：
这些方法倾向于使用大型检测器和重型骨架，例如Swin-L，以增加开放词汇容量。

prompt-then-detect范式的优势：
相比之下，prompt-then-detect范式首先对用户的提示进行编码，以构建一个离线词汇表，该词汇表可以根据不同的需要而变化。然后，高效的检测器可以在不重新编码提示的情况下，即时推断离线词汇。

实际应用:
在实际应用中，一旦我们训练了检测器，即YOLO-World，我们可以预编码提示或类别以构建一个离线词汇表，然后将其无缝集成到检测器中。

论文的主要贡献，可以归纳为以下三个方面：
YOLO-World的引入：
提出了YOLO-World，这是一个尖端的开放词汇对象检测器，具有高效的性能，适用于现实世界的应用场景。

RepVL-PAN和预训练方案：
提出了一个可重新参数化的视图-语言路径聚合网络（Re-parameterizable Vision-Language PAN），用于连接视觉和语言特征，并为YOLO-World设计了一个开放词汇区域-文本对比的预训练方案。

预训练模型的性能和适用性：
提出的YOLO-World在大规模数据集上进行预训练后，展示了强大的零样本（zero-shot）性能，在LVIS数据集上达到了35.4的平均精度（AP），并且有52.0帧每秒（FPS）的高速度。
预训练的YOLO-World可以很容易地适应于下游任务，例如开放词汇实例分割（open-vocabulary instance segmentation）和指代对象检测（referring object detection）。
此外，为了促进更多的实际应用，YOLO-World的预训练权重和代码将被开源。

2. Related Works
2.1. Traditional Object Detection

固定词汇检测（Close-set Detection）：
传统的对象检测研究主要集中在固定词汇检测上，即对象检测器在具有预定义类别的数据集（例如COCO数据集和Objects365数据集）上进行训练，并在这些固定类别中检测对象。

基于区域的方法：
基于区域的方法，例如Faster R-CNN，采用两阶段框架进行候选区域（Region of Interest, RoI）的生成、分类和回归。

基于像素的方法：
基于像素的方法倾向于是单阶段检测器，它们在预定义的锚点或像素上执行分类和回归任务。

基于查询的方法：
基于查询的方法，如DETR（Detection Transformer），首次探索了使用transformers进行对象检测，这激发了大量基于查询的检测方法的发展。

YOLO系列：
在推理速度方面，Redmon等人提出的YOLO系列利用简单的卷积架构实现实时对象检测。YOLO系列通过各种架构或设计（如路径聚合网络、跨阶段部分网络和重新参数化）进一步提高了速度和准确性。

YOLO-World的目标：
与以往的YOLO版本相比，本文提出的YOLO-World旨在检测超出固定词汇的对象，同时具有强大的泛化能力。
2.2. Open-Vocabulary Object Detection
开放词汇对象检测（OVD）：
开放词汇对象检测是对象检测领域的一个新趋势，目的是检测超出预定义类别的对象。

早期工作和局限性：
早期的工作遵循标准的OVD设置，通过在基础类别上训练检测器并对新颖（未知）类别进行评估。尽管这种方法能够评估检测器检测和识别新对象的能力，但由于训练数据集和词汇量有限，它在开放场景中的应用仍然受限，并且缺乏对其他领域的泛化能力。

视觉-语言预训练的启发：
受到视觉-语言预训练工作的启发，近期的研究将开放词汇对象检测表述为图像-文本匹配问题，并利用大规模的图像-文本数据来扩大训练时的词汇量。

现有方法和挑战：
尽管一些方法通过区域-文本匹配统一了检测数据集和图像-文本数据集，并通过大规模图像-文本对进行预训练，从而取得了有希望的性能和泛化能力，但这些方法通常使用重型检测器，如ATSS或DINO，这些检测器以Swin-L作为骨干网络，导致计算需求高和部署挑战。

YOLO-World的提出：
与现有方法相比，YOLO-World旨在实现高效的开放词汇对象检测，具有实时推理能力和更简便的下游应用部署。

YOLO-World与ZSD-YOLO的区别：
与ZSD-YOLO不同，YOLO-World通过语言模型对齐探索开放词汇检测，它引入了一个新的YOLO框架和有效的预训练策略，增强了开放词汇性能和泛化能力。
3. Method
3.1. Pre-training Formulation: Region-Text Pairs
传统对象检测方法：
传统的对象检测方法，包括YOLO系列，通常使用实例注释（instance annotations）进行训练。这些注释由包围盒（bounding boxes）和类别标签（category labels）组成。

实例注释的重新定义：
在本文中，作者将传统的实例注释重新定义为区域-文本对（region-text pairs）。这意味着，除了包围盒（Bi）和类别标签（ci），每个区域还与一个相应的文本（ti）相关联。

区域-文本对:
区域-文本对（Ω = {Bi, ti}Ni=1）中的ti是与区域Bi对应的文本。这个文本可以是类别名称、名词短语或对象描述。

输入和输出：
YOLO-World模型同时采用图像（I）和一组名词（T）作为输入，并输出预测的包围盒（{ ˆBk}）和相应的对象嵌入（{ek}），其中每个对象嵌入（ek）都是一个D维的空间向量。

注：
预训练目标：
预训练的目标是训练模型以识别和预测图像中的区域（通过预测包围盒）和这些区域对应的文本描述（通过对象嵌入）。这允许模型学习将视觉信息（图像中的区域）与语言信息（文本描述）关联起来。
传统检测方法：以前的检测技术就像是在一个固定菜单上点菜，只能选择菜单上有的菜品。
YOLO-World的新方法：YOLO-World像是在一个没有固定菜单的餐厅点菜，你说出你想要的菜品名字，即使这个菜以前从未出现在菜单上，餐厅也能够理解并为你做出这道菜。
区域-文本对：在YOLO-World中，每个菜品（物体）不仅有一个图片（区域），还有一个名字或描述（文本），这样即使菜名不是餐厅已知的，也能通过名字或描述来识别。
模型学习：YOLO-World模型学习的是，无论给你看一张菜品的图片还是告诉你一个菜名，它都能正确地知道这是哪一道菜，并告诉你这道菜在图片中的哪个位置。

3.2. Model Architecture
YOLO-World的整体架构包括三个主要部分：一个YOLO检测器、一个文本编码器（Text Encoder），以及一个可重新参数化的视图-语言路径聚合网络（RepVL-PAN）。下面是对这些组件及其功能的简化说明：

YOLO检测器：这是YOLO-World的核心，负责从输入的图像中检测出物体的位置（通过提取多尺度特征）。

文本编码器：它接收输入的文本（可以是物体的名称、名词短语或描述），并将这些文本转换成文本嵌入（text embeddings），这是一种可以被模型进一步处理的数值型表示。

RepVL-PAN：这是一个创新的网络结构，用于加强文本和图像表示的融合。它通过跨模态融合（cross-modality fusion）的方式，结合图像特征和文本嵌入，以提高模型对物体的理解。

整个YOLO-World的工作流程是：首先，文本编码器将输入文本转换为文本嵌入；接着，YOLO检测器从图像中提取特征；最后，RepVL-PAN利用这些特征和文本嵌入，提升模型对图像内容的理解，从而更准确地检测图像中的物体。

YOLO检测器：
YOLO-World基于YOLOv8开发，包含一个Darknet骨干网络作为图像编码器，一个路径聚合网络（PAN）用于构建多尺度特征金字塔，以及一个头部用于边界框回归和对象嵌入。

文本编码器：
文本编码器使用CLIP预训练的Transformer文本编码器，将输入文本T编码成文本嵌入W，其中C是名词的数量，D是嵌入维度。CLIP文本编码器相比仅文本的语言编码器能更好地将视觉对象与文本联系起来。
对于标题或指代表达的输入文本，使用简单的n-gram算法提取名词短语，然后将这些短语输入文本编码器。

文本对比头部：
采用分离的头部结构，包含两个3×3的卷积层，用于回归边界框和对象嵌入。
通过文本对比头部计算对象-文本相似度，使用了一个公式，其中涉及L2归一化和仿射变换，这有助于稳定区域-文本训练过程。

在线词汇表训练：
在训练阶段，为每个包含4张图片的马赛克样本构建一个在线词汇表T，包括所有涉及的正面名词和从对应数据集中随机抽取的一些负面名词。
每个马赛克样本的词汇表最多包含M个名词，默认设置为80。

离线词汇表推理：
在推理阶段，使用“提示后检测”策略和离线词汇表以提高效率。
用户可以定义一系列自定义提示，包括标题或类别。
使用文本编码器对这些提示进行编码，得到离线词汇表嵌入。
离线词汇表避免了对每个输入进行计算，并提供了根据需要调整词汇表的灵活性。

注：
YOLO检测器：这是YOLO-World的核心，就像一个超级显微镜，它通过一系列复杂的计算（涉及到Darknet骨干网络和PAN特征金字塔）来找出图像中所有物体的位置。

文本编码器：这个部分负责将我们输入的文字（比如物体的名称或者描述）转换成一种特殊的代码（文本嵌入），这样YOLO-World就能更好地理解和搜索这些物体。

文本对比头部：这是一个特殊的工具，用来比较文本编码器产生的代码和图像中物体的特征。它帮助YOLO-World确定图像中的物体与我们输入的描述是否匹配。

在线词汇表训练：在训练YOLO-World时，我们会给它一大堆图片和相关的描述文字。YOLO-World会从这些资料中学习，理解不同的物体和它们对应的描述。

离线词汇表推理：当YOLO-World准备好工作时，我们不需要每次都给它新的描述，而是可以使用之前训练好的一些常见描述（离线词汇表）。这样，YOLO-World可以更快地找出图像中的物体，而不需要每次都重新学习。

简单来说，YOLO-World就像一个经过特殊训练的侦探，它能够理解我们给它的文字提示，然后快速地在图像中找到对应的物体。通过训练和使用预定义的描述，YOLO-World可以更高效地工作，即使面对它以前没有见过的新物体也没问题。

3.3. Re-parameterizable Vision-Language PAN
Text-guided CSPLayer（文本引导的CSP层）

CSPLayer的作用：CSPLayer（Cross Stage Partial Layer，跨阶段部分层）是YOLOv8中的一个组件，用于处理图像特征。在YOLO-World中，作者通过添加文本引导来扩展这一层次，使其能够结合文本信息。

文本引导的融合：在图像特征的顶层或底层融合之后，使用文本引导的CSPLayer。这一层将文本嵌入（W）与图像特征（Xl）结合起来，以增强图像特征的语义理解。

输出：更新后的图像特征与跨阶段特征串联起来作为输出，这样模型就可以使用这些增强后的特征进行下一步的计算。

Image-Pooling Attention（图像池化注意力机制）
目的：这一机制旨在将图像信息反馈给文本嵌入，以增强文本嵌入的图像意识。

池化操作：通过在多尺度特征上使用最大池化（max pooling），将图像特征转换为27个3×3的区域（patch tokens），每个区域都是一个D维的向量。MultiHead-Attention 是一种注意力机制，它允许模型同时在不同的表示子空间上关注输入的不同部分。

更新文本嵌入：通过这种方式，文本嵌入被赋予了更多的图像信息，这有助于模型更好地理解图像内容与输入文本之间的关系。

figure 4 说明：
RepVL-PAN的结构：RepVL-PAN遵循了自顶向下（top-down）和自底向上（bottom-up）的路径，这有助于构建特征金字塔。特征金字塔由不同层级的图像特征组成，例如{P3, P4, P5}，这些层级对应于不同尺度的图像特征{C3, C4, C5}。

Text-guided CSPLayer (T-CSPLayer)：这是一种特殊的网络层，它将文本嵌入作为引导来增强图像特征。这种文本引导的融合有助于提升模型对图像内容的语义理解。

Image-Pooling Attention (I-Pooling Attention)：这是一种注意力机制，它通过池化操作从多尺度图像特征中提取关键信息，并用这些信息来更新文本嵌入，使文本嵌入更加贴近图像内容。

交互增强：通过T-CSPLayer和I-Pooling Attention，RepVL-PAN增强了图像特征和文本特征之间的交互，这对于提升模型处理开放词汇检测任务的能力至关重要。

推理阶段的优化：在模型推理阶段，即模型被部署用于实际检测任务时，离线词汇嵌入（offline vocabulary embeddings）可以被重新参数化，转换为卷积层或线性层的权重。这样做可以提高模型的运行效率，简化部署过程。
在这里插入图片描述
注：
Text-guided CSPLayer（文本引导的CSP层）
想象一下，你正在看一张有很多细节的复杂图片，比如一个繁忙的市场场景。现在，如果你有一张购物清单（文本信息），你会更容易注意到那些你需要购买的商品。文本引导的CSP层就像这个购物清单，它帮助YOLO-World模型在图片中找到与文本描述相关的物体。这个过程通过一种特殊的注意力机制来完成，模型会特别关注那些与文本描述最匹配的图像区域。
Image-Pooling Attention（图像池化注意力机制）
这个机制像是一个摄影师，他从一张宽角度的照片中提取出一些关键的局部细节（比如人物的脸部、商品的特写等），并将它们展示给你。这样，即使你没有看到整张照片，也能通过这些关键细节了解照片的主要内容。在YOLO-World中，图像池化注意力机制就是通过聚合图像的关键特征来更新文本嵌入，让模型对图像内容有更深刻的理解。
总结
文本引导的CSP层和图像池化注意力机制是YOLO-World中的两个关键工具，它们帮助模型在图像和文本之间建立联系。文本引导的CSP层让模型能够根据文本提示关注图像中的特定区域，而图像池化注意力机制则通过提取图像的关键特征来丰富文本描述，这样YOLO-World就能更准确地识别和定位图像中的物体。

3.4. Pre-training Schemes

基于区域-文本对比损失的学习：
YOLO-World接收一张图片（称为马赛克样本I）和一些文本（T），然后输出一系列预测的物体（Bk）和与这些预测相关的文本相似度得分（sk）。
为了训练模型，我们需要将这些预测与真实标注（Ω）进行匹配。这是一个将模型预测的物体与实际物体相联系的过程。

通过对比预测的文本相似度和实际的文本分配，我们构建了一个区域-文本对比损失（Lcon），这有助于模型学习如何更好地将图像区域与文本关联起来。
除了对比损失，我们还使用IoU损失（用于衡量预测边界框的准确性）和分布式焦点损失（用于改善边界框回归）来计算总的训练损失。

图像-文本数据的伪标注：
我们没有直接使用图像-文本对进行预训练，而是采用了一种自动标注方法来生成区域-文本对。

这个过程包括三个步骤：
提取名词短语：首先，我们使用一种叫做n-gram算法的方法从文本中提取名词短语。
伪标注：然后，我们使用一个预先训练好的开放词汇检测器（例如GLIP）为每个图像中的名词短语生成伪边界框，这样就形成了粗略的区域-文本对。
过滤：我们使用另一个预先训练好的模型（CLIP）来评估图像-文本对和区域-文本对的相关性，并过滤掉相关性低的伪标注和图像。此外，我们还通过非极大值抑制（NMS）等方法进一步过滤掉多余的边界框。

数据集构建：
通过上述方法，我们从CC3M数据集中采样并标注了246k张图像，生成了821k个伪标注。

4. Experiments

规模数据集上的预训练：首先，YOLO-World在大规模数据集上进行预训练。预训练是机器学习中的一个常见步骤，它涉及在大量数据上训练模型，以便模型能够学习到通用的特征表示，这些特征表示可以在后续任务中复用。

零样本评估（Zero-shot Evaluation）：
在LVIS基准测试和COCO基准测试上，以零样本的方式评估YOLO-World的性能。零样本评估是指在没有针对特定类别进行训练的情况下，测试模型对未知类别的识别能力。
这种评估方式对于开放词汇检测特别重要，因为它模拟了真实世界中模型可能遇到的未知对象的检测情况。

微调性能评估（Fine-tuning Performance Evaluation）：
除了零样本评估外，还对YOLO-World进行了微调（fine-tuning），并在COCO和LVIS数据集上评估了其对象检测性能。微调是在预训练模型的基础上，针对特定任务（如COCO或LVIS上的对象检测）进行的再训练过程。
微调可以使模型更好地适应特定的数据集和任务，通常会提高模型在这些任务上的性能。

实验结果：
文章的这一部分将展示YOLO-World在预训练和微调后的性能结果。这些结果将证明YOLO-World在不同基准测试上的有效性，并展示其在开放词汇检测任务中的潜力。

4.2. Pre-training

预训练设置（Experimental Setup）
优化器：在预训练阶段，YOLO-World使用AdamW优化器，这是一种在深度学习中常用的优化算法，它有助于模型更快地收敛。
学习率和权重衰减：初始学习率设置为0.002，权重衰减为0.05，这些是优化器的参数，用于调整模型训练过程中的更新幅度。
训练周期和硬件：YOLO-World在32个NVIDIA V100 GPU上预训练了100个周期（epochs），每个周期都会遍历一次训练数据集。
批处理大小：每次训练更新使用了512个样本的批处理大小，这是每次传入模型的图像数量。
数据增强：为了提高模型的泛化能力，使用了颜色增强、随机仿射变换、随机翻转和四图像马赛克等数据增强技术。
文本编码器固定：在预训练期间，文本编码器（用于处理文本输入的部分）是固定的，即不对其进行训练。

预训练数据（Pre-training Data）
数据集：YOLO-World主要使用检测或定位数据集进行预训练，包括Objects365、GQA和Flickr30k。
排除COCO数据集：遵循先前的研究，从GoldG数据集中排除了COCO数据集的图像。
注释类型：预训练使用的数据集包含边界框和类别或名词短语的注释。
图像-文本对：除了检测数据集，还扩展了预训练数据，包括图像-文本对，即CC3M数据集，通过自动标注方法标注了246k张图像。

零样本评估（Zero-shot Evaluation）
LVIS数据集：在预训练后，直接在LVIS数据集上以零样本的方式评估YOLO-World。LVIS包含1203个类别，远多于预训练数据集的类别数。
评估标准：主要在LVIS minival上评估，并报告固定AP（Average Precision）进行比较，这是一种衡量模型性能的指标。
预测数量：设置最大预测数为1000，即模型在每个图像上最多预测1000个物体。
LVIS对象检测的主要结果（Main Results on LVIS Object Detection）
性能比较：YOLO-World在零样本性能和推理速度方面超过了其他最新的最先进方法。
模型参数：即使与使用更多数据的方法（如GLIP、GLIPv2和Grounding DINO）相比，YOLO-World在O365和GoldG上预训练也能获得更好的性能，尽管它的模型参数更少。
与DetCLIP的比较：与DetCLIP相比，YOLO-World在保持相似性能（35.4 vs 34.4）的同时，推理速度提高了20倍。
小型模型的性能：实验结果还表明，即使是小型模型（如具有13M参数的YOLO-World-S），经过视觉-语言预训练后，也能获得强大的开放词汇能力。

4.3. Ablation Experiments
消融研究的两个主要方面

预训练数据：研究了使用不同数据集进行预训练对YOLO-World性能的影响。
使用Objects365数据集作为基线，添加GQA数据集可以显著提高性能，特别是在LVIS数据集上，平均精度（AP）提升了8.4。
GQA数据集提供了更丰富的文本信息，这有助于模型识别更广泛的物体类别。
添加CC3M数据集的一小部分样本（整个数据集的8%）可以进一步提升性能，尤其是在检测稀有类别（rare categories）时。
架构消融：特别是对RepVL-PAN（Re-parameterizable Vision-Language Path Aggregation Network）的有效性进行了测试。
RepVL-PAN包括文本引导的CSP层（Text-guided CSPLayer）和图像池化注意力（Image Pooling Attention）。
通过在Objects365（O365）和O365加GQA数据集上进行预训练，展示了RepVL-PAN在零样本LVIS检测中的性能提升。
与仅包含类别注释的O365相比，GQA包含了丰富的文本，特别是名词短语，这对于提升性能至关重要。

文本编码器的比较：
研究了使用不同类型的文本编码器（BERT-base和CLIP-base）对YOLO-World性能的影响。
在预训练期间，考虑了冻结（frozen）和微调（fine-tuned）两种设置。
CLIP文本编码器在预训练时提供了比BERT更好的性能，尤其是在检测LVIS中的稀有类别时。
在预训练期间微调BERT可以带来显著的性能提升，而微调CLIP则可能导致性能下降。这可能是因为CLIP在预训练时只学习了365个类别，缺乏丰富的文本信息，微调可能会损害其泛化能力。

4.4. Fine-tuning YOLO-World
实验设置
预训练权重：使用YOLO-World的预训练权重来初始化模型，以便在特定数据集上进行微调。
微调周期：所有模型在AdamW优化器下进行80个周期的微调。
学习率：初始学习率设置为0.0002，同时对CLIP文本编码器使用0.01的学习因子进行微调。
LVIS数据集：遵循先前的研究，对LVIS数据集的常见和频繁类别（LVIS-base）进行微调，并在稀有类别（LVIS-novel）上进行评估。

COCO对象检测
性能比较：将预训练的YOLO-World与先前的YOLO检测器进行比较。
RepVL-PAN的移除：在COCO数据集上微调时，为了加速处理，移除了RepVL-PAN组件，因为COCO数据集的词汇量较小。
零样本性能：YOLO-World在COCO数据集上展示了不错的零样本性能，表明它具有强大的泛化能力。
与从头训练的方法比较：在COCO train2017数据集上进行微调后，YOLO-World的性能优于从头开始训练的方法。

LVIS对象检测
性能提升：与完全训练的YOLOv8s模型相比，YOLO-World在标准LVIS数据集上取得了显著的性能提升，尤其是对于较大的模型。
AP和APr的提升：例如，YOLO-World-L在平均精度（AP）和稀有类别的精度（APr）上分别比YOLOv8-L高出7.2和10.2。
预训练策略的有效性：这些改进证明了YOLO-World的预训练策略对于大型词汇量的检测是有效的。
与其他方法的比较：作为一个高效的单阶段检测器，YOLO-World在整体性能上超越了以前的双阶段最先进方法，而且没有额外的设计，如可学习的提示或基于区域的对齐。

4.5. Open-Vocabulary Instance Segmentation
开放词汇实例分割（OVIS）
任务定义：OVIS是一种对象检测任务，它要求模型能够识别并分割出图像中的对象，即使这些对象的类别在训练阶段是未知的。
微调YOLO-World：研究者们对YOLO-World进行了微调，以便它能够更好地处理OVIS任务。

微调设置
COCO到LVIS：第一种设置是在COCO数据集上进行微调，这个数据集包含80个类别，然后将模型迁移到包含1203个类别的LVIS数据集上。
LVIS-base到LVIS：第二种设置是在LVIS-base数据集上进行微调，这个数据集包含866个常见和频繁的类别，然后同样迁移到完整的LVIS数据集上。
评估：在标准的LVIS val2017数据集上评估微调后的模型，该数据集包含1203个类别，其中包括337个在训练中未见过的稀有类别。

微调策略
仅微调分割头部：第一种策略是只对模型的分割头部进行微调，这样做保留了模型在预训练阶段获得的零样本（zero-shot）能力。
微调所有模块：第二种策略是对模型的所有模块进行微调，这有助于模型更好地适应LVIS数据集，但可能会降低其零样本能力。

结果分析
性能比较：在LVIS-base上微调的模型比在COCO上微调的模型表现更好。
AP和APr比率：尽管微调策略不同，但AP（平均精度）和APr（稀有类别精度）之间的比率几乎保持不变。
分割注释的影响：LVIS数据集提供的更详细和更密集的分割注释有助于分割头部的学习，这可能是LVIS-base微调性能更好的原因之一。
全部微调的改进：当对所有模块进行微调时，YOLO-World在LVIS数据集上取得了显著的性能提升，例如，YOLO-World-L在AP上提升了9.6。
开放词汇性能的权衡：尽管微调所有模块可以提高性能，但可能会对开放词汇性能产生负面影响，例如，YOLO-World-L的APr下降了0.6。

4.6. Visualizations
零样本推理（Zero-shot Inference）：
在LVIS类别上的零样本推理中，预训练的YOLO-World-L模型展示了强大的零样本迁移能力。这意味着即使在训练时没有见过某些类别，模型也能够检测出图像中的尽可能多的物体。

用户词汇推理（Inference with User’s Vocabulary）：
通过输入自定义的提示和带有属性的细粒度类别，探索了YOLO-World的检测能力。可视化结果显示，YOLO-World-L不仅能够进行细粒度检测（即检测物体的一部分），还能够进行细粒度分类（即区分不同子类别的物体）。

指代表达检测（Referring Object Detection）：
使用描述性名词短语作为输入，例如“站立的人”，来探索模型是否能够定位图像中与给定输入匹配的区域或物体。可视化结果展示了短语及其相应的边界框，证明了预训练的YOLO-World具有指代或定位能力。这种能力归功于提出的大规模训练数据的预训练策略。

5. Conclusion
YOLO-World的介绍：YOLO-World是一个尖端的实时开放词汇检测器，旨在提高现实世界应用中的效率和开放词汇检测能力。

YOLO架构的创新：研究者们将传统的YOLO（You Only Look Once）对象检测器重塑为一个结合视觉和语言信息的架构，称为RepVL-PAN，用于开放词汇的预训练和检测。

RepVL-PAN的作用：RepVL-PAN是YOLO-World中的一个关键组件，它负责将视觉信息（图像特征）和语言信息（文本描述）结合起来，并且可以在推理阶段重新参数化，以便高效部署。

预训练方案：论文还提出了一种有效的预训练方案，结合了检测数据、定位数据和图像-文本数据，以增强YOLO-World对开放词汇的检测能力。

实验结果：实验表明，YOLO-World在速度和开放词汇性能方面都优于现有方法，证明了视觉-语言预训练对小型模型的有效性。

未来研究的启示：YOLO-World的成功为未来在开放词汇检测领域的研究提供了新的方向，尤其是在如何提高小型模型的泛化能力方面。

新基准：作者希望YOLO-World能够成为解决现实世界开放词汇检测问题的新基准。

小小酥kkk

关注

26
点赞
踩
15

收藏

觉得还不错? 一键收藏
0
评论
Yolo-Word论文精读

YOLO-World介绍：为了克服这一限制，作者提出了YOLO-World，这是一种新的方法，它通过视觉-语言建模和在大规模数据集上的预训练，增强了YOLO的开放词汇（open-vocabulary）检测能力。图表中圆圈的大小代表了模型的大小。尽管一些方法通过区域-文本匹配统一了检测数据集和图像-文本数据集，并通过大规模图像-文本对进行预训练，从而取得了有希望的性能和泛化能力，但这些方法通常使用重型检测器，如ATSS或DINO，这些检测器以Swin-L作为骨干网络，导致计算需求高和部署挑战。
复制链接

扫一扫