《------往期经典推荐------》
二、机器学习实战专栏【链接】,已更新31期,欢迎关注,持续更新中~~
三、深度学习【Pytorch】专栏【链接】
四、【Stable Diffusion绘画系列】专栏【链接】
五、YOLOv8改进专栏【链接】,持续更新中~~
六、YOLO性能对比专栏【链接】,持续更新中~
《------正文------》
源码地址:https://github.com/THU-MIG/yoloe
论文地址:https://arxiv.org/abs/2503.07465
摘要
YOLOE 是一种高效、统一的开放提示驱动的物体检测和分割模型,旨在解决传统 YOLO 系列模型在开放场景中的局限性。尽管 YOLO 系列模型在效率和准确性上表现出色,但其依赖于预定义的类别,难以适应开放世界中的多样化需求。YOLOE 通过整合文本提示、视觉提示和无提示机制,提出了一系列创新策略,包括可重参数化的区域-文本对齐(RepRTA)、语义激活的视觉提示编码器(SAVPE)和懒惰区域-提示对比(LRPC)。这些策略使 YOLOE 在保持高效推理和低训练成本的同时,显著提升了零样本性能和可迁移性,成为开放提示驱动视觉任务的强有力基线。
方法
-
模型架构
YOLOE 基于 YOLO 系列模型,采用多尺度特征提取和嵌入对比的框架。其核心组件包括:- 骨干网络:用于提取图像的多尺度特征。
- PAN(Path Aggregation Network):增强特征融合能力,提升检测和分割性能。
- 回归头:用于物体边界框的回归。
- 分割头:用于像素级的分割任务。
- 物体嵌入头:生成物体嵌入,用于与提示信息的对齐和对比。
-
可重参数化的区域-文本对齐(RepRTA)
3RepRTA 是一种轻量级辅助网络,用于改进预训练的文本嵌入,增强视觉特征与语义信息的对齐能力。其特点包括:
- 在训练阶段引入额外的对齐损失,优化文本嵌入与视觉特征的关系。
- 在推理和迁移阶段,通过重参数化技术实现零开销,保持高效推理。
-
语义激活的视觉提示编码器(SAVPE)
SAVPE 通过解耦的语义和激活分支,高效处理视觉提示信息。其设计包括:- 语义分支:提取视觉提示的语义特征。
- 激活分支:生成低维度的提示嵌入,减少计算开销。
- 通过多尺度特征融合,提升视觉提示的准确性和效率。
-
懒惰区域-提示对比(LRPC)
LRPC 是一种高效的对比学习策略,用于在不依赖语言模型的情况下,检索所有物体的类别名称。其特点包括:- 利用内置的大词汇表,支持开放场景中的多样化类别识别。
- 通过专用嵌入对比,提升零样本性能和可迁移性。
创新点
-
多提示机制整合
YOLOE 首次在单一模型中整合了文本提示、视觉提示和无提示机制,实现了开放场景中的灵活物体检测和分割。这种设计使其能够适应多种应用场景,例如开放世界检测、交互式分割和零样本迁移。 -
高效推理与低训练成本
通过 RepRTA、SAVPE 和 LRPC 等策略,YOLOE 在保持高效推理的同时,显著降低了训练成本。例如,RepRTA 在推理阶段通过重参数化技术实现零开销,而 SAVPE 通过低维度提示嵌入减少计算量。
-
卓越的零样本性能与可迁移性
YOLOE 在多个基准数据集上展示了卓越的零样本性能,例如在 COCO 和 LVIS 数据集上的表现优于现有方法。此外,其强大的可迁移性使其在下游任务中表现出色,例如迁移到新领域或新类别时仍能保持高精度。
总结
YOLOE 通过创新的提示机制和高效的设计,实现了实时视觉感知,为开放场景中的物体检测和分割任务提供了强有力的解决方案。其整合文本提示、视觉提示和无提示机制的能力,使其在灵活性和适应性上优于传统方法。同时,高效推理和低训练成本的设计使其在实际应用中具有广泛的前景。YOLOE 不仅为开放提示驱动视觉任务提供了新的基线,也为未来的研究提供了重要的参考方向。
好了,这篇文章就介绍到这里,喜欢的小伙伴感谢给点个赞和关注,更多精彩内容持续更新~~
关于本篇文章大家有任何建议或意见,欢迎在评论区留言交流!