CVHub | 目标检测和语义分割该如何走下去?清华团队为视觉大一统模型指明了方向。

本文来源公众号“CVHub”,仅用于学术分享,侵权删,干货满满。

原文链接:目标检测和语义分割该如何走下去?清华团队为视觉大一统模型指明了方向。

导读

在计算机视觉领域从"任务特化"向"统一开放"的演进历程中,我们见证了从手工特征工程到深度学习范式,再从闭集假设到开放世界理解的多次技术跨越。

尽管每一次技术革新都推动了领域的显著进步,但现有方法普遍面临着性能精度、推理效率、部署复杂度之间的根本性权衡困境——很难在保证实时性能的同时实现真正的开放词汇理解能力。

图片

 

近期,清华大学丁贵广团队最新发布的YOLOE[1] 这一长期挑战提供了创新性解决方案。YOLOE 基于轻量化的 YOLO 架构,通过RepRTA(重参数化文本适配器)、SAVPE(空间感知视觉提示编码器)、LRPC(轻量级区域提议分类器)三大核心技术策略,分别针对文本提示视觉提示无提示三种交互场景,实现了单一模型架构下的多模态、零冗余"万物识别与分割"能力。

笔者认为,随着 ChatGPT[2] 等大语言模型重新定义了AI应用范式,计算机视觉领域同样需要思考如何构建更加通用、高效的基础模型。

YOLOE 的出现不仅是对传统视觉任务边界的突破,更代表了CV领域向统一架构发展的重要里程碑。今天,藉此机会,让我们在回顾视觉理解技术演进的基础上,深入解析 YOLOE 的核心创新及其对未来发展的重要意义。

从各自为战到寻求统一:CV 简史回顾与“开放世界”的呼唤

传统方法的技术奠基

计算机视觉的早期发展深深植根于手工设计特征的范式中,这一时期的核心理念是通过专家知识构建针对性的特征描述子来解决特定视觉任务。这种方法虽然在控制环境下表现出色,但也奠定了"任务特化"的技术基调,例如一些经典的工作有:

  • • Viola-Jones检测器:通过Haar-like特征与AdaBoost级联分类器实现实时人脸检测,开创了基于积分图像的快速特征计算先河

  • • HOG+SVM框架:方向梯度直方图特征结合支持向量机,在行人检测任务上展现了梯度统计特征的有效性

  • • SIFT+BoW模型:尺度不变特征变换配合词袋模型,为图像检索和物体识别提供了旋转、尺度不变的解决方案

技术局限性分析:这些方法的核心问题在于特征表达的局限性和任务间的割裂性。手工特征往往针对特定的视觉模式进行优化,缺乏对复杂场景下多样性变化的适应能力。更重要的是,每个任务都需要独立的特征工程和模型设计,难以形成统一的技术框架来处理多模态、多任务的视觉理解需求。

深度学习革命:从任务特化到架构统一

RCNN

RCNN

无论是是目标检测还是语义分割的发展,其经历了范式的分化与融合。

Faster R-CNN

Faster R-CNN

首先,回顾下早期的检测领域,以 R-CNN[3] 系列为代表的两阶段检测器在精度上具有显著优势,其演进轨迹表现为从最初的 R-CNN 使用选择性搜索结合 CNNs 特征提取,到 Fast R-CNN[4] 引入 ROI 池化实现统一训练,再到 Faster R-CNN[5] 提出区域提议网络 RPN,这一系列演化使两阶段检测器在精度上持续领先。

Summary of Models in the R-CNN family

Summary of Models in the R-CNN family

然而,这类方法依赖多阶段流水线以及非极大值抑制NMS的后处理,导致其在实时应用中存在性能瓶颈。

YOLO: You Only Look Once

YOLO: You Only Look Once

相较之下,单阶段检测器在速度方面实现了突破。 YOLO[6] 系列凭借其“网格化预测”的核心思想成功地将目标检测重构为一个单一的回归问题,在 PASCAL VOC 数据集上率先实现了45帧每秒的实时性能,后续提出的各式变种更是不断突破极限,彻底改变了检测器的设计范式。

SSD: Single Shot MultiBox Detector

SSD: Single Shot MultiBox Detector

SSD[7] 则通过融合不同分辨率的特征图,提升了对多尺度目标的检测能力,在保持单阶段结构简洁性的同时实现了精度与速度的平衡。

CenterNet: Keypoint Triplets for Object Detection

CenterNet: Keypoint Triplets for Object Detection

此外,Anchor-free 检测方法的兴起进一步推动了检测器设计的简化。代表性工作如 CornerNet[8]、CenterNet[9]、FCOS[10] 等不再依赖预定义的锚框,而是直接预测关键点或中心点位置,从而避免了锚框匹配与调参的复杂过程。这一类方法不仅提升了定位精度和模型泛化能力,也为端到端检测提供了更清晰的几何建模思路。

DETR: End-to-End Object Detection with Transformers

DETR: End-to-End Object Detection with Transformers

到 2020 年后,DETR[11] 范式的出现带来了端到端的检测变革,利用集合预测和匈牙利算法的双向匹配机制,彻底摆脱锚框设计和 NMS 后处理,为检测架构的统一化探索提供了全新思路。


同样的,像素级视觉理解任务方面也经历了类似架构上的技术演进。

FCN: Fully Convolutional Networks for Semantic Segmentation

FCN: Fully Convolutional Networks for Semantic Segmentation

语义分割的创新始于全卷积网络 FCN[12] 的提出,它首次实现了端到端的密集预测,为像素级任务提供了基础模型结构。

图片

U-Net: Convolutional Networks for Biomedical Image Segmentation

U-Net[13] 则以对称的编码器解码器结构结合跳跃连接,在医学、遥感、抠图等精细化任务中展现了出色的特征恢复能力。

图片

Mask R-CNN is Faster R-CNN model with image segmentation

实例分割方面,不同方法体现了多任务的融合。Mask R-CNN[14] 在Faster R-CNN的基础上增加了并行的掩码预测分支,实现了检测与分割的协同推进,成为多任务学习的代表。

图片

YOLACT: Real-time Instance Segmentation

YOLACT[15] 通过原型掩码生成与系数预测的解耦设计,在实例分割任务中首次实现了真正意义上的实时性能。

图片

MaskFormer: Per-Pixel Classification is Not All You Need for Semantic Segmentation

最后,以 MaskFormer[16] 为代表的模型进一步将语义分割与实例分割统一为掩码分类问题,并基于Transformer[17] 架构达成任务间的模型统一,推动了视觉理解范式的进一步融合。

从闭集到开放世界:提示驱动的通用视觉理解

上述传统深度学习方法受制于"闭集假设"——模型只能识别训练阶段预定义的固定类别集合。这种局限性在面对开放世界的复杂场景时显得尤为突出,新出现的物体类别或未见过的视觉概念往往导致模型失效,难以满足实际应用中的泛化需求。

在此背景下,多模态提示机制成为突破闭集限制的重要方向,逐渐发展出多种技术分化路径。


GLIP: Grounded Language-Image Pre-training

GLIP: Grounded Language-Image Pre-training

首先是文本提示驱动的零样本检测方面,GLIP[18] 通过将自然语言短语与目标检测任务融合,实现了基于文本的零样本检测能力,尽管多模态融合机制带来了较强性能,但也显著增加了计算成本。

图片

Grounding DINO: Detect Any Object from Text

Grounding DINO[19] 进一步结合了自监督学习架构和文本编码能力,在零样本任务中展现出优异的泛化表现,但鉴于模型庞大,部署复杂,实际应用受限。

YOLO-World: Real-Time Open-Vocabulary Object Detection

YOLO-World: Real-Time Open-Vocabulary Object Detection

为此,YOLO-World[20] 在保持 YOLO 高效检测结构的基础上,引入文本编码器实现语义引导,显著提升了小模型在开放集场景下的适应能力,兼顾了检测精度与实时性,适合边缘设备部署。


图片

SAM: Segment Anything Model

其次,视觉提示支持交互式理解,典型如 SAM[21] 通过点击、框选、掩码等方式实现对图像的分割操作,展现出强大的通用性,但模型规模庞大,推理成本高,难以实时应用。

T-Rex2: Towards Generic Object Detection via Text-Visual Prompt Synergy

T-Rex2: Towards Generic Object Detection via Text-Visual Prompt Synergy

另一方面,T-Rex2[22] 则通过示例图像或掩码提示模型关注特定区域,提升了理解的灵活性,但依赖复杂的 Transformer 架构或额外编码器模块,仍存在计算瓶颈。况且,时至今日,该模型还未开源~~~


GenerateU: Generative Region-Language Pretraining for Open-Ended Object Detection

GenerateU: Generative Region-Language Pretraining for Open-Ended Object Detection

最后,对于无提示的自主生成方法如 GenerateU[23] 等,依托大型语言模型自动生成候选类别,实现了完全无监督的开放集检测,但生成过程延迟较高,难以满足实时需求。


综上,我们不难发现,面对多样的提示机制,当前的核心矛盾在于性能、效率与部署便利性之间的取舍。现有方法多数只能支持某一种提示方式,缺乏统一的多模态理解能力。而真正实现“看懂一切”,需要在保证高效推理的基础上,统一支持文本、视觉、交互等多种提示形式,这也是当前技术亟需突破的瓶颈所在。

👀 YOLOE:集大成者,意在“实时洞察万物”

YOLOE 的出现一定程度上打破了上述的“不可能三角”定律,其核心思想是在一个高度高效的单一模型如 Ultralytics-YOLO[24] 内,集成跨文本视觉无提示三种开放提示机制的目标检测和分割能力,实现“所见即所得”的实时效果。

YOLOE: Real-Time Seeing Anything

YOLOE: Real-Time Seeing Anything

文本提示:可重参数化区域-文本对齐 (RepRTA)

对于文本提示,传统方法常因引入复杂的跨模态融合(例如 Grounding-DINO 就用了不少的 cross-attn 交互模块)而导致计算开销大,尤其是在处理大量文本时。

YOLOE 提出的 RepRTA 策略很实用,它通过一个轻量级的辅助网络(auxiliary network)来优化预训练的文本嵌入(textual embeddings),从而增强视觉-文本的对齐。这个辅助网络仅在训练时引入少量额外开销,用于处理预先缓存的文本嵌入。

最关键的是,在推理和迁移时,这个辅助网络可以被无缝地“重新参数化”(re-parameterized)到分类头中,使得最终的推理架构与原始 YOLO 完全一致,不增加任何额外的推理和迁移开销!

简单来说,RepRTA在训练时“借力”提升文本理解,使用一个仅含 SwiGLU 前馈层的辅助网络,针对预训练文本嵌入(如 CLIP)进行微调,以加强视觉—文本对齐;推理时“卸磨杀驴”,实现了性能与效率的双赢。

he structure of in RepRTA and SAVPE

he structure of in RepRTA and SAVPE

视觉提示:语义激活视觉提示编码器 (SAVPE)

诸如边界框、掩码或点等视觉提示,可以为指示感兴趣对象提供了更灵活的方式。现有方法通常依赖 Transformer 或额外的 CLIP[25] 视觉编码器,计算量大,不适合边缘设备。

YOLOE 为此设计了一个轻量级方案——SAVPE,其包含两个解耦的轻量级分支:

  • • 语义分支:输出与提示无关的(prompt-agnostic)语义特征,结构类似于目标嵌入头

  • • 激活分支:过将视觉提示(如掩码)与图像特征在低维空间交互,生成分组的、与提示相关的(prompt-aware)权重

这两个分支的输出(语义特征和权重)聚合后,生成信息丰富的提示嵌入(prompt embedding),且计算复杂度极低。SAVPE 通过这种方式,以最小的代价获得了强大的视觉提示编码能力。

无提示场景:惰性区域-提示对比 (LRPC)

LRPC 提出的背景是希望在没有明确文本或视觉提示的情况下,模型应当具备识别图像中的所有对象并给出其类别名称。现有方法如 DINO-X[26] 多依赖大模型来生成描述,但一样一来必然开销极大、效率也低。

为此,YOLOE 则另辟蹊径提出了 LRPC (Lazy
Region-Prompt Contrast) 策略,笔者粗略看了下,其核心思路还是将此问题重新表述为一个检索问题

首先,利用预训练的 YOLOE(训练一个专门的提示嵌入来识别“objects”这一泛指类别)找到图像中所有可能存在对象的锚点(anchor points);

然后,将这些被识别出的对象锚点与一个内置的大型词汇库(≈4.6K 类)进行“惰性”匹配(lazily matched),以检索类别名称。【所以模型在初始化的时候会比较慢,一旦“建库”成功,后续响应将会是非常快速】

最后,这种方法避免了对每个锚点都与整个词汇库进行昂贵的对比,也完全不依赖语言模型,从而在保证性能的同时实现了高效率。

🧪 令人印象深刻的实验结果:快、好、省

“Talk is cheap, show me the results!”

同样地,YOLOE 在多个基准测试中都展现了其卓越的性能、高效率和低训练成本。

开放词汇检测:

Comparison of performance, training cost, and inference
efficiency between YOLOE (Ours) and advanced YOLO-Worldv2
in terms of open text prompt

Comparison of performance, training cost, and inference efficiency between YOLOE (Ours) and advanced YOLO-Worldv2 in terms of open text prompt

如图所示,与YOLO-Worldv2-S相比,YOLOE-v8-S 在 LVIS 上 AP 提升 3.5,训练成本减少 3 倍,推理速度提升 1.4 倍(T4 GPU)/ 1.3 倍(iPhone 12)。

Table 1. Zero-shot detection evaluation on LVIS

Table 1. Zero-shot detection evaluation on LVIS

即使是 YOLOE-11-L(基于 YOLO11 架构)也能在 AP 与 YOLO-Worldv2-L 相当的情况下,推理速度快1.6倍。

视觉提示检测

与T-Rex2 相比,YOLOE-v8-L 在 AP 上提升3.3,APc 提升0.9,而训练数据量和训练资源消耗远低于前者。

开放词汇分割

Table 2. Segmentation evaluation on LVIS

Table 2. Segmentation evaluation on LVIS

YOLOE-v8-M/L 在零样本情况下,分割 APm 分别达到 20.8 和 23.5,显著优于在 LVIS-Base 数据集上微调过的 YOLO-Worldv2-M/L(分别高出3.0和3.7 APm)。

无提示检测

Table 3. Prompt-free evaluation on LVIS

Table 3. Prompt-free evaluation on LVIS

YOLOE-v8-L (AP 27.2) 相比 GenerateU (Swin-T backbone, AP 26.8),参数量减少 6.3 倍,推理速度提升 53 倍,AP 和 APr 均有提升。

下游任务迁移

Table 4. Downstream transfer on COCO

Table 4. Downstream transfer on COCO

在 COCO 数据集上进行闭集检测和分割微调,YOLOE 展现了强大的迁移能力。例如,在仅使用约1/4训练轮次的情况下,YOLOE-v8-M/L 的检测 APb 和分割 APm 均优于从头训练的 YOLOv8-M/L。

消融实验

Table 5. Roadmap to YOLOE in terms of text prompts

Table 5. Roadmap to YOLOE in terms of text prompts

Table 6. Effective of SAVPE and Table 7. Effective. of LRPC

Table 6. Effective of SAVPE and Table 7. Effective. of LRPC

上述表格数据详细展示了 RepRTA、SAVPE、LRPC 各组件的有效性,以及不同参数选择(如SAVPE中的分组数A,LRPC中的过滤阈值δ)对性能的影响,验证了设计的合理性。

🚀 X-AnyLabeling:让 YOLOE 真正为你所用

正所谓是骡子是马拉出来遛遛 🐎,理论再好,不如实战见真章!作为 YOLOE 论文发布后的首批落地应用,X-AnyLabeling 已经完美集成了 YOLOE 的几乎全部核心能力,让"万物识别"从学术概念变成了触手可及的标注工具。

📦 开箱即用的集成体验

X-AnyLabeling 提供了一站式的 YOLOE 集成方案

# 一键创建专属环境
conda create -n yoloe python=3.10 -y
conda activate yoloe

# 无缝集成 YOLOE
git clone https://github.com/THU-MIG/yoloe.git
cd yoloe && pip install -r requirements.txt

# 启动 X-AnyLabeling
git clone https://github.com/CVHub520/X-AnyLabeling.git
cd X-AnyLabeling
pip install -r requirements.txt
python anylabeling/app.py
  • • ⏱️ 秒级响应:实时检测,无需等待

  • • 🎨 可视化友好:清晰的边界框和置信度显示

  • • 🔄 实时调优:随时调整参数,立即看到效果

  • • ✨ 零配置烦恼:追求极简体验

🎯 三合一的智能检测模式

正如 YOLOE 论文中展示的三大核心能力,X-AnyLabeling 完美支持了所有交互方式:

1️⃣ 文本提示检测 — 想说什么就检测什么

只需在文本框中输入你想检测的目标:

  • • 🐕 单一对象:dog

  • • 🚗🏃‍♂️🚴‍♀️ 多类检测:person.car.bicycle 或 dog,cat,tree

2️⃣ 视觉提示检测 — 所见即所得的交互体验

有时候,一个框胜过千言万语

操作流程也异常简单:

  1. 1. 🖱️ 点击 +Rect 激活绘制模式

  2. 2. 🎨 在感兴趣的目标上绘制边界框

  3. 3. ➕ 添加多个提示框指示不同实例

  4. 4. 🚀 点击 Send 开始检测,或 Clear 清除所有提示

这种方式特别适合:

  • • 🔍 细粒度目标:检测图像中的特定纹理或局部特征

  • • 🎭 相似对象区分:当文本描述难以精确表达时

  • • 🎯 少样本学习:通过几个示例快速"教会"模型识别新概念

3️⃣ 免提示检测 — AI 的"火眼金睛"

最酷的功能来了!无需任何输入,YOLOE 就能自动发现并识别图像中的所有对象。当前支持以下 智能词汇库配置

# 方式一:列表格式
type:yoloe
classes:
-person
-vehicle
-animal
-furniture

# 方式二:字典格式  
type:yoloe
classes:
0:person
1:vehicle
2:animal
3:furniture

# 方式三:外部文件
type:yoloe
classes: /path/to/classes.txt

默认超强词汇库:当不指定类别时,X-AnyLabeling 自动加载包含 4600+ 类别 的综合词汇表,覆盖日常生活、工业场景、科研领域的绝大多数对象!

⚡ 批量处理:效率的终极体现

对于需要处理海量数据的场景,X-AnyLabeling 同样提供了批量处理模式

激活方式Ctrl+M (Windows/Linux) 或 Cmd+M (macOS)

支持场景

  • • 📝 文本提示批处理:预设检测类别,一键处理整个数据集

  • • 🎯 免提示批处理:完全自动化的对象发现与标注

🔮 技术优势总结

传统方案YOLOE + X-AnyLabeling

🐌 需要大量标注数据

✨ 零样本/少样本学习

🔒 模型固化,难以扩展

🔄 灵活适应新场景

⏳ 部署周期长

⚡ 分钟级快速部署

🎯 单一任务特化

🌈 多模态统一处理

🎯 适用场景广谱

无论你是:

  • • 🎓 学术研究者:快速验证算法效果

  • • 👨‍💻 算法工程师:高效数据预处理和标注

  • • 🏢 企业用户:降本增效的AI落地方案

  • • 🚀 创业团队:快速MVP验证和产品迭代

X-AnyLabeling + YOLOE 都能为你提供世界级的"万物识别"能力!

📞 立即体验

🌟 GitHub Star: https://github.com/CVHub520/X-AnyLabeling

💬 技术交流: 微信 ww10874 | 邮箱 cv_hub@163.com

YOLOE 让"万物识别"成为可能,X-AnyLabeling 让"万物识别"触手可及! 🌟

从学术论文到工业应用,从实验室到生产线,这就是技术的最终归宿 — 为工程师与科研人员持续创造价值! 🚀

总结

YOLOE 为目标检测与分割的发展提供了重要方向。首先是统一性,YOLOE 将文本提示、视觉提示和无提示的检测与分割任务整合在一个模型中,并保持了高效运行,这说明未来模型将更加重视多任务统一处理,而非为单一任务定制模型。

其次是效率,在自动驾驶和机器人等需要边缘部署的场景中,模型运行速度至关重要。YOLOE 通过可重参数化、轻量化设计和惰性检索等手段在保证性能的同时显著提升了效率,为实时开放世界感知提供了可能。

开放词汇的能力也成为趋势,随着应用环境日益复杂,模型需要理解未知概念。YOLOE 在这方面的表现展示了视觉语言模型在增强传统计算机视觉模型开放性方面的巨大潜力。

在多模态提示处理方面,YOLOE 支持灵活输入,不论是文本、图像示例还是无需提示,用户都能根据需求以最自然的方式与模型交互,这提升了模型的实用性和用户体验。

此外,YOLOE 采用了“少即是多”的训练策略,文本提示模型训练完成后,仅需极少训练轮次即可实现对视觉提示和无提示场景的适配。例如 SAVPE 只需训练2个epoch,LRPC仅需1个epoch,训练成本远低于同类方法,这为资源有限的研究者和开发者提供了可行路径。

YOLOE 不仅仅是一个新的 SOTA 模型,更重要的是它构建了一种兼顾性能、效率和统一性的开放世界感知框架。它展示了未来的检测与分割系统应如人眼般,具备实时、高效和灵活理解复杂环境的能力,无需依赖明确的指令。

近期笔者的关注更多会转向大模型中的推理能力(Reasoning in LLMs/VLMs),如果你对此感兴趣,欢迎关注CVHub,我将持续在此与您分享最前沿的科技动态与思考。

引用链接

[1] YOLOE:https://arxiv.org/pdf/2503.07465
[2]ChatGPT:https://openai.com/index/chatgpt/
[3]R-CNN:https://arxiv.org/abs/1311.2524
[4]Fast R-CNN:https://arxiv.org/abs/1504.08083
[5]Faster R-CNN:https://arxiv.org/abs/1506.01497
[6]YOLO:https://arxiv.org/abs/1804.02767
[7]SSD:https://arxiv.org/abs/1512.02325
[8]CornerNet:https://arxiv.org/abs/1808.01244
[9]CenterNet:https://arxiv.org/abs/1904.08189
[10]FCOS:http://arxiv.org/abs/1904.01355
[11]DETR:https://arxiv.org/abs/2005.12872
[12]FCN:https://arxiv.org/abs/1411.4038
[13]U-Net:https://arxiv.org/abs/1505.04597
[14]Mask R-CNN:https://arxiv.org/abs/1703.06870
[15]YOLACT:https://arxiv.org/abs/1904.02689
[16]MaskFormer:https://arxiv.org/abs/2107.06278
[17]Transformer:https://arxiv.org/abs/1706.03762
[18]GLIP:https://arxiv.org/abs/2112.03857
[19]Grounding DINO:https://arxiv.org/abs/2303.05499
[20]YOLO-World:https://arxiv.org/abs/2401.17270
[21]SAM:https://arxiv.org/abs/2304.02643
[22]T-Rex2:https://arxiv.org/abs/2403.14610
[23]GenerateU:https://arxiv.org/abs/2403.10191
[24]Ultralytics-YOLO:https://github.com/ultralytics/ultralytics
[25]CLIP:http://arxiv.org/pdf/2103.00020
[26]DINO-X:https://arxiv.org/abs/2411.14347

THE END !

文章结束,感谢阅读。您的点赞,收藏,评论是我继续更新的动力。大家有推荐的公众号可以评论区留言,共同学习,一起进步。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值