近年来,LLM 已经一统所有文本任务,展现了基础模型的强大潜力。一些视觉基础模型如 CLIP 在多模态理解任务上同样展现出了强大的泛化能力,其统一的视觉语言空间带动了一系列多模态理解、生成、开放词表等任务的发展。然而针对更细粒度的目标级别的感知任务,目前依然缺乏一个强大的基础模型。

为了解决这个问题,来自华中科技大学和字节跳动的研究团队提出了一个针对视觉目标的基础模型 GLEE,一次性解决图像和视频中的几乎所有目标感知任务。GLEE 支持根据任意开放词表、目标的外观位置描述、和多种交互方式进行目标检测、分割、跟踪,并在实现全能性的同时保持 SOTA 性能。

此外,GLEE 还构建了统一优化目标的训练框架,从超过一千万的多源数据中汲取知识,实现对新数据和任务的零样本迁移。并验证了多种数据之间相互促进的能力。模型和训练代码已全部开源。

通过一个统一的框架,白翔团队提出通用检测大模型GLEE可以在开放世界场景中完成任意物体的检测、分割、跟踪、接地和识别,以完成各种物体感知任务。

  • 论文标题:GLEE: General Object Foundation Model for Images and Videos at Scale
  • 论文地址:https://arxiv.org/abs/2312.09158
  • 代码地址:https://github.com/FoundationVision/GLEE
  • Demo 地址:https://huggingface.co/spaces/Junfeng5/GLEE_demo
  • 视频地址:https://www.bilibili.com/video/BV16w4m1R7ne/

在这项工作中,我们提出了GLEE:一个对象级的基础模型,用于定位和识别图像和视频中的对象

  • 通过一个统一的框架,GLEE可以在开放世界场景中完成任意物体的检测、分割、跟踪、接地和识别,以完成各种物体感知任务。
  • 采用内聚学习策略,GLEE从不同监督级别的不同数据源中获取知识,以形成通用对象表示,擅长零次迁移到新数据和任务。

具体来说,我们采用图像编码器,文本编码器和视觉解码器来处理多模态输入,从而能够同时解决各种以对象为中心的下游任务,同时保持最先进的性能。通过对来自不同基准的500多万张图像进行广泛的训练,GLEE表现出显着的多功能性和改进的泛化性能,有效地处理下游任务,而不需要特定于任务的适应。通过集成大量的自动标注数据,我们进一步增强了其Zero-shot概化能力。此外,GLEE能够被集成到大型语言模型中,作为基础模型为多模态任务提供通用的对象级信息。我们希望,我们的方法的可靠性和普遍性将标志着一个重要的一步,有效的视觉基础模型的AGI系统的发展。模型和代码将在/上发布。

GLEE~_数据

本文亮点

  1. 我们提出了GLEE:一个通用的以对象为中心的基础模型的图像和视频, GLEE能够同时处理各种以对象为中心的任务,同时保持最先进的性能。
  2. 我们开发了一个多粒度的联合监督框架和一个可扩展的训练范例。GLEE的统一方法支持多源数据,并能够对来自不同监督级别的各种基准的500多万张图像进行联合训练。这大大方便了额外的手动或自动注释数据的合并,并简化了数据集的缩放。
  3. GLEE在对象级图像和视频任务的范围内展示了卓越的通用性和强大的zero-shot可传输性。此外,GLEE可以提供现代LLM目前缺乏的可视化对象级信息,从而作为增强其他架构或模型的基础组件。

本文方案

如图所示,所提GLEE包括一个图像编码器,一个文本编码器,一个视觉解码器,和一个对象解码器。文本编码器处理与任务相关的任意描述,包括对象类别、任何形式的名称、关于对象的标题和引用表达式。视觉识别器在交互式分割期间将诸如点、边界框或涂鸦的用户输入编码成目标对象的对应视觉表示。然后,它们被集成到一个检测器中,用于根据文本和视觉输入从图像中提取对象。

GLEE~_编码器_02

本文实验

GLEE~_人工智能_03

如上表所示:我们的模型在COCO和LVIS基准上都优于所有通才模型。即使与其他最先进的spec-cialist方法相比,我们的模型仍然具有很强的竞争力。这表明,GLEE同时掌握普遍和一般的对象表示,同时保持先进的能力,这种特性对于适应需要精确目标定位的广泛下游任务至关重要。对于REC和RES任务,我们在Ref-COCO [120],RefCOCO+ [120]和RefCOCOg [72]上评估了我们的模型,如表1所示,GLEE实现了与SOTA专业方法PolyFormer [62]相当的结果,展示了强大的理解文本描述的能力,并展示了适应更广泛的多模态下游任务的潜力

在开放世界实例分割任务中,我们将“对象”视为类别名称,指示模型以类不可知的方式识别图像中所有可能的实例。GLEE比之前的ODISE [107]高出8.9分,证明了识别开放世界场景中可能存在的所有合理实例的能力。GLEE模型作为对象级视觉基础模型的通用性和有效性,直接适用于各种以对象为中心的任务,同时确保最先进的性能,而不需要微调

zero-shot

GLEE~_泛化_04

如上表所示:GLEE超过先前最佳方法OVTrack 36.0%,在BURST中几乎是最佳基线性能的三倍,在LV-VIS中超过OV 2Seg43.6%。这种出色的性能有力地验证了GLEE在处理一系列基准测试和任务的对象级任务时的卓越泛化和zero-shot能力

Ablation

GLEE~_数据_05

  • 数据规模 使用10%、20%、50%、100%的训练数据训练GLEE-Pro,以评估zero-shot转移任务的性能,包括TAO、BURST、OVIS和YTVIS。增加训练数据集的大小可增强不同下游任务的零触发性能。         
  • 用作基础模型 我们用一个冻结的、预训练的GLEE-Plus代替丽莎视觉中枢,并将来自GLEE的对象查询馈送到LLAVA中,并去除LISA的解码器。我们直接将输出的SEG令牌与GLEE特征映射进行点积来生成掩码。经过同样数量的训练,改进后的LISA-GLEE获得了与原始版本相当的结果,证明了GLEE表示的多功能性及其在服务于其他模型中的有效性

效果展示

GLEE~_人工智能_06

对于图像级交互式分割,GLEE支持将点、框或涂鸦作为视觉提示发送到模型,从而实现指定对象的直接分割。在视频对象分割的情况下,使用来自第一帧的掩蔽特征作为提示引用特征允许在视频的后续帧中分割对应的对象。

1. GLEE 可以解决哪些任务?

GLEE 可以同时接受语义和视觉上的 prompt 作为输入,因此,任意长度的开放词表、目标属性描述、目标位置描述都、交互式的 point,box,mask 都可以被作为 prompt 来指引 GLEE 检测分割出任意目标。具体来说,开放世界的目标检测、实例分割、文本描述的指代检测与分割(referring expression comprehension and segmentation)以及交互式分割都可以被轻松实现。

此外,通过在超大规模的图像数据上进行训练,GLEE 学习到了更加有判别性的目标特征,直接对这些特征进行无参数的帧间匹配可以实现高质量的跟踪,从而将 GLEE 的能力完全扩展到视频任务上。在视频任务中 GLEE 可以实现开放世界的视频实例分割(VIS),视频目标分割(VOS),参考视频实例分割(RVOS)以及交互式的视频目标分割跟踪。

2. GLEE 统一了哪些数据用来训练?

GLEE 使用了来自 16 个数据集的超过一千万图片数据进行训练,充分利用了现有的标注数据和低成本的自动标注数据构建了多样化的训练集,是 GLEE 获得强大泛化性的根本原因。

GLEE 使用的数据根据标注类型可以分为四大类:1)基于词表的目标检测数据集,如 COCO、Objects365。2)基于目标描述的 grounding 数据集,如 RefCOCO 系列、VisualGenome。3)无类语义信息的 open-world 数据集,如 SA1B、UVO。4)视频数据,如 YouTubeVIS、OVIS。GLEE 所使用的图片超过 1 千万,其中标注目标数量超过一亿五千万。

3. GLEE 如何构成?

GLEE 包括图像编码器、文本编码器、视觉提示器和目标检测器,如图所示。文本编码器处理与任务相关的任意描述,包括目标类别词表、目标任何形式的名称、关于目标的标题和指代表达。视觉提示器将用户输入(如交互式分割中的点、边界框或涂鸦)编码成目标对象的相应视觉表示。然后,这些信息被整合到一个检测器中,根据文本和视觉输入从图像中提取对象。

4. 在目标感知任务上的全能性和泛化能力

该研究展示了 GLEE 模型作为一个目标感知基础模型的普适性和有效性,它可以直接应用于各种以目标为中心的任务,同时确保最先进的性能,无需进行微调。

此外,该研究在一些开放词汇表的视频任务中验证了 GLEE 的零样本泛化能力。在 TAO、BURST、LV-VIS 这三个开放词汇表的跟踪数据集上,GLEE 在未经过训练和微调的情况下,取得了令人惊叹的最先进(SOTA)性能,这证明了 GLEE 在大规模联合训练中学习到的通用对象感知能力和强大的泛化能力。

5. 作为基础模型的潜力

作为基础模型,该研究用预训练且冻结的 GLEE-Plus 替换了 LISA 的中使用的 SAM backbone,并将 GLEE 的 Object Query 输入到 LLAVA 中,移除了 LISA 的解码器。该研究直接将输出的 SEG 标记与 GLEE 特征图进行点积运算以生成 Mask。在进行相同步数的训练后,修改后的 LISA-GLEE 取得了与原版 LISA 使用 SAM 相媲美的结果,这证明了 GLEE 的表示具有多功能性,并且在为其他模型服务时的有效性。

小结

我们介绍了一个先进的对象级基础模型GLEE,旨在直接适用于广泛的对象级图像和视频任务。GLEE采用统一的学习范式,从不同监督级别的不同数据源中学习;GLEE在许多对象级任务上实现了最先进的性能,并在zero-shot泛化到新数据和任务方面表现出色,显示出其卓越的通用性和泛化能力。此外,GLEE提供了一般的视觉对象级信息,这是目前在现代LLM中缺失的,为以对象为中心的mLLM奠定了坚实的基础