CVPR 2024 | GLEE 华科与字节跳动联手打造全能目标感知基础模型

关注公众号,发现CV技术之美

近年来,LLM在文本处理的领先地位和视觉模型如CLIP在多模态任务上优秀的泛化表现,展示了基础模型在推进多模态感知、理解、生成方面的强大潜力。

基础模型通过大规模预训练获得了强大泛化性,不断推动着整个领域的进步。我们能否构建一个针对目标感知领域的基础模型,突破训练规模限制,促进所有感知任务呢?

在这一命题上,最近的一项研究 GLEE 取得了进展。GLEE是是华中科技大学白翔教授团队与字节跳动合作提出的视觉目标感知基础模型,该模型能够接受多种视觉语言提示作为输入,在图像和视频中实现任意物体的检测、分割、与跟踪。

ff5403586c23b1f22dfebc867a9ff7c8.gif

GLEE 通过将视觉感知任务的优化目标统一建模,在超过一千万条多源图像和视频数据上进行联合训练,实现了通用且鲁棒的目标感知能力以及开放世界的语义理解能力。它支持使用开放词表、精确的外观位置描述和多种交互方式来执行图像和视频中的目标检测、分割和跟踪,同时在保持SOTA性能的前提下实现了感知任务的全能处理。此外,GLEE还展示了对新数据和任务的零样本迁移能力,并证明了不同数据源可以相互增强。全系列模型及训练代码已完全开源!

  • 论文标题:General Object Foundation Model for Images and Videos at Scale

  • 论文地址:https://arxiv.org/abs/2312.09158

  • 项目主页:https://glee-vision.github.io/

  • 代码地址:https://github.com/FoundationVision/GLEE

  • 视频地址:https://www.bilibili.com/video/BV16w4m1R7ne/

  • Demo展示:https://huggingface.co/spaces/Junfeng5/GLEE_demo

1. 统一构架解决所有感知任务

GLEE可以处理包括开放世界的目标检测、实例分割、指代检测与分割(REC、RES)、以及交互式分割在内的目标感知任务。它的灵活性体现在能够通过任意长度的开放词表、目标属性描述、位置描述,以及交互式的point、box、mask等视觉提示来引导目标的检测和分割。此外、通过在大规模图像数据集上的训练,GLEE所提取的目标特征之间已经足够有判别性,通过无参数的匹配算法可以完成高质量跟踪。因此其通用感知能力可以被轻松扩展到视频任务上,实现开放世界的视频实例分割(VIS),视频目标分割(VOS),参考视频实例分割(RVOS)以及交互式的视频目标分割跟踪,从而一次性解决图像和视频中的几乎所有目标感知任务。 

2. 超大规模感知任务训练

43fbefd43c168c2b47f7ba16b04ba997.png

GLEE通过结合来自16个不同数据集的超过一千万张图片,包括精心标注的数据和高效自动标注的数据,构建了一个超大规模的多样化的训练集,是GLEE获得SOTA性能和强大泛化性的核心原因。其所提出的多粒度联合监督框架和可扩展的训练范式,支持多源数据的混合训练,简化了数据集的扩展过程。GLEE处理的数据涵盖了基于词表的目标检测、基于描述的定位、无类别的开放世界数据,以及视频数据,总计标注目标超过1.5亿个,确保了模型在各种视觉任务上的强大表现和广泛适用性。

25904bb46663986e08841e38ba1484e6.png

3. GLEE 的构架

GLEE由图像编码器、文本编码器、视觉提示器和目标解码器组成。文本编码器处理与任务相关的任意描述,包括任何形式的对象类别、名称、关于对象的标题和参照表达。视觉提示器将用户输入,如交互式分割中的点、边界框或涂鸦,编码成目标对象的视觉表示。然后它们被整合到检测器中,根据文本和视觉输入提取图像中的对象。基于这种统一的设计,GLEE可以无缝统一图像和视频中的广泛目标感知任务,包括目标检测、实例分割、指代检测分割、多目标跟踪(MOT)、视频实例分割(VIS)、视频目标分割(VOS)、交互式分割和跟踪,并支持开放世界/大词汇量的图像和视频检测与分割。

04760a4dc905cd2de0369420658c08e3.png

4. 在保证全能性的同时达到SOTA

作为一个目标感知基础模型,GLEE可以直接应用于各种以目标为中心的图像任务,同时确保最先进的性能,无需进行微调。

a0b2cd2462ee6f9d8f891d6c69159bd6.png

GLEE也可以直接零样本泛化到一些开放词汇表的视频任务上,在TAO、BURST、LV-VIS这三个开放词汇表的跟踪数据集上,GLEE在未经过训练和微调的情况下,取得了SOTA 性能,这证明了GLEE在大规模联合训练中学习到的通用对象感知能力和强大的泛化能力。

320ceacfda107be1828a4006ed49ebe7.png

5. 作为基础模型的潜力

作为基础模型,GLEE可以替换LISA的中使用的SAM backbone,将LLAVA输出的SEG token 送入GLEE以生成分割结果。在进行相同的训练后,替换SAM后的 LISA-GLEE 取得了与原版 LISA 使用SAM相媲美的结果,说明了GLEE可以作为基础模型为其他任务提供信息。

e7a50f615b10852b69084364f1b9bbc7.png

248f566be7cf34eef7db0696611989a6.jpeg

END

欢迎加入「大模型交流群👇备注:LLM

6d6a47fab6547e9b6d00c07a70702921.png

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
提供的源码资源涵盖了安卓应用、小程序、Python应用和Java应用等多个领域,每个领域都包含了丰富的实例和项目。这些源码都是基于各自平台的最新技术和标准编写,确保了在对应环境下能够无缝运行。同时,源码中配备了详细的注释和文档,帮助用户快速理解代码结构和实现逻辑。 适用人群: 这些源码资源特别适合大学生群体。无论你是计算机相关专业的学生,还是对其他领域编程感兴趣的学生,这些资源都能为你提供宝贵的学习和实践机会。通过学习和运行这些源码,你可以掌握各平台开发的基础知识,提升编程能力和项目实战经验。 使用场景及目标: 在学习阶段,你可以利用这些源码资源进行课程实践、课外项目或毕业设计。通过分析和运行源码,你将深入了解各平台开发的技术细节和最佳实践,逐步培养起自己的项目开发和问题解决能力。此外,在求职或创业过程中,具备跨平台开发能力的大学生将更具竞争力。 其他说明: 为了确保源码资源的可运行性和易用性,特别注意了以下几点:首先,每份源码都提供了详细的运行环境和依赖说明,确保用户能够轻松搭建起开发环境;其次,源码中的注释和文档都非常完善,方便用户快速上手和理解代码;最后,我会定期更新这些源码资源,以适应各平台技术的最新发展和市场需求。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值