通用检测大模型 | GLEE：开放世界检测&分割开放的一切！

最新推荐文章于 2025-03-21 12:55:38 发布

自动驾驶之心

最新推荐文章于 2025-03-21 12:55:38 发布

阅读量2.8k

点赞数 3

原文链接：https://mp.weixin.qq.com/s?__biz=Mzg2NzUxNTU1OA==&mid=2247579593&idx=4&sn=adb54e474c9a218a5daf21be1beb6b7e&chksm=cfe40b20860b0cb1304be604e002dcff509a35d85e86c63beccf675edee3df6b5ed4474f2faf&scene=126&sessionid=0

版权

作者 | AIWalker 编辑 | 极市平台

点击下方卡片，关注“自动驾驶之心”公众号

ADAS巨卷干货，即可获取

点击进入→自动驾驶之心【大模型】技术交流群

本文只做学术分享，如有侵权，联系删文

导读

通过一个统一的框架，GLEE可以在开放世界场景中完成任意物体的检测、分割、跟踪、接地和识别，以完成各种物体感知任务。

论文链接：https://arxiv.org/abs/2312.09158

代码链接：https://glee-vision.github.io

在这项工作中，我们提出了GLEE：一个对象级的基础模型，用于定位和识别图像和视频中的对象。

通过一个统一的框架，GLEE可以在开放世界场景中完成任意物体的检测、分割、跟踪、接地和识别，以完成各种物体感知任务。
采用内聚学习策略，GLEE从不同监督级别的不同数据源中获取知识，以形成通用对象表示，擅长零次迁移到新数据和任务。

具体来说，我们采用图像编码器，文本编码器和视觉解码器来处理多模态输入，从而能够同时解决各种以对象为中心的下游任务，同时保持最先进的性能。通过对来自不同基准的500多万张图像进行广泛的训练，GLEE表现出显着的多功能性和改进的泛化性能，有效地处理下游任务，而不需要特定于任务的适应。通过集成大量的自动标注数据，我们进一步增强了其Zero-shot概化能力。此外，GLEE能够被集成到大型语言模型中，作为基础模型为多模态任务提供通用的对象级信息。我们希望，我们的方法的可靠性和普遍性将标志着一个重要的一步，有效的视觉基础模型的AGI系统的发展。模型和代码将在/上发布。

本文亮点

我们提出了GLEE：一个通用的以对象为中心的基础模型的图像和视频， GLEE能够同时处理各种以对象为中心的任务，同时保持最先进的性能。
我们开发了一个多粒度的联合监督框架和一个可扩展的训练范例。GLEE的统一方法支持多源数据，并能够对来自不同监督级别的各种基准的500多万张图像进行联合训练。这大大方便了额外的手动或自动注释数据的合并，并简化了数据集的缩放。
GLEE在对象级图像和视频任务的范围内展示了卓越的通用性和强大的zero-shot可传输性。此外，GLEE可以提供现代LLM目前缺乏的可视化对象级信息，从而作为增强其他架构或模型的基础组件。

本文方案

如图所示，所提GLEE包括一个图像编码器，一个文本编码器，一个视觉解码器，和一个对象解码器。文本编码器处理与任务相关的任意描述，包括对象类别、任何形式的名称、关于对象的标题和引用表达式。视觉识别器在交互式分割期间将诸如点、边界框或涂鸦的用户输入编码成目标对象的对应视觉表示。然后，它们被集成到一个检测器中，用于根据文本和视觉输入从图像中提取对象。

本文实验

如上表所示：我们的模型在COCO和LVIS基准上都优于所有通才模型。即使与其他最先进的spec-cialist方法相比，我们的模型仍然具有很强的竞争力。这表明，GLEE同时掌握普遍和一般的对象表示，同时保持先进的能力，这种特性对于适应需要精确目标定位的广泛下游任务至关重要。对于REC和RES任务，我们在Ref-COCO [120]，RefCOCO+ [120]和RefCOCOg [72]上评估了我们的模型，如表1所示，GLEE实现了与SOTA专业方法PolyFormer [62]相当的结果，展示了强大的理解文本描述的能力，并展示了适应更广泛的多模态下游任务的潜力。

在开放世界实例分割任务中，我们将“对象”视为类别名称，指示模型以类不可知的方式识别图像中所有可能的实例。GLEE比之前的ODISE [107]高出8.9分，证明了识别开放世界场景中可能存在的所有合理实例的能力。GLEE模型作为对象级视觉基础模型的通用性和有效性，直接适用于各种以对象为中心的任务，同时确保最先进的性能，而不需要微调。

zero-shot

如上表所示：GLEE超过先前最佳方法OVTrack 36.0%，在BURST中几乎是最佳基线性能的三倍，在LV-VIS中超过OV 2Seg43.6%。这种出色的性能有力地验证了GLEE在处理一系列基准测试和任务的对象级任务时的卓越泛化和zero-shot能力

Ablation

数据规模 使用10%、20%、50%、100%的训练数据训练GLEE-Pro，以评估zero-shot转移任务的性能，包括TAO、BURST、OVIS和YTVIS。增加训练数据集的大小可增强不同下游任务的零触发性能。
用作基础模型 我们用一个冻结的、预训练的GLEE-Plus代替丽莎视觉中枢，并将来自GLEE的对象查询馈送到LLAVA中，并去除LISA的解码器。我们直接将输出的SEG令牌与GLEE特征映射进行点积来生成掩码。经过同样数量的训练，改进后的LISA-GLEE获得了与原始版本相当的结果，证明了GLEE表示的多功能性及其在服务于其他模型中的有效性。

效果展示

对于图像级交互式分割，GLEE支持将点、框或涂鸦作为视觉提示发送到模型，从而实现指定对象的直接分割。在视频对象分割的情况下，使用来自第一帧的掩蔽特征作为提示引用特征允许在视频的后续帧中分割对应的对象。

小结

我们介绍了一个先进的对象级基础模型GLEE，旨在直接适用于广泛的对象级图像和视频任务。GLEE采用统一的学习范式，从不同监督级别的不同数据源中学习；GLEE在许多对象级任务上实现了最先进的性能，并在zero-shot泛化到新数据和任务方面表现出色，显示出其卓越的通用性和泛化能力。此外，GLEE提供了一般的视觉对象级信息，这是目前在现代LLM中缺失的，为以对象为中心的mLLM奠定了坚实的基础。

① 全网独家视频课程

BEV感知、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、点云3D目标检测、目标跟踪、Occupancy、cuda与TensorRT模型部署、协同感知、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频（扫码即可学习）

视频官网：www.zdjszx.com

② 国内首个自动驾驶学习社区

近2000人的交流社区，涉及30+自动驾驶技术栈学习路线，想要了解更多自动驾驶感知（2D检测、分割、2D/3D车道线、BEV感知、3D目标检测、Occupancy、多传感器融合、多传感器标定、目标跟踪、光流估计）、自动驾驶定位建图（SLAM、高精地图、局部在线地图）、自动驾驶规划控制/轨迹预测等领域技术方案、AI模型部署落地实战、行业动态、岗位发布，欢迎扫描下方二维码，加入自动驾驶之心知识星球，这是一个真正有干货的地方，与领域大佬交流入门、学习、工作、跳槽上的各类难题，日常分享论文+代码+视频，期待交流！

③【自动驾驶之心】技术交流群

自动驾驶之心是首个自动驾驶开发者社区，聚焦目标检测、语义分割、全景分割、实例分割、关键点检测、车道线、目标跟踪、3D目标检测、BEV感知、多模态感知、Occupancy、多传感器融合、transformer、大模型、点云处理、端到端自动驾驶、SLAM、光流估计、深度估计、轨迹预测、高精地图、NeRF、规划控制、模型部署落地、自动驾驶仿真测试、产品经理、硬件配置、AI求职交流等方向。扫码添加汽车人助理微信邀请入群，备注：学校/公司+方向+昵称（快速入群方式）