这篇文章介绍了一种名为 Grounded SAM 的新型视觉模型,它通过结合 Grounding DINO(开放集目标检测器)和 Segment Anything Model (SAM)(分割模型)的能力,实现了基于任意文本输入的图像检测与分割,并能够无缝集成其他开放世界模型以完成更复杂的视觉任务。以下是文章的主要研究内容总结:
1. 研究背景与动机
-
开放世界视觉任务的重要性:在自动驾驶、机器人导航和智能安防等领域,视觉感知和理解任务需要模型能够处理开放世界中的多样化场景和任务。
-
现有方法的局限性:
-
统一模型方法:如 UNINEXT 和 OFA,虽然支持多种任务,但在复杂任务(如开放集分割)中数据范围有限。
-
LLM作为控制器:如 HuggingGPT 和 Visual ChatGPT,依赖于大型语言模型的功能,灵活性受限。
-
集成基础模型方法:通过组合多个专家模型来完成复杂任务,但缺乏一个强大的开放集分割解决方案。
-
2. Grounded SAM 的提出
-
核心思想:将开放集检测(由 Grounding DINO 实现)和可提示分割(由 SAM 实现)结合起来,解决开放集分割任务。
-
模型架构:
-
Grounding DINO:能够根据任意文本提示检测图像中的目标。
-
SAM:能够根据提示(如点、框或文本)分割图像中的任何对象。
-
结合方式:Grounding DINO 生成检测框,SAM 使用这些框作为提示生成精确的分割掩码。
-
3. Grounded SAM 的功能与应用
-
开放词汇检测与分割:能够根据用户提供的文本输入,检测和分割图像中的对应区域,支持长尾类别(如“Zale Horrida”)。
-
自动密集图像标注:结合图像字幕模型(如 BLIP)或图像标记模型(如 RAM),实现自动标注,显著降低人工标注成本。
-
可控图像编辑:与 Stable Diffusion 结合,实现基于文本提示的精确图像编辑,支持数据稀缺场景下的数据生成。
-
可提示的人体运动分析:与 OSX 模型结合,实现基于文本提示的全身人体检测和网格恢复,支持细粒度的人体运动分析。
4. 实验与性能评估
-
基准测试:在 Segmentation in the Wild(SGinW)零样本基准测试中,Grounded SAM 实现了 48.7 的平均 AP 值,显著优于先前的统一开放集分割模型(如 UNINEXT 和 OpenSeeD)。
-
扩展能力:通过与 HQ-SAM 结合,进一步提升了性能,证明了模型的可扩展性。
5. 研究贡献与展望
-
模型组合的优势:
-
任务扩展性:通过组合专家模型,可以完成更多任务(如 2n−1 个任务)。
-
可解释性:将复杂任务分解为多个子任务,便于观察和理解模型推理过程。
-
创新潜力:为新研究领域和应用提供基础。
-
-
未来展望:
-
数据标注与模型训练的闭环:通过专家模型组合节省标注成本,同时提高标注质量。
-
与大型语言模型(LLMs)结合:利用 LLMs 调用 API,执行计算机视觉任务。
-
生成新数据集:结合生成模型,桥接不同模态的数据。
-
Grounded SAM 通过结合开放集检测和可提示分割的能力,为开放世界视觉任务提供了一个强大且灵活的解决方案。它不仅在开放词汇分割任务中表现出色,还通过与其他模型的集成,展示了在自动标注、图像编辑和人体运动分析等领域的广泛应用潜力。这里是自己的论文阅读记录,感兴趣的话可以参考一下,如果需要阅读原文的话可以看这里,如下所示:
官方项目地址在这里,如下所示:
图 1:Grounded SAM 可以根据用户提供的任意文本输入,在图像中同时检测和分割对应的区域。此外,它还可以无缝集成其他开放世界模型,以完成更复杂的视觉任务。
摘要
我们介绍了 Grounded SAM,它使用 Grounding DINO [38] 作为开放集目标检测器,与分割任何事物模型(SAM)[25] 相结合。这种集成使得基于任意文本输入检测和分割任何区域成为可能,并为连接各种视觉模型打开了大门。如图 1 所示,通过使用多功能的 Grounded SAM 流程,可以实现广泛的视觉任务。例如,通过整合像 BLIP [31] 和识别任何事物(RAM)[83] 这样的模型,可以实现仅基于输入图像的自动标注流程。此外,整合 Stable-Diffusion [52] 可以实现可控的图像编辑,而整合 OSX [33] 则可以实现可提示的 3D 人体运动分析。Grounded SAM 在开放词汇基准测试中也表现出色,通过结合 Grounding DINO-Base 和 SAM-Huge 模型,在 SegInW(野外分割)零样本基准测试中达到了 48.7 的平均 AP 值。
1. 引言
在开放世界场景中的视觉感知和理解任务对于自动驾驶、机器人导航和智能安防监控等应用的进步至关重要。这些应用需要强大且多功能的视觉感知模型,能够解释和与开放世界环境互动。目前,解决开放世界视觉感知挑战主要有三种方法。首先,统一模型方法涉及在多个数据集上训练像 UNINEXT [66] 和 OFA [59] 这样的模型,以支持各种视觉任务。这种方法还包括在不同的视觉问答数据集上训练大型语言模型,以统一任务,如 LLaVA [34]、InstructBLIP [12]、Qwen-VL [3] 和其他多模态语言模型(MLLMs)[60, 40, 80]。然而,这种方法的一个重要限制是其数据范围有限,尤其是在开放集分割等复杂任务中。其次,LLM 作为控制器的方法试图将视觉专家与语言模型连接起来。例如,HuggingGPT [55]、Visual ChatGPT [62] 和 LLaVA-Plus [35]。这些方法利用大型语言模型的语言理解能力来指导各种视觉任务。然而,这种方法严重依赖于大型语言模型的功能和限制。第三,集成基础模型的方法试图通过协作整合为特定上下文设计的专家模型来完成开放世界任务。这种方法通过结合各种专业模型的优势提供了灵活性。尽管通过这些方法在解决开放世界任务方面取得了进展,但市场上仍然缺乏能够支持开放集分割等复杂且基础的开放世界任务的强大流程。Grounded SAM 从集成基础模型方法的角度出发,开创性地将开放集检测模型(如 Grounding DINO [38])和可提示分割模型(如 SAM [25])结合起来。它通过将开放集分割挑战分解为两个主要部分:开放集检测和可提示分割,有效地解决了这一问题。基于这种方法,Grounded SAM 提供了一个强大且全面的平台,进一步促进了不同专家模型的高效融合,以应对更复杂的开放世界任务。以 Grounded SAM 为基础,利用其强大的开放集分割能力,我们可以轻松地整合其他开放世界模型。例如,当与识别任何事物(RAM)[83] 结合时,RAM-Grounded-SAM 模型可以在没有任何文本输入的情况下自动识别和分割图像中的事物或对象,从而促进自动图像标注任务。通过整合 BLIP [31] 也可以实现类似的自动图像标注能力。此外,当 Grounded SAM 与 Stable Diffusion 的修复能力结合时,如 Grounded-SAM-SD 模型所示,它可以执行高度精确的图像编辑任务。我们将在第 3 节中更详细地讨论 Grounded SAM 及其通过整合其他开放世界模型而增强的能力。
2. 相关工作
2.1 任务特定的视觉模型
在计算机视觉领域,各种任务都取得了显著进展,包括图像识别 [47, 31, 18, 83, 17]、通用目标检测 [49, 87, 43, 27, 77, 36, 19, 38, 51, 50, 20, 30]、通用图像分割 [9, 8, 26, 29, 78, 88, 79, 25, 79, 16, 28]、指代目标检测和分割 [41, 37, 86]、目标跟踪 [67, 84]、图像生成 [75, 54, 48, 45, 23, 14, 52, 22, 82, 44]、图像编辑 [42, 1, 2, 53, 21]、以人为中心的感知和理解 [72, 71, 73, 70, 69, 4, 33, 74] 以及以人为中心的动作生成 [39, 6, 32, 61, 5]。然而,尽管取得了这些进展,当前的模型大多是任务特定的,通常无法涵盖更广泛的任务范围。
2.2 统一模型
在语言领域,大型语言模型(LLMs)如 GPT-3 [13]、LaMDA [57] 和 PaLM [11] 是通用的统一模型,通过自回归和生成式方法处理语言任务。与依赖统一和结构化标记表示的语言任务不同,视觉任务涵盖了多种数据格式,包括像素、空间(例如,框坐标、关键点)、时间等。最近的研究尝试从两个角度开发统一视觉模型,以适应这些多样化的模态。首先,一些模型试图将各种视觉模态统一为一个单一模态。例如,Pix2Seq [7] 和 OFA [59] 尝试将空间模态(如框坐标)合并到语言中。其次,一些模型寻求一个与不同模态输出兼容的统一模型。UNINEXT [66] 是一个支持不同实例级任务输出的例子。尽管这些统一视觉模型正在推动通用智能的进步,但现有的模型只能处理有限数量的任务,并且在性能上通常不如任务特定模型。
2.3 带控制器系统的模型组装
与我们的工作正交的是,Visual ChatGPT [62] 和 HuggingGPT [55] 提出利用 LLMs 来控制不同的 AI 模型以解决不同的任务。与这些模型相比,基础模型组装方法不使用 LLM 作为控制器,这使得整个流程更加高效和灵活。我们展示了复杂任务可以被解耦,并且可以通过训练自由的模型组装方式完成逐步的视觉推理。
3. Grounded SAM 游乐场
在本章中,以 Grounded SAM 为基础,我们展示了如何将来自不同领域的专家模型结合起来,以完成更全面的视觉任务。
3.1 基础知识
我们在这里讨论 Grounded SAM 和其他领域专家模型的基本组成部分。分割任何事物模型(SAM)[25] 是一个开放世界分割模型,可以在适当的提示下(如点、框或文本)“切割”任何图像中的任何对象。它在超过 1100 万张图像和 11 亿个掩码上进行了训练。尽管它具有强大的零样本性能,但该模型无法根据任意文本输入识别掩码对象,通常需要点或框提示才能运行。Grounding DINO [38] 是一个开放集目标检测器,可以根据任意自由形式的文本提示检测任何对象。该模型在超过 1000 万张图像上进行了训练,包括检测数据、视觉定位数据和图像-文本对。它具有强大的零样本检测性能。然而,该模型需要文本输入,并且只能检测与相应短语对应的框。OSX [33] 是用于表现力全身网格恢复的最新模型,旨在从单目图像中联合估计 3D 人体姿势、手势和面部表情。它需要首先检测人体框,裁剪并调整人体框的大小,然后进行单人网格恢复。BLIP [31] 是一个视觉-语言模型,统一了视觉-语言理解和生成任务。我们在实验中使用了 BLIP 的图像字幕模型。该字幕模型可以为任何图像生成描述。然而,该模型无法执行目标级任务,如检测或分割对象。识别任何事物模型(RAM)[83] 是一个强大的图像标记模型,可以高精度地识别输入图像的任何常见类别。然而,RAM 只能生成标签,而不能为识别的类别生成精确的框和掩码。Stable Diffusion [52] 是一个图像生成模型,它从训练数据的分布中采样图像。它最广泛的应用是使用文本提示生成图像。我们在实验中使用了它的修复变体。尽管它生成的结果令人惊叹,但该模型无法执行感知或理解任务。ChatGPT & GPT-4 [15, 46] 是使用 GPT(生成式预训练变换器)架构开发的大型语言模型,用于构建对话式 AI 代理。它在大量文本数据上进行了训练,可以生成类似人类对用户输入的回应。该模型可以理解对话的上下文,并生成通常与人类难以区分的适当回应。
3.2 Grounded SAM:开放词汇检测与分割
确定图像中与用户提供的文本对应的掩码区域,从而实现更细粒度的图像理解任务(如开放集分割)是一项极具挑战性的任务。这主要是由于缺乏野外分割任务的高质量数据,这给模型在数据稀缺条件下完成精确开放集分割带来了挑战。相比之下,开放集检测任务更容易处理,主要有以下两个原因。首先,检测数据的标注成本相对较低,与分割任务相比,可以收集到更多高质量的标注数据。其次,开放集检测只需要根据给定的文本识别图像中对应对象的坐标,而无需精确的像素级对象掩码。同样,基于框的条件预测对应对象掩码,比直接根据文本预测区域掩码更有效。这种方法已在先前的工作中得到验证,例如 OpenSeeD [79],并且可以通过利用 SAM [25] 中开发的 SAM-1B 数据集来解决数据稀缺的重大问题。因此,受先前成功工作(如 Grounded 预训练 [81, 38] 和 SAM [25])的启发,我们试图通过结合强大的开放集基础模型来解决复杂的野外分割任务。给定输入图像和文本提示,我们首先使用 Grounding DINO 利用文本信息作为条件,为图像中的对象或区域生成精确的框。随后,通过 Grounding DINO 获得的标注框作为 SAM 的框提示,以生成精确的掩码标注。通过利用这两个强大的专家模型的能力,可以更轻松地完成开放集检测和分割任务。如图 2 所示,Grounded SAM 可以根据用户输入准确地检测和分割文本,无论是在传统场景还是长尾场景中(例如“Zale Horrida”和“Gazania Linearis”等)。一些示例图像采样自 V3Det [58] 数据集。我们非常感谢他们的出色工作。
3.3 RAM-Grounded-SAM:自动密集图像标注
自动图像标注系统在许多实际应用中具有重要意义,例如提高手动标注数据的效率、降低人工标注成本,或者在自动驾驶中提供实时场景标注和理解以增强驾驶安全。在 Grounded SAM 的框架内,它利用 Grounding DINO 的能力。用户可以灵活地输入任意类别或字幕,这些类别或字幕将自动与图像中的实体匹配。在此基础上,我们可以使用图像字幕模型(如 BLIP [31] 和 Tag2Text [18])或图像标记模型(如 RAM [83]),将它们的输出结果(字幕或标签)作为输入传递给 Grounded SAM,并为每个实例生成精确的框和掩码。这使得整个图像的自动标记成为可能,实现了自动标注系统。如图 3 所示,RAM-Grounded-SAM 展示了在各种场景中自动执行类别预测并为输入图像提供密集标注的能力。这显著降低了标注成本,并极大地提高了图像标注的灵活性。
3.4 Grounded-SAM-SD:高度准确且可控的图像编辑
通过将强大的文本到图像能力的图像生成模型与 Grounded SAM 结合起来,我们可以建立一个全面的框架,从而创建一个强大的数据合成工厂,支持在部件级、实例级和语义级进行细粒度操作。如图 4 所示,在此流程中,用户可以通过点击或绘制边界框等交互式方法获得精确的掩码。此外,用户还可以利用定位能力,结合文本提示,自动定位感兴趣的对应区域。在此基础上,借助图像生成模型的额外能力,我们可以实现高度精确且可控的图像操作,包括修改图像表示、替换对象、移除对应区域等。在出现数据稀缺的下游场景中,我们的系统可以生成新的数据,满足模型训练的数据需求。
3.5 Grounded-SAM-OSX:可提示的人体运动分析
以往的表现力全身网格恢复首先检测所有(实例无关的)人体框,然后进行单人网格恢复。在许多现实世界的应用中,我们需要指定要检测和分析的目标人物。然而,现有的人体检测器无法区分不同实例(例如,指定分析“穿粉色衣服的人”),这使得细粒度的人体运动分析变得困难。如图 5 所示,我们可以将 Grounded SAM 和 OSX [33] 模型结合起来,实现一种新颖的可提示(实例特定的)全身人体检测和网格恢复,从而实现可提示的人体运动分析系统。具体而言,给定一张图像和一个指向特定人物的提示,我们首先使用 Grounded SAM 生成一个精确的特定人物框。然后,我们使用 OSX 估计一个实例特定的人体网格以完成整个过程。
3.6 Grounded SAM 的更多扩展
除了上述主要应用之外,Grounded SAM 还可以通过整合更多模型来进一步扩展其应用范围。例如,在数据标注过程中,Grounded SAM 可以与更快的推理 SAM 模型(如 FastSAM [85]、MobileSAM [76]、Light-HQ-SAM [24] 和 EfficientSAM [63])合作。这种合作可以显著减少总体推理时间,加快标注工作流程。Grounded SAM 还可以利用能够生成更高质量掩码的 HQ-SAM [24] 模型,以提高标注质量。在图像编辑领域,Grounded SAM 还可以与新提出的生成模型(如 Stable-Diffusion-XL [52])协同工作,以实现更高质量的图像编辑。此外,它还可以与 LaMa [56] 和 PaintByExample [68] 等模型集成,以实现精确的图像擦除和定制化图像编辑。Grounded SAM 还可以与跟踪模型(如 DEVA [10])集成,以根据特定文本提示执行目标跟踪。
4. Grounded SAM 的有效性
为了验证 Grounded SAM 的有效性,我们在 Segmentation in the Wild(SGinW)零样本基准测试上评估了其性能,该基准测试包含 25 个零样本野外数据集。如表 1 所示,与先前的统一开放集分割模型(如 UNINEXT [66] 和 OpenSeeD [79])相比,Grounding DINO Base 和 Large Model 与 SAM-Huge 的组合在 SGinW 的零样本设置中实现了显著的性能提升。通过整合 HQ-SAM [24],HQ-SAM 能够生成比 SAM 更高质量的掩码,Grounded-HQ-SAM 在 SGinW 上实现了进一步的性能提升。
5. 结论与展望
我们提出的 Grounded SAM 及其扩展的优势,利用多种专家模型的组装来完成各种视觉任务,可以总结如下。首先,通过组装各种专家模型,可以无缝扩展模型的能力边界。以前,我们用 n 个模型可以完成 n 个任务。现在,我们可以用 n 个专家模型完成多达 2n−1 个任务,考虑到所有可能的模型组合。我们可以将复杂任务分解为几个子任务,这些子任务由当前可用的专家模型解决。其次,模型组装流程更具可解释性,通过将任务分解为几个子任务。我们可以观察每个步骤的输出,以获得最终结果的推理过程。最后,通过结合各种专家模型,我们可以探索新的研究和应用领域,可能会带来创新的结果和技术进步。展望:我们方法的一个重要前景是建立标注数据和模型训练之间的闭环。通过组合专家模型,可以节省大量的标注成本。此外,在不同阶段加入人工标注者,有助于过滤或微调不准确的模型预测,从而提高模型标注的质量。然后,将标注的数据持续用于进一步训练和改进模型。我们方法的另一个潜在应用是与大型语言模型(LLMs)结合。鉴于我们的组装模型可以通过各种输入和输出模态(尤其是语言)完成几乎任何计算机视觉(CV)任务,LLMs 可以通过语言提示调用我们的 API,以有效执行 CV 任务。最后但同样重要的是,该模型可以用于生成新的数据集,尤其是在与生成模型结合时,以桥接任何模态对。