MG-LMM ｜指令引导的多粒度分割和字幕与大型多模态模型

最新推荐文章于 2025-05-16 14:05:24 发布

大靠山

最新推荐文章于 2025-05-16 14:05:24 发布

阅读量714

点赞数 16

文章标签： milvus llama 人工智能学习深度学习

本文链接：https://blog.csdn.net/m0_59235245/article/details/143192982

版权

摘要

大型多模态模型 (LMMs) 通过扩展大型语言模型取得了重大进展。在此进展的基础上，LMMs 的最新发展证明了通过集成分割模型生成密集像素级分割的能力。尽管存在创新，但现有工作的文本响应和分割掩码仍然停留在实例级别，即使提供详细的文本提示，也显示出有限的执行细粒度理解和分割的能力。为了克服这一局限性，我们引入了一种多粒度大型多模态模型 (MGLMM)，该模型能够根据用户指令，从全景 SegCap 到细粒度 SegCap，无缝调整分割和字幕 (SegCap) 的粒度。我们将这种新的任务命名为多粒度分割和字幕 (MGSC)。观察到在 MGSC 任务上缺乏模型训练和评估的基准，我们使用我们定制的自动化标注管道，建立了一个在多粒度中具有对齐掩码和字幕的基准。该基准包含 10K 张图像和超过 30K 张图像-问题对。我们将发布我们的数据集以及我们的自动化数据集标注管道的实现，以供进一步研究。此外，我们提出了一种新的统一 SegCap 数据格式来统一异构分割数据集；它有效地促进了在多任务训练期间将对象概念与视觉特征相关联的学习。大量实验表明，我们的 MGLMM 擅长处理超过八个下游任务，并在 MGSC、GCG、图像字幕、参照分割、多个和空分割以及推理分割任务中取得了最先进的性能。 MGLMM 的出色性能和多功能性突出了其在推动多模态研究方面的潜在影响。代码和数据集将发布在 https://github.com/lizhou-cs/mglmm。

在这里插入图片描述

图 1： MGLMM 是一种多功能且复杂的 LMM，可以处理涉及文本和像素级掩码响应的各种任务。我们将在以下场景中展示其可视化结果：多粒度分割和字幕、参考分割、多个/空分割、全景分割、推理分割、图像级字幕和对话。

绪论

利用大型语言模型 (LLM) (Chiang 等人 2023；Touvron 等人 2023) 的常识推理和理解能力，大型多模态模型 (LMM) (Zhu 等人 2023；Alayrac 等人 2022；Bai 等人 2023；Liu 等人 2024a) 在跨模态理解和视觉语言对齐方面取得了显著进步。

最近，一些研究 (Lai 等人 2024；Xia 等人 2024) 探索了能够生成像素级分割掩码作为对用户查询的响应的基于指令的 LMM。最近的研究 (Rasheed 等人 2024；Zhang 等人 2024a) 集中于基于语境对话生成 (GCG)，该方法旨在将对话中出现的主要对象进行语境化。尽管这些方法 (Zhang 等人 2024a；Lai 等人 2024；Xia 等人 2024；Ren 等人 2024) 集成了能够进行全景分割的强大分割模型，但它们在为图像中的所有实例生成掩码-文本对齐的响应方面仍然存在困难，导致全景分割性能有限。图 2 (a) 显示了 GLaMM 在掩码和文本响应中都忽略了网球拍、网球和麦克风的情况。此外，这些模型仅具备在实例级别描述图像并生成与输出文本对齐的相应实例掩码的能力。因此，即使提供了详细的文本提示，这些模型也很难感知精细的对象，例如图 2 (b) 中球员的帽子、腕带和裙子。以上能力的缺失将限制 LMM 的普遍性和理解能力。

为了克服这些限制，我们引入了多粒度 LMM (MGLMM)，它能够根据用户指令无缝调整分割和字幕 (SegCap) 的粒度，从全景 SegCap 到精细 SegCap。具体来说，对于需要描述图像整体内容的查询，MGLMM 输出带有字幕的精确全景分割掩码，提供对整个图像的粗粒度理解。对于需要描述图像中某个特定对象的指令，MGLMM 可以生成详细的响应，包括对象子部分的分割掩码以及相应的描述，从而揭示目标对象的组成部分。我们将这样的任务称为多粒度 SegCap (MGSC)，它评估从粗粒度到精细粒度的渐进认知能力。总体而言，MGLMM 在解决超过八个下游任务方面表现出色，例如全景 SegCap、精细 SegCap、GCG 以及多个和空分割，如图 1 和表 1 所示。

观察到社区中缺乏用于训练和评估 LMM 以执行 MGSC 任务的基准，我们建立了一个新的基准，名为 MGSCData，它使用定制的自动标注管道在多粒度中对齐了掩码和字幕。它包含 10,000 张图像和超过 30,000 对图像-问题对，涵盖了全景和细粒度分割。更具体地说，该数据集包含超过 300,000 个分割掩码，每个掩码都标注有语义标签和相应的详细描述。 MGSCData 有效地促进了在多粒度中关联物体概念和视觉特征的能力的训练和评估。我们将发布 MGSCData，并期望它能造福学术界。

除了基准测试外，在跨粒度统一分割任务中的另一个关键挑战在于查询和输出的格式和语义级别存在显著差异。通常，现有研究直接将不同任务的异构数据纳入模型训练，忽略了任务差异，并进一步复杂化了多模态对齐。为了解决这个问题，我们提出了统一 SegCap 数据格式 (USCDF) ，以在训练期间明确指导模型学习不同粒度中物体概念和分割掩码之间的对齐关系。具体而言，USCDF 统一了不同分割任务的输出格式，弥合了它们之间的差距，并降低了模型进行多任务学习的难度。图 3 的右侧说明了统一数据格式在包括多引用推理、全景 SegCap 和细粒度 SegCap 在内的任务上的实例化。实验结果表明 USCDF 有利于多任务学习和视觉-语言学习。我们还在各种基准测试中评估了 MGLMM。实验表明，它在六个基准测试中取得了最先进的结果。

在这里插入图片描述

图 2： GLaMM 和我们的 MGLMM 的定性比较。请参考附录 A 获取更多详细信息。

总之，我们的工作有四个主要贡献：

我们提出了 MGLMM，这是第一个能够在多粒度分割和标题之间无缝切换的模型，特别是包括全景和细粒度分割和标题。
我们介绍了一个新的基准 MGSCData 来训练和评估 LMMs 的多粒度分割和标题的能力，其中包含超过 30K 个高质量的图像-问题对。
我们提出了一种统一的数据格式，它便于学习对象概念和多个粒度中的分割掩码之间的对齐关系。
我们在各种任务中取得了最先进的性能，包括 MGSC、GCG、图像标题、各种分割任务等。

表 1： MGLMM 与多个代表性方法的能力比较。这里，“通用分割” 包含语义分割、实例分割和全景分割；“推理分割” 需要模型根据涉及复杂推理的查询分割图像并提供相应的文本解释。

方法

图 3：左：MGLMM 的模型架构。右：提出的用于多任务学习的统一数据格式。

在本节中，我们介绍了 MGLMM 的模型架构，如图 3 所示。然后我们介绍训练过程中使用的统一 SegCap 数据格式。

模型架构

为了实现多粒度分割和字幕，我们利用两个基础模型来构建我们的模型：（1）一个 LMM 用于理解输入图像和用户指令并生成自然语言响应，以及（2）一个基于编码器-解码器架构的分割模型用于像素级视觉理解。

大型多模态模型。考虑到简单性和与先前工作 (Lai 等人，2024；Rasheed 等人，2024) 的一致性，LLaVA 成为我们的首选。具体来说，我们使用 CLIP 模型作为视觉编码器，表示为 ℱv，并结合 Vicuna-7B 模型作为基于解码器的 LLM，表示为 ℱl⁢l⁢m。如图所示。 3，视觉编码器负责从输入图像 xi⁢m⁢g 中提取视觉特征，之后应用一个投影器 ϕ 将提取的图像特征映射到 ℱl⁢l⁢m 的词嵌入空间。正式地说：

值得注意的是，投影器 ϕ 在将图像特征与语言模态对齐方面起着至关重要的作用。具体来说，它由两个带 GELU 非线性的线性层组成，并随机初始化。同时，文本输入由 ℱl⁢l⁢m 的分词器 T 编码为文本符元。随后，我们将图像符元 zi⁢m⁢g 和文本符元 zt⁢x⁢t 整合在一起，然后将其输入到 ℱl⁢l⁢m 中以生成最终的文本输出 yt⁢x⁢t，即，

遵循 LISA (Lai 等人，2024)，我们采用嵌入作为掩码范式来桥接这两个模块。在此范式中，模型的词汇表被扩展为一个专门的符元“‘[SEG]’”，旨在显式地激活分割模型的分割行为。当 LMM 想要根据用户指令生成分割掩码时，它将在输出序列 yt⁢x⁢t 中插入“‘[SEG]’”符元，以指示存在要分割的目标。例如：

分割模型。本工作采用 SAM (Kirillov 等人，2023) 作为我们基础分割架构，因为它具有广阔的像素级建模能力。如图所示。 3，像素编码器

ℰp⁢i⁢x⁢e⁢l 使用冻结的 SAM 编码器实例化，而像素解码器 𝒟p⁢i⁢x⁢e⁢l 则从预训练的 SAM 解码器初始化。前者将高分辨率图像作为输入以提取细粒度的视觉信息，而后者则根据来自 LLM 的“‘[SEG]’”符元的嵌入生成所需的分割掩码。具体来说，我们选择与“‘[SEG]’”符元 y^t⁢x⁢t⁢([S⁢E⁢G]) 相对应的输出嵌入 z^s⁢e⁢g，并使用投影器 ψ 将其转换为解码器的特征空间。值得注意的是，投影器 ψ 的结构和初始化与投影器 ϕ 的结构和初始化相同。整个过程可以表述为：

图 4：我们提出的数据自动标注管道的概述。由于空间限制，图中没有显示详细的标题。请参阅附录。B 获取详细版本。放大后效果最佳。

统一 SegCap 数据格式的设计

大多数现有研究主要通过直接扩展相应的任务数据集，将各种像素级分割能力集成到 LMM 中。例如，在引用分割中，查询可能是一个需要返回分割掩码的短语。相反，在推理分割中，查询可以是更长的句子或问题，其中目标可能不存在，需要答案以及分割掩码。在不同的分割任务中，查询的形式和语义各不相同。在这种情况下，模型必须在训练期间自适应地将潜在目标的语义概念与视觉特征对齐，这无疑会增加模型学习的负担。因此，我们提出了一种统一的 SegCap 数据格式来利用这些数据，明确地指导模型朝着改进的视觉语言对齐方向发展。通过这种方式，我们统一了不同分割任务的输出格式，弥合了它们之间的差距，降低了模型进行多任务学习的难度。具体来说，除了 ‘[SEG]’ 符元之外，我们还在 LMM 的词汇表中引入了大语言模型 (LLM) 需要使用 ‘[SEG]’ 激活分段行为，同时用以下是多引用分段的数据格式示例：

这里，表示图像符元的占位符。 {obj-n} 表示相应分段目标的语义描述。

与之前的工作相比，这种统一的数据模式使模型能够在训练期间明确地学习对象概念和分段掩码之间的对齐关系。尽管 GLaMM (Rasheed 等人，2024) 采用了类似的格式，但它仅用于其提出的 GCG 任务。相反，我们对所有任务都使用这种统一的模式，通过最小化任务之间输出格式的差异来减少建模负担。在图中。 3，我们在推理和多粒度分段等任务上展示了我们统一的数据格式。值得注意的是，在训练阶段，我们将一些现有的开源数据集的标注格式转换为我们提出的统一数据模式，因为它们不符合我们的要求。有关此过程的更多详细信息，请参阅附录。C。

数据标注流程

现有的大多数分段数据集都专注于实例级对象，虽然 SAM 数据集提供了细粒度的分段掩码标注，但它缺乏相应的文本描述。因此，为了解决评估多粒度分段和字幕模型的基准不足的问题，我们提出了一项名为 Multi-Granularity SegCap 的新任务。为了建立这个基准，我们提出了一种自动标注流程，它使我们能够利用 LMM 的能力，特别是 GPT-4 和 Qwen-VL 系列，进行数据标注。在下一节中，我们将介绍我们的自动标注流水线，该流水线旨在无缝地转换任何分割数据集。此流水线包含三个主要步骤，如图 4 所示。第一步侧重于为每个被遮蔽的目标生成简短标题和详细标题，被称为目标标注。随后，第二步根据分割掩码构建树关系。第三个步骤通过利用子树不同级别的原始数据来组织不同级别的粒度信息。因此，我们实现了多粒度分割和标题标注，这些标注展示了视觉和文本概念之间的高度一致性。由于 SAM (Kirillov 等人，2023) 数据集提供了数亿张高质量图像和细粒度分割，因此我们在 SAM 数据集上执行了我们的自动化流水线。

目标标注

在步骤 1 中，关键点是为图像中的每个目标生成简短标题和详细标题。简短标题用作目标的语义表示。详细标题是目标的全面且语义丰富的文本表示，主要用于提供参考表示，以限制 LMM 的发散和随机性。在实践中，我们利用 GPT-4o 创建指令遵循数据来生成每个被遮蔽对象的语义标签。

掩码树构建

在获得每个目标的语义标签后，我们需要组织图像中每个目标之间的层次关系。我们发现，目标之间的层次关系可以通过掩码之间的交并比 (IoU) 关系有效地反映出来。因此，我们将整个图像表示为根节点，然后根据掩码之间的包含关系扩展树。此外，在 SAM 数据集中，单个图像中存在大量掩码标注，其中许多标注共享相同的语义标签。例如，在一栋有许多窗户的建筑物中，每个窗户都用一个带有相同简短标题的单独掩码表示。对于共享相同父节点的这些节点，我们将这些节点及其掩码合并。通过这种方式，我们获得了简单且分层的树，并显著缩短了结果文本标注的长度。

在这里插入图片描述

表 2: MGLMM 与其他 LMM 在文本描述和像素级理解能力方面的全面比较。 “-” 表示该方法不处理此任务。

稠密上下文组织

多粒度标题的生成基于掩码树，掩码树提供每个目标的语义标签及其之间的层次关系。首先，我们利用根节点的子节点的语义标签来生成一个有序的文本输入，其中主要包含图像中的实例级对象，旨在为整幅图像创建粗粒度的标题。随后，我们将精心设计的提示、有序文本输入和图像连接起来，以提示 GPT-4o 并获得一个组织良好的描述，其中每个目标都以自然且连贯的顺序嵌入。我们对根节点下的每个子树应用相同的过程。特别地，我们使用子树的所有后代节点来构建一个描述，旨在获得特定目标的细粒度描述。通过这种构建过程，我们获得了与每个实例级目标对齐的描述的全景分割掩码，以及与每个图像中特定目标对齐的描述的细粒度分割掩码。

通过这种方式，我们标注了 10K 个 SAM 图像，这些图像本身就具有多样性，并表现出多粒度。结果数据集包含 30K 个对话，包含超过 45M 个符元，总计超过 300K 个分割掩码，每个掩码都附带一个简短的语义标签和一个详细的标题。有关管道和数据集的更多详细信息，请参阅附录 B。

实验

实验设置

数据集。为了实现 MGLMM 的所有功能，我们的训练数据集由六部分组成：(1) 语义分割：包括 ADE20K(Zhou 等人 2019)、COCO-Stuff (Caesar、Uijlings 和 Ferrari 2018)、Maplilary Vistas (Neuhold 等人 2017)、PACO-LVIS (Ramanathan 等人 2023) 和 PASCAL-Part (Chen 等人 2014)；(2) 引用分割：包括 RefCLEF(Jing 等人 2021) 和 RefCOCO 系列 (Yu 等人 2016)；(3) 图像级字幕：包括 COCO Caption(Chen 等人 2015)；(4) 视觉问答：包括 LLaVA-150k(Liu 等人 2024b) (5) 基于语境的对话生成，包括 GranDf。此外，我们还使用了来自 Grounding-anything Dataset (GranD) 的大约 400 万张字幕和引用分割数据 1 数据集由 GLaMM (Rasheed 等人 2024) 发布，该数据集在 SAM (Kirillov 等人 2023) 图像上自动标注。 (6) 多粒度 SegCap，包括我们提出的 MGSCData。

实现细节。在我们的实验中，我们使用 Vicuna-7B 作为 LLM 的结构，除了某些消融实验。我们在 16 个 Tesla A100 GPU (80GB) 上训练我们的模型，迭代次数为 30,000 次，每个设备的批次大小为 16。除非另有说明，否则模型采用联合训练设置进行训练，不进行额外的特定于任务的微调。遵循先前的工作，我们应用 CE 损失来模拟文本生成，应用 BCE 和 DICE 损失来监督高质量掩码预测。更多实现细节，特别是关于 LORA 微调、优化器、超参数设置和训练目标的信息，可以在附录 D 中找到。

表 3： MGSC 和 GCG 的性能比较。遵循 GCG 的评估协议，我们报告了包括 METEOR (M)、CIDEr ©、AP50、mIoU 和 Mask Recall (MR) 在内的指标。

与最先进技术的比较。如表 2 所示，我们将我们的 MGLMM 与其他代表性方法在各种任务上进行了比较，并在所有任务上都取得了最佳效果。然后，我们在以下六个基准上评估了我们 MGLMM 的有效性。此外，我们将在附录中提供更多关于实验结果的讨论。 E.

多粒度 SegCap。 MGSC 的目的是评估无缝调整分割和字幕粒度的能力。遵循相同的设置，我们在 MGSCData 的训练集上对 GLaMM 和我们的 MGLMM 进行了微调，并在相同的指标上对其进行了评估。如表 3 所示，我们在每个指标上都优于 GLaMM，证明了我们的 MGLMM 在多粒度 SegCap 中的出色能力。

基于图像的对话生成 (GCG)。遵循 GLaMM，我们在 GranDf 数据集上对我们的模型进行了微调。如表 3 所示，我们的 MGLMM 在图像描述和像素理解能力方面都优于其他方法。值得注意的是，尽管与 MGLMM 相比，GLaMM 在预训练阶段使用了更多训练数据，但后者仍然优于前者，特别是在 CIDEr 和 Mask Recall 分数方面。

表 4: 指代和推理分割基准测试的性能。该表仅显示了指代分割的 cIoU 值。 MGLMM† 表示指代分割数据集仅在预训练阶段使用。

指代分割。表 4 将我们的 MGLMM 与三个代表性数据集上的当前最先进模型进行了比较。在表 4 中，我们在 refCOCO/+/g 验证集和测试集上取得了显著的领先优势，超越了 GLaMM 和 OMG-LLaVG 等最新作品。值得注意的是，即使在指代分割数据集上没有任何微调（表 4 中的 MGLMM†），我们的方法仍然在所有基准测试的验证集上超过了 GLaMM。

表 5：使用 cIoU 和 gIoU 度量对广义指代表达式分割进行性能比较。 LISA† 和 GSVA† 在预训练阶段仅使用 gRefCOCO 数据集，而 MGLLM 执行零样本学习。

广义指代分割和推理分割。结果如表 5 所示。与零样本设置中的最先进方法 PSLAM (Zhang et al. 2024b) 相比，我们的 MGLMM 在 cIoU 和 gIoU 方面分别实现了 6.0% 和 6.5% 的平均提升。值得注意的是，MGLMM 在所有情况下甚至都优于 LISA†，LISA† 在预训练阶段中包含了 gRefCOCO。对于推理分割，我们使用 ReasonSeg 数据集 (Lai et al. 2024) 的验证集作为基准测试。从表 4 中报告的结果可以看出，MGLMM 的推理能力超过了其他方法。

表 6: 图像级字幕的性能比较。

图像级字幕。为了研究这种能力，我们在 Flickr-30K (Plummer 等人，2015) 上对 MGLMM 进行微调，并在 Flickr-30K 和 NoCap (Agrawal 等人，2019) 上进行评估，其中后者可以被认为是零样本场景。如表 6 所示， MGLMM 在多个指标上优于同类模型 GLaMM。

表 7: 消融研究结果。对于 refCOCO+，我们使用 cIoU 作为指标。 ‘C’ 表示 CIDEr 分数。我们使用 Llama2-13B 作为 LLM 的结构来实现 MGLMM-13B。

消融研究

为了进行彻底的消融研究，我们使用两个代表性基准评估了 MGLMM 的不同变体，即，引用分割和 GCG，这可以证明模型理解像素级细节和提供图像描述的能力。有关更多详细信息，请参阅附录。E。

USCDF 的有效性。与表 7 中的第一个变体相比，使用 USCDF 的 MGLMM 在具有挑战性的 regCOCO+ 基准上获得了超过 2% 的改进。第三个和第四个变体之间的性能差异是显著的，因为 GranD 是其他预训练数据的四倍大，这进一步放大了 USCDF 的收益。

GranD 数据集的影响。为了研究额外 GranD 数据集对 MGLMM 的影响，我们进行了不使用 4M GranD 样本的实验。通过比较表 7 中的第 2 和第 4 种变体，我们可以发现 GranD 数据集带来了收益。尽管没有使用 GranD，我们的 MGLMM 在大多数情况下仍然优于 OMG-LLAVA 等模型，仅次于 GLaMM，后者在预训练阶段使用了十倍以上的数据。

结论

我们提出了 MGLMM，这是第一个能够根据用户指令无缝调整分割和字幕粒度的模型。认识到分割和字幕数据集和基准的多粒度缺乏，我们引入了新颖的基准 MGSCData 来训练和评估 LMM 的多粒度分割和字幕能力，该基准包含超过 30K 个高质量的图像-问题对。为了便于在各种分割任务中将对象概念与视觉特征对齐，我们提出了一个统一的数据格式。我们的模型在解决超过八个下游任务方面表现出色，并且优于各种基准。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述