【读点论文】Enhancing Multimodal Large Language Models with Vision Detection Models: An Empirical Study

最新推荐文章于 2025-03-06 13:10:40 发布

羞儿

最新推荐文章于 2025-03-06 13:10:40 发布

阅读量1.1k

点赞数 15

分类专栏：论文笔记文章标签：语言模型人工智能自然语言处理

本文链接：https://blog.csdn.net/weixin_43424450/article/details/140698099

版权

论文笔记专栏收录该内容

166 篇文章

订阅专栏

Enhancing Multimodal Large Language Models with Vision Detection Models: An Empirical Study

Abstract

尽管多模态大型语言模型 (MLLM) 在整合文本和图像模态方面具有令人印象深刻的能力，但在准确解释详细的视觉元素方面仍然存在挑战。本文介绍了一项实证研究，旨在使用最先进的 (SOTA) 物体检测和光学字符识别 (OCR) 模型增强 MLLM，以提高细粒度理解并减少响应中的幻觉。我们研究了基于嵌入的文本检测信息的注入、这种注入对 MLLM 原有能力的影响以及检测模型的可互换性。我们对 LLaVA-1.5、DINO、PaddleOCRv2 和 Grounding DINO 等代表性模型进行了系统而广泛的实验，结果表明，我们简单而通用的方法不仅可以提高 MLLM 在细粒度视觉任务中的表现，而且还保持了它们原有的优势。值得注意的是，增强版 LLaVA-1.5 在所有 10 个基准测试中均优于其原始 7B/13B 模型，在标准化平均得分上实现了高达 12.5% 的提升。我们发布代码是为了进一步探索 MLLM 的细粒度多模态能力。
论文地址：[2401.17981] Enhancing Multimodal Large Language Models with Vision Detection Models: An Empirical Study (arxiv.org)

Introduction

大型语言模型 (LLM) 的出现标志着自然语言处理的新纪元，为融合语言和视觉理解的多模态大型语言模型 (MLLM) 的发展奠定了基础。GPT4V 等先驱者引领了这一潮流，在众多任务中展示了非凡的熟练程度。尽管取得了成功，但这些模型在辨别和准确响应有关图像中精细细节的查询方面仍然存在差距。当 MLLM 生成的响应与图像内容一致但不一致时，这种不足尤为明显，这种现象通常被称为“幻觉” 。
与人类交流类似，在交流中，引用对象的特异性是清晰度的关键，MLLM 可以从提高识别图像中对象和文本的精确度中获益。为此，一个有希望但尚未得到充分探索的研究方向是利用最先进的 (SOTA) 对象检测和光学字符识别 (OCR) 技术来缓解幻觉。
当代物体检测和 OCR 模型在精确描绘图像中的物体和文本方面的能力已得到充分证实。在本文中，我们假设它们的输出可以作为提高 MLLM 对图像的细粒度理解的基础，并研究如何有效地注入这些信息。基于主页中对 LLaVA-1.5 、DINO 、PaddleOCRv2 和 Grounding DINO 等代表性 SOTA 模型的实验分析，以及附录中对 Qwen-VL 和 YOLOv8 的实验分析，我们系统地解决了以下问题：
- (1) 如果我们直接将检测信息输入 MLLM 会怎么样？使用检测信息增强 MLLM 的一个直接方法是将检测到的目标的文本表示直接输入模型，而无需额外训练，利用原始 MLLM 预先存在的语言理解能力。我们的实证研究首先关注这种方法。有趣的是，结果显示，虽然 LLaVA-1.5 的 7B 变体显示出适度的增益，但 13B 变体却恶化了，这强调了需要进行额外的模型训练。
- (2) 使用检测信息进行训练是否会损害 MLLM 的原有能力？由于在 MLLM 上应用上下文学习会导致输入序列过长，因此我们选择采用基于训练的方法来指导模型识别检测信息。我们通过实证研究证明，使用检测信息重新训练 LLaVA-1.5 可以增强其理解检测结果的能力，但对这些新信息的依赖可能会掩盖 MLLM 利用 ViT 特征的原有能力，导致 MLLM 在细粒度理解之外的能力下降。然后，我们进一步探索合适的微调策略，并展示如何有效地协调这些受影响的能力。
- (3) 如果我们替换检测模型会怎样？杠杆检测模型的特性和性能会影响增强型 MLLM 的有效性。我们研究了用开放集物体检测模型 GroundingDINO 替换 DINO 的情况。结果显示 MLLM 得到了进一步增强，具有在推理过程中动态将物体检测与用户查询上下文对齐的新功能。结果还强调了所研究的融合方法的稳健性，因为增强型 MLLM 在替换检测模型后仍然功能齐全、效果显著，为未来更强大的检测模型留下了巨大的潜力。
因此，我们的实验证实了检测模型融合的价值，并提供了一些实用见解，我们增强的 LLaVA-1.5 在所有 10 个基准测试中的表现都显著优于其原始模型，在多模态理解方面取得了显着的进步。如下图所示，增强模型有效减少了幻觉，并在计数和定位任务中展现出增强的功效。对于 OCR 任务，它还可以产生更准确的响应。
- LLaVA-1.5-13B 失败而我们的包含检测信息的模型 (FTBI-13B) 成功的示例。“检测”表示来自 OD/OCR 模型的已处理检测信息。附录 A.1 的图 5 中提供了更多示例。
我们的贡献可以总结如下：
- 我们对将对象检测和 OCR 模型集成到 MLLM 进行了彻底的实证研究，特别关注注入策略。此外，我们探索了开放集检测器的替换，以实现问题驱动的检测，并验证了我们的方法在替换检测模型后是否具有持续的有效性。
- 基于所获得的见解，我们开发了一种简单但通用的细粒度图像理解方法，在 10 个综合 MLLM 基准测试中，该方法分别将 LLaVA-1.5 在 7B 和 13B 大小下的整体改进提高了 12.5% 和 11.5%。
- 我们的代码通过匿名链接公开，以方便进一步研究，我们希望为参与更细致入微、更准确的多模式对话的系统铺平道路。

Related Works

Multimodal Large Language Models (MLLMs)

大型语言模型 (LLM) 主要用于基于文本的任务。为了整合视觉信息，模态桥接模块已被开发出来以协调文本和图像之间的表征差异。通常，它们有三种类型：
- 首先，使用可学习查询从图像特征中提取信息。例如，Flamingo 的感知器重采样器和 IDEFICS 的类似模块使用可学习查询来提取 ViT 特征。BLIP-2 将可学习查询与 Q-Former 模块结合使用，而 Qwen-VL 使用交叉注意层将视觉特征压缩为固定长度的序列。
- 其次，使用基于投影的接口来桥接模态。值得注意的模型如 LLaVA 和 LLaVA-1.5 使用简单的线性层将图像特征映射到文本语义空间。
- 最后，使用参数高效的调整模块。LLaMA-Adapter 引入了零门控的自注意层，而 LaVIN 则采用了特定于模态的适配器。
在主页中，我们展示了 LLaVA-1.5 的实验结果，因为它的架构与大多数当前 SOTA MLLM 一致，因此它是一种合适的表示。附录 D.1 中提供了更详细的讨论和实证支持，我们还对另一个 MLLM Qwen-VL 进行了实验，并获得了具有类似趋势的结果以验证我们的结论。

Enhancing Detection Capabilities for MLLMs

对于为图像任务设计的模型，检测和定位目标的能力至关重要。为了提高 MLLM 的检测能力，通常会探索三类方法：
- 第一类是用现有的物体检测或 OCR 数据扩展数据集。InstructBLIP 使用来自 26 个数据集的数据，涵盖 11 个任务，包括 OCR 数据。Shikra 整合了物体检测数据集 RefCOCO 和 PointQA，并使用 GPT-4 和 Flickr30K 生成更多相关数据。ASM 引入了 1B 区域-文本对。LLaVA 和 SPHINX 编译了混合指令微调数据集，包括物体检测数据集 RefCOCO、VG 和 OCR 数据集 OCRVQA 。PINK 采用引导方法来覆盖一系列参考理解数据集。
- 第二类是重构图像编码器以提取细粒度特征。LION 引入了一个名为 Vision Aggregator 的模块用于特征聚合。Honeybee 使用可变形的基于注意的抽象器和初始化的参考点来捕获细粒度的细节。 UReader 采用形状自适应裁剪模块和可学习查询来处理局部图像特征。Vary 开发了专用的图像编码器用于文本识别。虽然这些方法可以增强 MLLM 的检测能力，但它们通常需要大量数据来训练补充模块。
- 第三类是将检测模型引入 MLLM 的输出端，以训练 MLLM 或执行检测任务。UNIFIED-IO 将图像、文本和检测特征统一为离散标记，并训练能够检测的端到端 MLLM。ContextDET 训练视觉解码器，用于使用上下文 LLM 标记预测边界框。Lenna 、Lisa 和 Next-chat 引入了额外的标记来提示检测器识别目标。与第二类类似，这些方法也需要大量数据来实现特征对齐。
与它们不同的是，我们选择不扩展数据集或引入新的架构。相反，我们使用与要注入的目标 MLLM 相同的数据集和架构，并使用现成的检测模型将文本检测信息注入 MLLM 的输入端。这样做可以让 MLLM 以最小的训练工作量实现强大的性能，正如我们的实验所示。

Investigation Methodology for Detection Models Infusion

Motivational Observation

现有的 MLLM 经常在准确检测目标方面遇到困难。以 LLaVA-1.5 为例；尽管它在各种视觉语言任务中表现出色，但它并非万无一失。如上图所示，LLaVA-1.5 误算了一群羊，这表明其物体计数能力存在局限性。此外，LLaVA-1.5 无法检测到被电线杆部分遮挡的街道上的行人，凸显了其物体定位能力的弱点。在另一个场景中，LLaVA-1.5 错误地将车牌号“87025”识别为“547”，暴露了其文本识别功能的缺陷。
相比之下，SOTA 对象检测和 OCR 模型在这些任务中表现出色。如上图所示，检测模型可产生精确的“检测”注释。受当前 MLLM 的局限性的启发，我们旨在探索将现成的检测模型融入 MLLM。下一节详细介绍了我们对有效融合策略的实证研究。

Studied Model Architecture

基于文本的检测信息构建。借助对象检测模型，我们可以提取已识别对象的类标签和边界框坐标信息。我们在主页上展示了一个流行且先进的模型 DINO 的结果作为代表。具体来说，我们首先将 DINO 的输出转换为文本。为了减少句子长度，我们从边界框坐标中选择前两个值作为位置信息，它们代表相应对象的中心坐标。然后，我们将同一类别中的对象合并，进一步缩短长度，同时充当计数器。最后，我们在类别和坐标信息之前添加一个指令句来创建最终句子，其示例如下：“这是此图像中某些对象的中心坐标：2 个人：{[0.25, 0.12], [0.11, 0.43]}，1 个蛋糕：{[0.42, 0.32]}。”
利用 OCR 模型，我们可以提取图像中的文本内容及其对应的位置信息。在主页中，我们采用 PaddleOCRv2 作为代表，这是一个轻量级的 SOTA OCR 系统。与对象检测类似，我们从 OCR 结果中提取文本内容和对应的中心坐标，将其处理为文本形式，然后添加一个指令句以获得最终的句子，例如，“这是此图像中某些文本的中心坐标：‘生日’[0.41, 0.85]，‘年份’[0.11, 0.34]。”
附录A.2给出了包含更多图片的具体示例。此外，在附录B.1中，我们对提取的文本长度进行了统计分析，表明这种简单易行的构造方法在压缩文本长度的同时，有效地表达了有用信息。
MLLM 架构。下图以 LLaVA-1.5 为例，展示了我们研究的模型在不同设置下的整体架构，作为要注入的目标 MMLM。首先，使用 CLIP-ViT-L-336px 提取图像级特征，并使用两层 MLP 将这些特征映射到文本语义空间。随后，我们分别使用 DINO 和 PaddleOCRv2 获得对象检测和 OCR 结果。然后使用上述方法将这些结果转换为句子，并使用主干 LLM 的嵌入层转换为文本特征。接下来，我们将图像级特征和检测特征连接起来，然后将它们输入主干 LLM。因此，MLLM 可以在训练和推理过程中同时获得整体图像信息和细粒度图像细节。
- 图为所研究的 MLLM 架构的图示，该架构使用不同的策略来注入检测信息。“(LLaVA-1.5)”表示使用来自 LLaVA-1.5 的权重进行模块初始化。

Studied Infusion Strategies

除了模型架构之外，训练策略在检测模型融合中也起着至关重要的作用。我们设计了一系列实验，以确定模型训练方面的有效融合策略。我们在这里提供了简要的介绍，并在附录 B 中提供了更多实施细节。
无需训练的融合 (TFI) ，对于第一个融合策略，我们直接将检测信息输入目标 MLLM（此处为 LLaVA-1.5），无需任何额外训练。如上图 (a) 所示，我们使用与目标 MLLM 相同的模型结构和参数，唯一的区别是补充输入了我们的检测信息（如第 3.2 节所述）。
基于再训练的注入 (RBI) ，对于第二种融合策略，我们使用目标 MLLM 的训练管道从头开始训练我们的模型。如上图 (b) 所示，我们首先初始化 MLP 模块并使用 LCS-558K 数据集对其进行预训练。随后，我们将 LoRA 模块引入主干 LLM Vicuna-1.5 。之后，我们在指令微调过程中使用目标 MLLM 的原始指令跟踪数据集训练 LoRA 模块和 MLP 模块，其详细信息在附录 B.2 中提供。在整个训练过程中，我们不断注入检测信息。
基于微调的融合 (FTBI) ，对于第三种融合策略，我们对目标 MLLM 进行微调。如图 © 所示，我们冻结目标 MLLM 的 MLP 模块和主干 LLM 的权重。随后，我们将 LoRA 模块引入 LLM，并使用目标 MLLM 的原始指令跟踪数据集对 LoRA 模块进行单个 epoch 训练，同时注入检测信息。

Quantitative Evaluation Settings

我们在主页中使用 10 个基准来评估不同的 MLLM 功能：VQAv2 、GQA 和 MME 测量综合 VQA 能力；MMBench 和 SEEDBench 评估感知和推理能力；TextVQA 评估文本识别能力；MM-Vet 评估利用本地信息管理复杂任务的能力；POPE 测量细粒度对象定位能力。由于 GQA 基准的文本精确匹配评估设置，它往往会低估性能，我们使用一个保留明确问题的子集，表示为 GQA∗。GQA∗ 的详细信息见附录 E.1。
为了进行更全面、更方便的比较，我们采用所有考虑的基准的汇总分数。具体来说，我们首先将每个基准的分数标准化为 $s_{norm} = (s − s_{min})/(s_{max} − s_{min})$ ，其中 s 表示原始基准分数，smin 和 smax 分别表示所有考虑方法的最低分数和最高分数。随后，我们计算所有基准的 snorm 平均值并将其表示为 snorm。由于空间限制，基准名称缩写为：VQAv2 为 VQA-v2，VQAT 为 TextVQA，MMB 为 MMBench，MMBCN 为 MMBench-Chinese，SEED 为 SEED-Bench，MMEP 为 MMEPerception，MMEC 为 MME-Cognition。

Main Results and Analysis

Lesson 1: Original MLLMs Struggle with Comprehending Detection Information

最初，我们直接将检测信息输入到原始的LLaVA-1.5中，目的是观察原始的LLaVA-1.5是否能够理解我们输入的检测信息。我们将这种融合策略称为“无训练融合”（TFI），如第3.3节所述。
OD/OCR 任务上的性能改进。结果如下表所示。我们可以看到，TFI-7B 在某些基准上表现出部分增强，而 TFI-13B 则表现出明显的下降。两种模型在评估物体幻觉的 POPE 基准上都表现出显着的改进，表明注入的物体检测信息对物体检测任务很有帮助。此外，它们在 MME-Cognition 基准上表现出强劲的性能，其中包含许多与图像中的文本相关的问题，这表明 OCR 信息也显示出功效。
- “无训练输注”（TFI）模型与LLaVA-1.5的比较。
其他任务上的性能下降。然而，其他基准测试的得分波动很大，这意味着我们的模型对检测信息的利用存在不足。经过仔细分析，我们认为检测信息的注入引入了无关内容，这些内容会成为噪音，从而对推理准确性产生不利影响。因此，我们继续训练模型，帮助它更好地从检测信息中提取有用信息并消除噪音。

Lesson 2: Detection Re-Training has Adverse Effects on Comprehending ViT Feature

研究人员通常使用情境学习 (ICL) 来指导 LLM 识别特定的输入格式。然而，对于 MLLM，ICL 变得困难，因为它要求 MLLM 处理结合 token 格式的图像特征的长输入序列。因此，我们选择不使用 ICL 进行 MLLM 训练，而是采用基于训练的方法，并转向第 3.3 节“基于再训练的注入”(RBI) 中介绍的第二种融合策略。在这个策略中，我们使用其原始训练管道重新训练 LLaVA-1.5，同时注入检测信息。
相对于 LLaVA-1.5 和 TFI 的性能改进。如下表所示，RBI 模型在多个基准测试中都优于 LLaVA-1.5，尤其是 7B 变体。值得注意的是，它们在综合基准测试 MMBench 和 Seed-Bench 上表现出色，并且在评估物体幻觉的 POPE 基准测试中显示出 4% 的改进。与文本识别相关的 MMECognition 和 TextVQA 也取得了显著的进步。
- “基于再训练的输注”（RBI）模型与 LLaVA-1.5 的比较。
RBI 对 ViT 特征理解的不利影响。RBI 模型并未在所有基准测试中都表现出改进。在 VQAv2、GQA∗ 和 MME 上，出现了明显的下降。我们推测意外结果是由于过度注入对模型学习如何利用 ViT 特征的能力产生了负面影响。因此，我们随后评估了未应用任何检测信息的 RBI 模型的性能。这样，它们的基准分数仅与 ViT 特征相关。如下表所示，当前模型与 LLaVA-1.5 相比表现出明显的性能滞后，这表明 RBI 策略确实会影响 MLLM 学习如何使用从 ViT 中提取的图像特征，需要进一步改进融合策略。
- 推理过程中没有检测信息（w/o DI）的 RBI 模型的性能。

Lesson 3: Suitable Fine-tuning Achieves Good Trade-off for Detection Infusion

为了增强模型在 ViT 特征和检测信息之间做出明智权衡的能力，对于第三种融合策略，我们利用 LLaVA-1.5 训练良好的参数并在此基础上对我们的模型进行微调。我们将这种融合策略称为“基于微调的融合”，简称 FTBI。
相对于 LLaVA-1.5 和 RBI 的性能改进。如下表所示，FTBI 的 7B 和 13B 模型均表现出优于 LLaVA-1.5 的性能。同时，如附录 C.2 所示，当未注入检测信息时，FTBI 模型与 RBI 模型相比表现出显着的改进，表明微调策略有效地在 ViT 特征和检测信息之间进行了权衡。
- 在 10 个基准上比较“基于再训练的注入”（RBI）模型、“基于微调的注入”（FTBI）模型和 SOTA 方法。我们的 FTBI 方法有效地将检测信息注入 LLaVA-1.5，从而显著提高了所有 10 个基准的性能。snorm 是所有考虑的基准的汇总性能指标。粗体和下划线结果分别表示最佳和第二佳性能。 MME 表示 MMEP 和 MMEC 的总和，详细信息见附录 E.2。
所有任务上的性能改进。经过详细分析，我们发现 FTBI 模型在综合 VQA 基准（例如 VQAv2、GQA∗ 和 MME）上表现出明显的改进。在评估感知和推理能力的基准（例如 MMBench 和 SEED-Bench）上，模型的性能得到了明显的增强。此外，对象检测信息的注入显著提高了 POPE 基准（评估对象幻觉）和 MM-Vet 基准（衡量利用本地信息的能力）上的性能。由于注入了 OCR 信息，这些模型在 TextVQA 和 MME-cognition 等文本相关基准上也表现出了值得称赞的性能。最后，在聚合性能指标标准上，FTBI 模型明显优于 LLaVA-1.5 和其他考虑的 SOTA 模型，凸显了我们方法的显著有效性。
案例研究。在上文图 1 中，我们列出了 LLaVA-1.5 给出错误答案而我们的模型给出正确答案的示例（更多示例见附录 A.1）。通过对象检测，我们的模型有效地实现了精确计数并描绘出指定对象的相应位置。通过 OCR，我们的模型能够根据定位要求熟练地生成文本内容。此外，我们的模型可以使用对象检测信息来完善对特定对象所传达信息的理解。例如，当模型辨别出图像中时钟的位置时，它可以更有效地提取时钟上显示的内容，从而获取正确的时间。

Lesson 4: Detection Models Can be Flexibly and Effectively Replaced

DINO 是一个闭集物体检测模型，无法处理包含不常见物体或特定实体（例如某些名人和带有属性修饰语的物体）的图像。幸运的是，我们的模型是模块化的，这意味着我们可以灵活地替换嵌入式检测模型。此外，模块化结构使我们的模型在模块替换后仍能保留理解专门设计的检测信息的训练效果。
使用 Grounding DINO 构建检测信息。在本实验中，我们将用名为 Grounding DINO 的开放集物体检测模型替代嵌入式闭集检测模型 DINO。Grounding DINO 旨在检测与用户输入相关的物体。借助此模型，我们的模型可以通过引用问题中提到的物体名称来精确定位目标。为此，我们首先从输入问题中提取目标名称，然后将它们组合起来以创建提示。然后，Grounding DINO 按照提示生成目标的位置信息。最后，我们将输出转换为专门设计的检测信息。
更换检测模型后训练效果的继承。在表 5 中，我们比较了将检测模型 DINO 替换为 Grounding DINO 后 TFI-7B 和 FTBI-7B 的性能。我们使用 VQAv2、GQA∗、POPE、MM-Vet 和 SEED-Bench 进行评估，因为它们包含可以提取有效名词短语的问题。由于 Grounding DINO 的检测准确率较低，因此引入了一些噪音，导致两个模型的评估分数与 LLaVA-1.5-7B 相比有所降低。但是，由于 FTBI-7B 已经用 DINO 训练过并且可以滤除一些噪音，因此 FTBI-7B 的性能优于 TFI-7B。这些结果验证了我们更换检测模型后训练效果依然如旧。
- 采用Grounding DINO的TFI-7B与FTBI-7B的比较。
案例研究。在下图中，我们列举了 LLaVA-1.5 给出错误答案而我们的模型使用开放集物体检测信息产生正确响应的情况。虽然 Grounding DINO 可能会输出错误消息，但当其输出正确时，这些信息可以有效地帮助我们的模型。借助开放集物体检测信息，我们的模型可以更有目的地执行计数任务和定位任务，因为它可以利用问题中的目标名称来获取特定的位置信息。
- LLaVA-1.5 失败而我们的具有开放集对象检测信息的模型成功的示例。

Overview of More Experiments

对 FTBI 模型进行进一步实验和分析。在附录 C.1 中，我们在未注入检测信息的情况下对 LLaVA1.5 进行了微调，发现 FTBI 模型的出色性能主要归功于注入的检测信息，而不是额外的微调。在附录 C.2 中，我们在未注入任何检测信息的情况下评估了 FTBI 模型的性能，证实了 FTBI 策略能够熟练地利用 ViT 功能。在附录 C.3 中，我们分别展示了模型在仅利用对象检测信息和 OCR 信息时的性能。在附录 C.4 中，我们评估了模型的推理效率，表明即使注入了检测信息，我们的方法仍然有效，并且有可能通过模块替换和文本压缩策略进一步提高效率。
模型架构原理。在附录 D.1 中，我们讨论了 LLaVA-1.5 如何代表大多数高级 MLLM，这得益于它们的架构一致性和另一个 MLLM Qwen-VL 上的更多实证结果。在附录 D.2 中，我们展示了 DINO 和 PaddleOCRv2 对其他模型的代表性，这要归功于所提出的灵活格式，该格式允许我们将任何检测模型的输出处理成检测信息。此外，我们用另一个检测器 YOLOv8 替换了 DINO，得到了类似的实验结果。在附录 D.3 中，我们表明，与基于 MLP 或交叉注意训练的馈送方法相比，使用文本作为将检测信息馈送到 LLM 的桥梁通常可以获得更好的结果，而无需额外的数据。
模型性能和其他评估基准。在附录 E.1 中，我们详细说明了 GQA∗ 背后的动机以及对原始 GQA 基准的修改。在附录 E.2 中，我们提供了详细的 MME 基准分数。在附录 E.3 中，我们使用 VALSE 基准评估了我们的模型对特定语言现象进行分析的能力。在附录 E.4 中，我们探讨了基于基准重要性权重的聚合分数 $\bar s_{norm}$ 计算的变体。

Limitation and Future Work

检测模型的细化。我们模型的成功在很大程度上取决于所集成检测模型的准确性和可靠性。然而，现有的检测模型并非完美无缺，因为它们在遇到具有挑战性的问题时仍然会犯错误。例如，我们的模型在 TextVQA 基准上的改进并不十分显著，主要是因为 TextVQA 是一个场景文本数据集，而 PaddleOCRv2 在这样的数据上表现不佳。幸运的是，对象检测和 OCR 模型仍在快速发展。人们相信在不久的将来会出现高精度和快速的模型。因此，未来的工作可以探索开发和融合更先进的检测模型，以进一步改进 MLLM。
扩展标记序列。将检测信息注入标记序列会延长主干 LLM 的典型输入长度，可能会对推理速度产生负面影响。尽管如此，我们的统计调查显示，由于压缩提示，检测数据大多保持简洁。此外，人工智能硬件的进步，特别是人工智能芯片的快速发展，加上正在进行的扩大 LLM 上下文容量的研究工作，正在逐步缓解所施加的限制。未来的工作可以升级我们的 MLLM，以支持具有更长上下文窗口的 LLM，从而进一步提高性能。

Conclusion

在本文中，我们系统地进行了大量实验，以寻找将 SOTA 对象检测和 OCR 模型整合到 MLLM 中的有效策略。我们验证了利用文本作为注入检测信息的中介的有效性。经过彻底调查，我们确定，与无训练策略和再训练策略相比，对原始 MLLM 进行额外 epoch 的微调以及同时注入检测信息被证明是最有效的方法。此外，我们将检测模型从 DINO 替换为 GroundingDINO，并观察到更新后的模型继续正常运行并保留了训练效果。这凸显了我们模型的模块化结构，展示了它能够跟上不断发展的对象检测技术并获得持续的性能提升。
我们提供了如何将检测信息注入 MLLM 的指导。如果人们想要增强零初始化的 MLLM，他们可以考虑在整个训练过程中引入检测模块，以实现与 RBI 模型类似的效果。为了进一步提高性能，他们可以最初训练没有检测信息的模型，以开发强大的非细节相关能力。然后，他们可以引入检测模块并微调模型以开发视觉接地能力。如果人们的目标是增强预先训练的 MLLM，他们可以直接对模型进行额外的微调，同时注入检测信息。
简而言之，我们提供了一系列关于有效整合视觉检测模型以用于 MLLM 的渐进式见解，并推导出在计数、对象定位和文本识别等各种任务中表现出色性能的模型。通过这项工作，我们希望它能够有益于未来的 MLLM 研究和开发，从而更好地理解、解释和参与细粒度的多模态内容。

Appendix

我们在附录中提供了这项工作的更多细节和实验，并组织如下：附录 A，更多示范性例子：附录 A.1：我们提供了 LLaVA-1.5-13B 失败而我们的具有检测信息的模型 FTBI-13B 成功的示例。附录 A.2：我们提供了图像示例及其相应的检测信息，展示了如何构建检测信息。附录 B，实施细节；附录C，对FTBI模型的进一步实验和分析；附录 D，模型架构原理；附录 E，模型性能和附加评估基准；

A More Demonstrative Examples

A.1 Examples on which LLaVA-1.5-13B fails while FTBI-13B with detection information succeeds.

下图展示了 LLaVA-1.5 给出错误答案而我们的 FTBI-13B 给出准确答案的示例。展示的示例涵盖与物体计数、物体检测和文本识别相关的场景。
- LLaVA-1.5-13B 失败而我们的具有检测信息的模型（FTBI-13B）成功的示例。

A.2 Examples of Detection Information

检测信息的组成。“INS”、“obj/cls”和“pos”分别表示指令、检测到的对象/类名称和位置文本。
使用 DINO 和 PaddleOCRv2 生成的检测信息示例。

B Implementation Details

B.1 Length of Detection Information

由于边界框坐标的文本描述通常涉及大量数字，因此它们的标记序列通常很长。如第 3.2 节所述，我们设计了一些策略来简洁地表示检测到的对象和文本的空间信息，从而减轻了边界框描述的冗长性。通过关注中心坐标并合并同一类别中的对象，我们可以保持模型输入的简洁性和清晰度。
我们使用 LLaVA-1.5 指令跟踪数据集中的样本对检测信息的长度进行了统计分析。从表中可以看出，物体检测信息的平均长度为 118.5，OCR 信息的平均长度为 29.4。剔除空序列后，物体检测信息的平均长度上升到 125.1，而 OCR 信息的平均长度则为 97.5。因此，这些数字在可接受的范围内，不会过分影响训练和推理的效率。
- 检测信息的平均序列长度。
此外，我们观察到大约 0.6% 的物体检测信息长度超过 512，而大约 0.2% 的 OCR 信息超过 512 的阈值。换句话说，我们的压缩策略有效地缓解了长序列的出现。最后，为了确保输入序列的长度不超过 LLM 的最大上下文窗口长度，我们排除了长度超过 1,024 的物体检测或 OCR 信息。

B.2 LLaVA-1.5’s Instruction-following Dataset

LLaVA-1.5 的指令跟踪数据集是与各种任务相关的几个数据集的组合。其中，LLaVA 数据集和 ShareGPT 数据集包含高质量的 GPT-4 对话数据。VQAv2 和 GQA 呈现需要一个单词或短语来回答视觉问题的样本。OKVQA 和 A-OKVQA 是 VQA 数据集，旨在通过结合外部先验知识来扩展多模态模型的知识库。OCRVQA 专门用于增强多模态模型的文本识别能力。TextCaps 是一个图像字幕数据集，它以与图像相对应的简洁的一句话描述的形式呈现样本。RefCOCO 和 VG 是对象检测数据集，旨在提高多模态模型的对象定位能力。该数据集使我们的模型能够通过新训练的 MLP 和 LoRA 模块更好地利用额外的检测信息，尤其是其对象检测和 OCR 数据。
然而，该数据集仅包含约 467K 个图像样本，其中只有 116K 个用于对象检测，约 80K 个用于文本识别，这显然是有限的。因此，如果想要增强模型有效吸收检测信息的能力，探索数据集扩展是一种可行且值得推荐的策略。关于 LLaVA-1.5 的预训练数据集，值得注意的是，该数据集主要由为图像字幕制作而定制的样本组成，因此本质上强调图像级信息。但是，我们的检测信息更侧重于细粒度细节，因此我们选择不将该数据集纳入我们的 FTBI 融合策略中。

B.3 Image Resolution

用户输入的图像可以是任意分辨率，并分别输入到CLIP-ViT和检测模块。对于 CLIP-ViT 的预处理，输入图像被处理为 336x336 的大小（需要缩放和填充以形成方形图像）。
对于DINO和Grounding DINO的预处理，输入图片可以有任意的长宽比，但需要限制最短边的长度至少为224，最长边的长度在2048以内。最短边长度的设置是为了防止DINO的图片编码模块提取的多尺度特征不足，保证有足够多的anchor box。最长边长度的设置是为了减少额外的内存占用，这个值可以任意设置。对于PaddleOCRv2，我们可以输入任意分辨率的图像并让模型自主处理它们。

B.4 Threshold Setting for Detection Models

我们对检测模型设置了一定的阈值，以减少错误信息的获取。具体来说，对于DINO，我们将阈值设置为0.3，只有置信度得分高于此阈值的目标才被视为有效目标。对于PaddleOCR，我们将检测框阈值设置为0.6，只有置信度得分高于此阈值的检测框才被认为包含文本。对于Grounding DINO，我们将检测框阈值设置为0.35，文本阈值设置为0.25，只有同时满足两个阈值要求的目标才被视为有效目标。

B.5 Training Hyperparameters

在下表中，我们展示了实验中使用的训练超参数。这些超参数源自 Vicuna 和 LLaVA-1.5 ，并且已在我们的实验中证明是有效的。表中的术语“Pretrain-RBI”表示在 RBI 融合策略中用于视觉-语言对齐的预训练阶段使用的超参数。“Finetune-RBI”是指在 RBI 融合策略中专注于视觉指令调整的后续微调阶段使用的超参数。此外，“Finetune-FTBI”表示在 FTBI 融合策略的微调过程中使用的超参数。
- 训练RBI和FTBI策略的超参数。

B.6 Time Consumption for Training

实验成本方面，在4xA100（80G）平台上，7B模型预训练耗时约11小时，13B模型预训练耗时约17小时；微调方面，7B模型预训练耗时约22小时，13B模型微调耗时约33小时。

C Further Experiments and Analysis on the FTBI Model

C.1 Fine-tuning on LLaVA-1.5 without Detection Information

在 FTBI 融合策略中，我们的模型在 LLaVA-1.5 上进行了额外的微调。在当前实验中，我们训练了不同版本的 FTBI 模型，在训练过程中未注入检测信息。通过这种方式，我们可以调查我们的 FTBI 模型的性能改进是归因于补充检测信息还是归因于额外时期的微调。如下表所示，没有检测信息的模型的性能与 LLaVA-1.5 相当。与 FTBI 模型相比，这些模型在几乎所有基准测试中都表现出较差的性能。因此，我们的 FTBI 模型的出色表现更多地归功于我们补充的检测信息，而不是我们在 LLaVA-1.5 上微调了一个额外的 epoch。
- 如果我们在没有检测信息的情况下对LLaVA-1.5进行微调，其性能将不如有检测信息的版本。“-T w/o DI”代表“无检测信息训练”。

C.2 Analysis of FTBI Models without Detection Information

我们评估了未注入检测信息的 FTBI 模型的基准分数，以评估它们利用 ViT 特征的能力。下表中列出的发现表明，没有检测信息的 FTBI 模型的功效与 LLaVA-1.5 的功效非常接近，并且在所有基准测试中都优于没有检测信息的 RBI 模型。这意味着我们的第三种融合策略有效地使模型能够吸收和利用 ViT 提取的信息

C.3 Performance of FTBI Models Exclusively with OCR or Object Detection Information

从下表可以看出，物体检测信息的加入显著提高了物体定位和物体幻觉相关基准的得分。同样，OCR 信息的加入也显著提高了文本识别相关基准的得分。

C.4 Inference Efficiency

我们通过计算 FTBI-7B 模型在 GQA 和 TextVQA 数据集上的端到端推理时间来评估其时间消耗。当我们的模型在推理过程中仅依赖对象检测信息时，DINO 占总推理时间的 38%。此外，当仅注入 OCR 信息时，PaddleOCRv2 占总推理时间的 25%。同样值得注意的是，尽管注入检测信息会产生额外的推理成本，如上文表所示，但我们的模型优于许多最先进的 (SOTA) 13B 甚至更大的多模态大型语言模型，这些模型需要更多的资源。此外，由于我们的方法具有模块化和可替代性，更轻量、更高效的检测模型可以进一步提高效率。此外，由于嵌入式检测模型相互独立，我们可以让它们在不同的设备上独立运行，从而实现并行推理并进一步加快推理速度。
对于提出的文本压缩策略（第 3.2 节），与使用检测模型的原始文本输出相比，采用文本压缩的模型在结合目标检测信息时推理时间减少了 9%，在与 OCR 信息结合时推理时间显著减少了 58%，验证了所提策略的有效性。

D Model Architecture Rationale

D.1 How LLaVA-1.5 Represents Other MLLMs?

在本文的主体部分，我们专门选择 LLaVA-1.5 进行实验，认为它代表了大多数最先进的模型。在本节中，我们将从以下两个方面说明这一选择：
- （1）LLaVA-1.5 的代表性。我们之所以选择 LLaVA-1.5，是因为我们处于一个高度动态的领域，并且它足以代表大多数最先进的 MLLM。先进的 MLLM 通常由三个主要模块组成：图像编码器、输入projector和 LLM Backbone。LLaVA1.5 遵循这一结构。
  - 图像首先通过图像编码器和输入 projector 进行处理。大多数先进的 MLLM 通常包含一个这样的专用分支，用于将图像特征处理成类似的图像标记序列。接下来，将图像标记与代表输入句子的文本标记连接起来并输入到 LLM 中。具体来说，代表我们的检测信息的文本标记可以直接与提取的图像标记连接起来，并在 MLLM 的训练和推理期间使用。换句话说，只要 MLLM 符合这种结构，额外的检测信息就可以在输入 LLM 之前进行类似的处理，具体来说是在嵌入级别与图像特征连接起来。它们注入主干LLM的方式相似。因此，在LLaVA-1.5上进行的实验结果可以应用于具有类似结构的其他MLLM。
  - 此外，LLaVA-1.5 已被证明非常成功，催生出了许多杰出的作品。我们基于 LLaVA-1.5 进行研究，将实验结果应用于 LLaVA-1.5 的后续工作。因此，我们有能力为开源社区做出贡献。
- （2）在 Qwen-VL 上的实验支持。为了更好地说明我们工作的通用性，我们还在另一个 MLLM Qwen-VL 上进行了实验。Qwen-VL 使用交叉注意层将视觉特征压缩为 256 的固定长度序列，这与 LLaVA-1.5 的 MLP 不同。并且用于训练的数据集也不同。具体来说，我们使用 LLaVA-1.5 的指令跟踪数据集对 Qwen-VL（未进行视觉指令调优）进行视觉指令调优。我们比较了三种模型：Qwen-VL-IT、Qwen-VL-IT-TFI 和 Qwen-VL-IT-RBI。
  - Qwen-VL-IT 是指经过常规视觉指令调优的 Qwen-VL，在训练和推理过程中，Qwen-VL-IT 不包含检测模块。
  - Qwen-VL-IT-TFI 遵循与 Qwen-VL-IT 相同的训练过程，但它在推理过程中注入了检测信息，与我们论文中的 TFI 融合策略相对应。
  - Qwen-VL-IT-RBI 是指在训练和推理过程中对 Qwen-VL 进行微调同时注入检测信息，与我们论文中的 RBI 融合策略相对应（略有不同，因为它在预训练过程中不会注入检测信息）。
- 我们在 10 个基准上对这些模型进行了评估，结果如表 13 所示。
从表13可以看出，Qwen-VL-IT-TFI的视觉接地能力相较于Qwen-VL-IT有所提升，导致在POPE基准测试中得分明显提升。不过，Qwen-VL-IT-TFI在其他任务中均出现了不同程度的下降，与TFI融合策略在主页上的结果类似。
另一方面，与 Qwen-VL-IT 和 Qwen-VL-IT-TFI 相比，Qwen-VL-IT-RBI 在所有基准测试中均表现出色，在对象检测和文本识别基准测试中的得分均显着提高。这反映了主页上 RBI 融合策略的结果，表明通过在训练期间注入检测信息，模型可以更好地理解检测信息，从而更有效地使用它来解决问题。
总之，我们阐明了 LLaVA-1.5 能够作为许多先进 MLLM 的代表模型的原因。我们断言，从 LLaVA-1.5 实验中得出的见解广泛适用于其他结构相似的 MLLM。此外，我们还对另一个 MLLM Qwen-VL 进行了额外的实验，从而证明了我们研究结果的广泛有效性。

D.2 How DINO and PaddleOCRv2 Represent Other Detecion Models?

由于我们为检测信息设计了特定的文本格式，因此，任何物体检测模型和OCR模型的输出，只要能够输出目标的名称、文本的内容以及目标对应的坐标，我们都可以将其处理成检测信息。（“这是此图像中某些物体的中心坐标：2个人：[0.25, 0.12]，[0.11, 0.43]，1个蛋糕：[0.42, 0.32]。”或“这是此图像中某些文本的中心坐标：‘生日’[0.41, 0.85]，‘年份’[0.11, 0.34]。”）换句话说，物体检测模型和OCR模型的选择并不重要。我们只需要根据性能和效率选择一个优秀的模型即可。为了更好地阐明这一点，我们用 YOLOv8 替换 DINO，并重复 FTBI 实验，得到表 14 中的结果。
- 根据表格，两种模型都为 MLLM 带来了类似的性能提升，这表明当检测模型的功能和性能相似时，它们对 MLLM 增强的影响也是类似的。

D.3 How Does Text-Based Detection Information Feeding Compare to Other Methods?

除了基于文本的方法外，我们还进行了将 DINO 和 PaddleOCRv2 的输出向量输入到 LLM 的实验，使用 MLP 层或多个交叉注意层将这些向量映射到 LLM 的语义空间中。然而，这些方法的表现不如基于文本的方法。下面是它们之间的性能比较，所有这些都是在 7B 模型上使用 RBI（基于再训练的注入）策略进行训练的。
可以观察到，DINO和PaddleOCRv2引入的性能提升并没有体现在MLP方法和交叉注意方法中。我们推测这种现象的出现源于训练数据不足，不足以训练新初始化的MLP模块和交叉注意模块。与CLIP-ViT的输出不同，DINO和PaddleOCRv2的输出向量没有经过与文本的对比学习，导致这些向量与文本特征之间存在显著差异。因此，需要更多的数据来有效地训练输入投影仪。然而，引入更多数据来训练这些新引入的输入投影仪将导致与LLaVA-1.5进行不公平的性能比较。但基于文本的方法可以有效地将DINO和PaddleOCRv2的输出信息传输到LLM，且不需要额外的训练数据，因此我们使用基于文本的方法。

E Model Performance and Additional Evaluation Benchmarks

E.1 Modification on the GQA Benchmark

在原始 GQA 基准中，只有当答案与参考答案完全匹配时，答案才被视为正确。然而，由于名词词汇中存在大量同义词，以及名词复数的变化，这样的评估标准导致许多正确答案被遗漏。例如，如果我们的模型给出的答案是“坡道”而不是预期答案“路面”，或者在回答“飞机在什么上面飞行？”时给出“海滩”而不是预期答案“海洋”，则可能导致“不准确”。尽管如此，模型不会犯错。
因此，我们对 GQA 基准进行了修改，只选取了评估数据集的一个子集，包括只需要“是”或“否”回答的样本，以及涉及选择题（包含“或”的问题）的样本。对于这些样本，它们的正确答案可以从有限的选项中选出，从而消除了评估模型提供正确但不匹配的答案的可能性，从而获得更准确的评估结果。经过筛选后，剩余的样本数量为 5,677 个，约为原始评估数据集的一半。我们将修改后的评估基准命名为 GQA∗。

E.2 MME Benchmark in Table 4

在表 16 中，我们列出了 RBI 模型和 FTBI 模型在 MME-Perception 和 MME-Cognition 上的基准分数。该值表明，这两个模型的分数都有显著提高，特别是在 MME-Cognition 上。这一显著的提高可以归因于补充 OCR 信息的加入，解决了 MME-Cognition 中与嵌入在图像中的文本内容有关的大量问题。
此外，在 MME-Perception 基准测试中，我们的模型得分出现了一些波动。不过，值得注意的是，FTBI 模型的得分超过了 RBI 模型，这强调了我们的第三种融合方法更好地保留了 MLLM 的原始功能。

E.3 Performance on the VALSE Benchmark

VALSE（视觉与语言结构化评估）是一个零样本基准测试，旨在测试通用预训练视觉语言模型对特定语言现象的视觉语言基础能力。它可以评估 MLLM 的许多能力，包括六个方面：存在性、多元性、计数、空间关系、动作和实体共指。
在 VALSE 中，有效实例由图像、标题和修改后的标题（称为“陪衬”）组成，该标题体现了特定的语言现象。测试模型需要区分真实标题和陪衬。VALSE 采用四个指标来评估模型的性能：所有类别（陪衬和正确）的总体准确度 (acc)；精度 (pc) 衡量模型识别正确示例的能力；陪衬精度 (pf) 衡量被陪衬案例的识别能力；成对排名准确度 (accr)，它衡量正确的图像-文本对的图像-句子对齐得分是否高于其被陪衬对。accr 比 acc 更宽容，因为如果陪衬的分数低于标题的分数，它会接受模型预测。
由于 LLaVA-1.5 和我们的模型无法像 LXMERT 等模型那样直接输出“cross_relationship_score”作为图像-句子对齐分数，我们按照“lxmert_valse_eval.py”(https://github.com/Heidelberg-NLP/VALSE/blob/main/lxmert_valse_eval.py)中概述的方法修改了 accr、acc、pc 和 pf 的计算，如下所示：
- （1）让模型回答以下两个问题，并统计每个问题的“是”和“否”答案的数量：
- Q1：“这张图片与句子‘caption’相符吗？仅使用‘是’或‘否’来回答。”
- Q2：“这张图片与句子‘foil’匹配吗？仅使用‘是’或‘否’来回答。”
- （2）当问题 1 的答案为“是”时，增加 foil_accuracy 和 capt_fits 的计数器。当问题 2 的答案为“否”时，增加 foil_detected 和 foil_accuracy 的计数器。如果问题 1 的答案为“是”，而问题 2 的答案为“否”，则增加 pairwise_acc 的计数器。
- （3）最终计算公式为：
结果列于表 17 中。可以看出，FTBI-7B 在各个方面都优于 LLaVA-v1.5-7B，这表明我们的模型对失败的实例更敏感，并且在视觉接地方面具有更好的能力。它还强调了对象检测模块的加入确实提高了 MLLM 的对象检测能力。

E.4 Applying Weights on the Aggregated Score

引入聚合分数的目的是为了粗略地比较我们的模型与其他 MLLM（尤其是 LLaVA-1.5）的整体性能。在我们的分析中，我们并不太重视这个聚合分数的比较。相反，我们更注重比较单个基准并分析我们模型的性能变化。
由于不同基准的重要性不同，因此汇总得分可能会带来不公平性。为了提高公平性，我们引入权重来根据每个基准的重要性计算汇总得分。具体来说，我们为重要性较低的基准 MM-Bench 和 Seed-Bench 分配 0.5 或 0 的权重，而将其他基准的权重设置为 1。
- 根据表 18，尽管对不太重要的基准引入了较低的权重，但我们的模型仍然表现出更高的分数，显示出卓越的整体性能。