Improved Baselines with Visual Instruction Tuning

最新推荐文章于 2024-08-27 15:17:04 发布

YangJZ_ByteMaster

最新推荐文章于 2024-08-27 15:17:04 发布

阅读量587

点赞数 24

分类专栏：论文摘要文章标签：大模型 llava 多模态人工智能

本文链接：https://blog.csdn.net/qq_44537267/article/details/141564086

版权

论文摘要专栏收录该内容

6 篇文章 0 订阅

订阅专栏

总结

1. 改进：LLAVA-1.5

基于LLAVA架构，提出了LLAVA-1.5，通过简单的修改（如使用MLP投影和增加学术任务相关数据）建立了更强的基线。
在11个基准测试中，LLAVA-1.5实现了最先进的性能，尽管仅使用了1.2M的公开数据，并且在单个8-A100节点上训练了约1天。

2. 视觉指令调整的开放问题

高分辨率输入：LLAVA-1.5通过将图像分割为网格，并对每个网格进行独立编码，展示了在扩展到更高分辨率方面的潜力，同时保持了数据效率。
组合能力：模型展示了泛化到需要组合能力的任务的能力，例如更长格式的语言推理和较短的视觉推理。
幻觉问题：通过提高输入图像的分辨率，模型的幻觉现象得以减少，揭示了模型在更详细的感知能力上的潜力。

3. 数据效率的探索

作者发现，即使对LLAVA-1.5的训练数据进行高达75%的随机下采样，模型性能依然保持稳定，表明可以进一步提高数据效率。

4. 学术任务数据的整合

LLAVA-1.5通过增加面向学术任务的数据集（如VQA、OCR等），显著提高了模型在不同任务上的性能。
通过响应格式提示，使模型能够在生成简短和详细答案之间更好地平衡。

5. 模型选择的影响

不同LLM（如LLAMA和LLAMA-2）的选择对模型性能有显著影响，尤其是在多语言多模态指令和视觉对话中的表现。

6. 未来研究的方向

提出LMMs的组合能力可以通过进一步研究来增强，而不需要显著增加数据集的规模。
他们还指出，需要更详细的注释和处理细粒度信息，以减少模型幻觉现象。

7. 结论

LLAVA-1.5展示了通过简单的设计改进和数据集整合，可以实现性能和数据效率的提升。
为未来开源LMMs的研究提供了一个可复制且数据高效的基线。

Abstract

大型多模态模型 (LMM) 最近在视觉指令调整方面显示出令人鼓舞的进展。在本文中，我们提出了第一个系统研究来研究 LLAVA 框架下受控设置下 LMM 的设计选择。我们表明，LLAVA 中的全连接视觉语言连接器非常强大和数据效率。通过对LLAVA进行简单的修改，即使用带有MLP投影的CLIP-ViT-L-336px和添加具有响应格式提示的面向学术任务的VQA数据，我们建立了更强的基线，可以在11个基准测试中实现最先进的性能。我们最终的 13B 检查点仅使用 1.2M 公开可用数据，并在单个 8-A100 节点上完成约 1 天的完整训练。此外，我们对LMMs中的开放问题进行了一些早期探索，包括扩展到更高分辨率的输入、组合能力和模型幻觉等。我们希望这使得最先进的LMM研究更容易获得。代码和模型将公开。

1. Introduction

大型多模态模型 (LMM) 在研究界变得越来越流行，因为它们是通用助手的关键构建块 [2, 30, 43]。最近对LMMs的研究收敛于一个被称为视觉指令调优[36]的中心概念。结果很有希望，例如 LlaVA [36] 和 MiniGPT-4 [62] 在自然指令跟随和视觉推理能力上展示了令人印象深刻的结果。为了更好地理解LMM的能力，提出了多个基准[17，27，34，37，55]。最近的工作通过分别扩大预训练数据 [3, 14, 54, 4]、指令跟踪数据 [14, 18, 29, 58]、视觉编码器 [3] 或语言模型 [39] 进一步展示了更好的性能。LLAVA 架构也用于不同的下游任务和领域，包括区域级 [8, 56] 和像素级 [26, 50] 理解、生物医学助手 [31]、图像生成 [5]、对抗性研究 [6, 59]。

在这里插入图片描述

图 1. LLAAVA-1.5 在 11 个任务（上）的广泛范围内实现了 SoTA，具有高训练样本效率（左）和对 LLAVA 的简单修改（右）：MLP 连接器，包括具有响应格式提示的面向学术任务的数据。

然而，尽管有许多基准和发展，但仍不清楚最好的方法是向通用助手的目标训练 LMM。例如，LLAVA[36]擅长会话式的视觉推理，甚至在此类基准上优于 InstructBLIP [14] 等后来的方法 [55]，而 InstructBLIP 擅长需要单个单词或简短答案的传统 VQA 基准。鉴于模型架构和它们之间的训练数据存在显着差异，尽管推测 [37, 55]：训练数据量、重采样器（如 Qformer [32]）等，但其能力差异的根本原因仍然难以捉摸。为此，我们提出了第一个系统研究来研究 LMM 在受控环境中的设计选择。我们的研究源于 LLAVA，并通过从输入、模型和数据的角度仔细做出有效贡献来构建路线图。

首先，我们揭示了LLAVA中的全连接视觉语言连接器非常强大和数据效率，我们在LLAVA框架的基础上建立了更强大、更可行的基线。我们报告了两个简单的改进，即 MLP 跨模态连接器和合并 VQA 等学术任务相关数据，与 LlaVA 的框架正交，当与 LlaVA 一起使用时，可以获得更好的多模态理解能力。与 InstructBLIP [14] 或 Qwen-VL [3] 相比，它在数亿甚至数十亿的图像-文本配对数据上训练专门设计的视觉重采样器，LLAVA 对 LMM 使用最简单的架构设计之一，只需要仅在 600K 图像-文本对上训练一个简单的全连接投影层。我们的最终模型可以在单个 8-A100 机器上完成约 1 天的训练，并在广泛的基准测试中取得了最先进的结果。此外，与在训练中包含内部数据的 Qwen-VL [3] 不同，LLAVA 仅使用公开可用的数据。

接下来，我们深入研究大型多模态模型的其他开放问题的早期探索。我们的发现包括：（1）扩展到高分辨率图像输入。我们表明，LLAVA 的架构通过简单地将图像划分为网格并保持其数据效率，在扩展到更高的分辨率方面是通用的；随着分辨率的增加，它提高了模型的详细感知能力，减少了幻觉。(2) 组合能力。我们发现大型多模态模型能够泛化到组合能力。例如，对长格式语言推理的训练以及较短的视觉推理可以提高模型对多模态问题的写作能力。(3) 数据效率。我们表明，将 LlaVA 的训练数据混合随机下采样高达 75% 不会显着降低模型的性能，这表明更复杂的数据集压缩策略的可能性可以进一步提高 LlaVA 已经有效的训练管道。(4) 数据缩放。我们提供了数据粒度缩放与模型能力的经验证据，对于在不引入幻觉等伪影的情况下提高能力至关重要。

总之，我们对大型多模态模型的训练进行了系统的研究，并介绍了一种简单而有效的方法来平衡大型多模态模型的多任务学习和有效的缩放。我们改进的基线 LLAAVA-1.5 仅使用公共数据，在广泛的 11 个任务上达到了最先进的水平，并且比以前的方法的数据效率更高。通过重新思考传统方法并探索视觉指令调整中的开放问题，我们为 LMM 更健壮和更强大的系统铺平了道路。我们希望这些改进且易于复制的基线将为开源 LMM 的未来研究提供参考。

2. Related Work

Instruction-following large multimodal models (LMMs).指令跟踪大型多模态模型 (LMM)。通用架构包括一个预训练的视觉主干来编码视觉特征，一个预训练的大型语言模型 (LLM) 来理解用户指令并产生响应，以及一个视觉语言跨模态连接器来对齐视觉编码器输出到语言模型。如图 1 所示，LLAVA [36] 可能是 LMM 最简单的架构。可选地，视觉重采样器(例如Qformer[32])用于减少视觉补丁的数量[3,14,62]。训练指令跟随LMM通常遵循两阶段协议。首先，视觉语言对齐预训练阶段利用图像-文本对将视觉特征与语言模型的词嵌入空间对齐。早期的工作利用相对较少的图像-文本对(例如∼600K[36]或∼6M[62])，而最近的一些工作在大量图像-文本对(例如129M[14]和1.4B[3])上预训练特定语言模型的视觉语言连接器，以最大化LMM的性能。其次，视觉指令调优阶段在可视化指令[36]上调整模型，使模型能够跟踪用户对涉及视觉内容的指令的不同请求。在并发工作中研究了用LMM网格处理更高分辨率的方法[1,28,53]。

Multimodal instruction-following data.多模式指令跟踪数据。在 NLP 中，研究表明指令跟踪数据的质量在很大程度上影响了生成的指令跟随模型的能力[61]。对于视觉指令调整，LLAVA [36] 是利用纯文本 GPT-4 将现有的 COCO [35] 边界框和字幕数据集扩展为包含三种类型的指令跟踪数据的多模式指令跟踪数据集的先驱：会话式 QA、详细描述和复杂的推理。LlaVA的管道已被用于扩展到文本理解[57]、百万尺度[58]和区域级对话[8]。InstructBLIP [14] 结合了面向学术任务的 VQA 数据集，以进一步提高模型的视觉能力。相反，[7] 确定这种简单的数据合并可能会导致模型倾向于过度拟合 VQA 数据集，因此无法参与自然对话。作者进一步提出利用 LLAVA 管道将 VQA 数据集转换为对话风格。虽然这被证明对训练有效，但它在数据缩放中引入了额外的复杂性。然而，在 NLP 中，FLAN 家族 [13, 51] 表明，添加大量学术语言任务进行指令调整可以有效地提高泛化能力。鉴于此，我们考虑研究多模态模型中自然对话和学术任务之间无法平衡的根本原因。

3. Approach

3.1. Preliminaries

作为视觉指令调整的开创性工作，LLAVA [36] 展示了视觉推理能力的可喜熟练程度，在现实生活视觉指令跟踪任务的不同基准上超越了最近的模型 [4, 55]。LLAVA使用单个线性层将视觉特征投影到语言空间中，并优化整个LLM进行视觉指令调优。然而，LLAVA 在通常需要简短答案（例如单个单词）的学术基准测试中表现不佳，并且由于训练分布中缺少此类数据——倾向于回答是/否问题。

另一方面，InstructBLIP [14] 是结合 VQA-v2 [19] 和 LLAVA-Instruct [36] 等学术面向任务的数据集以及 LLAVA-Instruct [36] 的先驱，并展示了 VQA 基准的性能改进。它在129M图像-文本对上预训练Qformer[32]，只微调指令感知Qformer进行视觉指令调优。然而，最近的研究 [7, 55] 表明，它在参与现实生活中的视觉对话任务时表现不佳和 LlaVA。更具体地说，如表 1a 所示，即使在需要详细响应的请求上，它也可以过度拟合具有简短答案的 VQA 训练集。

3.2. Response Format Prompting

我们发现，对于 InstructBLIP [14] 等方法，[7] 无法在短格式和长格式 VQA 之间取得平衡，它利用包含自然响应和短答案的指令跟随数据，主要是由于以下原因。首先，响应格式的模棱两可的提示。例如，Q：{Question} A：{Answer}。这样的提示没有明确指示所需的输出格式，即使对于自然的视觉对话，也可以行为地将 LLM 过度拟合到短格式答案。其次，不微调LLM。InstructBLIP 加剧了第一个问题，只微调 Qformer 进行指令调整。它需要 Qformer 的视觉输出标记来控制 LLM 输出的长度是长格式或短格式，如前缀调整 [33]，但 Qformer 可能缺乏正确这样做的能力，因为它的容量与 LLAMA 等 LLM 相比有限。

因此，为了使 LLAVA 在解决 InstructBLIP 问题的同时更好地处理短格式答案，我们建议使用单个响应格式提示，该提示清楚地指示输出格式。在促进简短答案时，它被附加到 VQA 问题的末尾：使用单个单词或短语回答问题。我们发现，当 LLM 使用此类提示进行微调时，LLAVA 能够根据用户的指令正确调整输出格式（见表 1b），并且不需要使用 ChatGPT [7] 对 VQA 答案进行额外的处理，这进一步能够扩展到各种数据源。如表2所示，仅在训练中包含VQAv2[19]，LLAVA在MME上的性能显著提高(1323.8 vs 809.6)，比InstructBLIP高出111个点。

在这里插入图片描述

表 1. 可视化输入示例来说明 (a) 多任务平衡和 (b) 不同格式提示的挑战。使用相同的图像输入。

3.3. Scaling the Data and Model

MLP vision-language connector.受通过将线性投影更改为 MLP [9, 10] 来提高自监督学习的性能的启发，我们发现与原始线性投影相比，使用两层 MLP 改进视觉语言连接器的表示能力可以提高 LlaVA 的多模态能力。

Academic task oriented data.我们进一步包括用于 VQA、OCR 和区域级感知的附加面向学术任务的 VQA 数据集，以以各种方式增强模型的能力，如表 2 所示。我们首先包括 InstructBLIP 中使用的四个附加数据集：开放知识 VQA (OKVQA [41]、A-OKVQA [45]) 和 OCR (OCRVQA [42]、TextCaps [47])。A-OKVQA 被转换为多项选择题，并使用特定的响应格式提示：直接从给定选项中带有选项字母的答案。仅使用数据集 InstructBLIP 的一个子集，LLAVA 在表 2 中的所有三项任务上都已经超过了它，这表明 LLAVA 的有效设计。此外，我们发现进一步添加区域级 VQA 数据集（Visual Genome [25]，RefCOCO [24, 40]）提高了模型对细粒度视觉细节的定位能力。

在这里插入图片描述

图2。LLAVA-1.5-HD。通过将图像分割成网格并将它们独立编码，将 LLAAVA-1.5 缩放到更高的分辨率。这允许模型扩展到任何分辨率，而无需对 ViT 执行位置嵌入插值。我们还连接下采样图像的特征，为LLM提供全局上下文。
在这里插入图片描述

表 2. 数据、模型和分辨率的比较结果。我们选择在 GQA [21]、MME [17] 和 MM-Vet [55] 上进行实验，分别检查具有简短答案、带有输出格式的 VQA 和自然视觉对话的 VQA 的代表性能力。* 在训练期间观察到 GQA 的训练图像。

Additional scaling.我们进一步将输入图像分辨率缩放到336^2，以允许LLM通过将视觉编码器交换到CLIPViT-L-336px(CLIP可用的最高分辨率)来清楚地“看到”图像的细节。此外，我们将 GQA 数据集作为附加的视觉知识源添加。我们还结合了ShareGPT[46]数据，并将LLM扩展到13B，如[3,8,39]。MM-Vet 的结果表明，当将 LLM 缩放到 13B 时，最显着的改进，这表明基础 LLM 在视觉对话方面的能力的重要性。

LLaVA-1.5.我们将此最终模型与所有修改表示为 LLAVA-1.5（表 2 中的最后两行），它实现了令人印象深刻的性能，显着优于原始 LLAVA [36]。

Computational cost.对于 LLAAVA-1.5，我们使用相同的预训练数据集，并保持训练迭代和批量大小与 LLAAVA [36] 进行指令调整大致相同。由于图像输入分辨率增加到 336^2，the training of LLaVA-1.5 is ∼2× as long as LLaVA: ∼6 hours of pretraining and ∼20 hours of visual instruction tuning, using 8× A100s.

3.4. Scaling to Higher Resolutions

在第3.3节中，我们观察到扩大输入图像分辨率的优势提高了模型的能力。然而，现有的开源 CLIP 视觉编码器的图像分辨率仅限于 336^2，通过简单地替换第 3.3 节中所做的视觉编码器来防止高分辨率图像的支持。在本节中，我们早期探索将 LMM 缩放到更高的分辨率，同时保持 LlaVA1.5 的数据效率。

当使用 ViT [15] 作为视觉编码器时，为了扩大分辨率，以前的方法大多选择执行位置嵌入插值 [3, 32]，并在微调期间将 ViT 主干调整为新分辨率。然而，这通常要求模型在大规模的图像-文本配对数据集[3,32]上进行微调，并将图像的分辨率限制在LMM在推理过程中可以接受的固定大小。

相反，如图2所示，我们通过将图像划分为视觉编码器最初训练的分辨率的较小图像块来克服这一点，并独立地对它们进行编码。在获得单个补丁的特征图后，我们将它们组合成目标分辨率的单个大特征图，并将其输入 LLM。为了向LLM提供全局上下文并减少拆分编码合并操作的产物，我们还将下采样图像的特征连接到合并的特征图。这允许我们将输入缩放到任意分辨率，并保持LLAVA-1.5的数据效率。我们称这个得到的模型为LLAVA-1.5-HD。

在这里插入图片描述

表 3. 与面向学术任务的数据集上的 SoTA 方法的比较。LLAAVA-1.5 在 4/5 基准测试中实现了最佳性能，并在另一个基准上排名第二。* 在训练期间观察到数据集的训练图像/注释。† 包括无法公开访问的内部数据。

表4。在指令跟随LMM的基准上与SoTA方法的比较。LaraVA-1.5 实现了最佳的整体性能。

4. Empirical Evaluation

4.1. Benchmarks

我们在学术面向任务的基准和专门为指令跟随LMM提出的最新基准的集合上评估LLAVA-1.5，总共12个基准。对于面向学术任务的基准，VQA-v2 [19] 和 GQA [21] 在开放式简短答案上评估模型的视觉感知能力。VizWiz [20] 包含 8,000 张图像来评估模型对视障人士提出的视觉问题的零样本泛化。在 InstructBLIP [14] 之后，使用多项选择的 ScienceQA [38] 的图像子集来评估科学问答的零样本泛化。TextVQA [48] 包含文本丰富的视觉问答。

对于最近提出的指令跟随LMMs的基准，POPE[34]评估了模型在COCO[35]的三个采样子集上的幻觉程度:随机、常见和对抗性，我们报告了所有三个分裂的F1得分。其他基准以不同的响应格式评估模型在广泛领域和应用方面的能力。MME-Perception [17] 使用 yes/no 问题评估模型的视觉感知。MMBench[37]在多个选择答案上评估模型对全轮洗牌的答案鲁棒性。MMBench-CN[37]是MMBench的中文翻译版本。SEED-Bench[27]通过多项选择评估模型在图像和视频上的性能，我们对中间的帧进行采样，以评估视频的准确性。LlaVA-Bench-in-Wild [36] 和 MM-Vet [55] 评估模型在不同任务范围内参与视觉对话的能力，并通过 GPT-4 评估响应的正确性和有用性。

4.2. Results

我们表明，与其他方法相比，LLAVA-1.5 在 12 个基准测试中实现了最佳性能，尽管使用更小的预训练和指令调整数据 [3, 14]。LLAAVA-1.5 在指令跟随 LMM 的所有基准测试中显着优于 LLAVA。请注意，在需要开放式简短答案的 VQA-v2 [19] 等学术数据集上评估原始 LLAVA 具有挑战性

当我们继续使用 LlaVA-1.5-HD 将图像分辨率扩展到 448^2 时，它进一步提高了所有基准的整体性能，尤其是在需要感知图像中细节的任务（例如 MMVet 中的 OCR，LLAVA-Bench-in-Wild [36] 中的详细描述）。此外，我们发现添加全局上下文有效地从拆分合并伪影中恢复模型，并引导模型更容易从高分辨率特征定位相关区域（见附录）。

令人鼓舞的是，LLAVA-1.5 使用最简单的架构、学术计算和公共数据集实现了最佳性能，并为未来的研究提供了一个完全可重复性和负担得起的基线。结果还表明，视觉指令调整在提高 LMM 的能力方面起着重要作用，并提出了普遍信念的问题，即 LMM 需要大量视觉语言对齐预训练 [3, 14, 32]，尽管视觉编码器（例如 CLIP [44]、OpenCLIP [23]、EVA-CLIP [16] 等）已经在网络规模的图像-文本配对数据上进行了预训练。LLAVA-1.5（甚至 7B 模型）优于 80B IDEFICS [22]，这是一种类似 Flaminggo 的 LMM，具有数十亿个可训练参数用于跨模态连接。这也让我们重新思考视觉采样器的好处以及额外的大规模预训练的必要性，在多模态指令跟踪能力方面。

全局上下文。对于更高的分辨率，我们将图像填充和调整大小为224^2的单个图像，并将其与高分辨率特征连接起来，以提供全局上下文。7B 模型消融表明，全局上下文有效地提高了所有三个验证基准的性能。

4.3. Emerging Properties

Format instruction generalization.。尽管 LLAAVA-1.5 仅使用有限数量的格式指令进行训练，但它可以推广到其他指令。首先，VizWiz [20] 要求模型在提供的内容不足以回答问题时输出“不可回答”，我们的响应格式提示（见附录）有效地指示模型这样做（11.1% → 67.8% 无法回答的问题）。我们还展示了指示 LLAAVA1.5 验证棘手问题的定性示例（图 5），以受约束的 JSON 格式响应（图 6），更多在附录中。

Multilingual multimodal capability.尽管 LLAAVA-1.5 根本没有针对多语言多模态指令进行微调（包括 VQA 在内的所有视觉指令都以英语为单位），但我们发现它能够遵循多语言指令。这部分是由于ShareGPT[46]中的多语言语言指令。尽管 ShareGPT 在其指令中不包含图像，但该模型从该数据集中学习自适应地响应与用户请求相对应的语言的行为。我们凭经验表明，这种行为被转移到视觉对话中。我们还在 MMBench-CN [37] 上定量评估模型对中文的泛化能力，其中 MMBench 的问题被转换为中文。值得注意的是，LLAVA-1.5 比 Qwen-VL-Chat 高 +7.3%（63.6% 对 56.7%），尽管 Qwen 在中文多模态指令上进行微调，而 LLAAVA-1.5 则不然。

4.4. Ablation on LLM Choices

在 NLP 中，发现 [49] 表明基础 LLM 的能力会影响其指令调整的后继者。在本节中，我们探讨了两个 LLM 家族，并研究了它们对最终模型的多模态能力的贡献：基于 LLAMA（Vicuna-v1.1、Vicuna-v1.3）和基于 LLAMA2（Vicuna-v1.5、LLaMA-2-Chat）。Vicuna-v1.3 和 Vicuna-v1.5 使用相同的 ∼150K ShareGPT [46] 数据（v1.1 中使用的 2×）。与仅使用监督指令微调 (SFT) 训练的 Vicuna 系列不同，LLaMA-2-Chat 通过从人类反馈 (RLHF) 强化学习进一步优化。我们在图 3 中可视化了这些变体的相对性能。

首先，我们发现 Vicuna-v1.5 实现了最佳的整体性能，基于 LLAMA-2 的模型通常比基于 LLAMA-1 的模型表现更好，这表明基础语言模型的重要性。MMBench-CN [37] 上的结果进一步证明了这一点：尽管 Vicuna-v1.3 和 v1.5 使用相同的 ShareGPT 数据进行指令调整，但 Vicuna-v1.3 中文泛化的性能明显低于 v1.5。

其次，语言指令调整对每个数据集所需的特定功能很重要。例如，虽然 LLAMA-2-Chat 和 Vicuna-v1.5 在 MMBench 上取得了几乎相同的性能，但 LLAMA-2-Chat 的 MMBench-CN [37] 的泛化比 Vicunav1.5 差，部分原因是 LLAMA-2-Chat 的大多数 SFT/RLHF 数据都是英文的，并且不包含与 ShareGPT 中相同的多语言数据。此外，TextVQA 既要求模型识别图像中的文本字符的能力，也需要处理 OCR 引擎的噪声输出；这种噪声可能在 ShareGPT 数据中更常见，这些数据是从 ChatGPT 的日常使用中收集的。

在这里插入图片描述

图 3. LLM 选择的消融研究。数据点表示每个数据集的最佳性能变体的相对性能

图4。数据效率消融。数据点代表每个数据集的最佳性能变体的相对性能。

5. Open Problems in LMMs

5.1. Data Efficiency

尽管与 InstructBLIP [14] 等方法相比，LLAVA-1.5 的数据效率，但与 LLAVA 相比，LLAVA-1.5 的训练仍然翻一番。在本节中，我们通过实验，通过对LLAVA-1.5的训练数据混合进行随机子采样，进一步提高了数据效率，采样率为0.1 ~ 0.5。我们在图4中可视化了不同采样变体的相对性能。

首先，完整的数据混合提供了最好的知识覆盖率，并允许模型达到最佳的整体性能。令我们惊讶的是，只有 50% 的样本，该模型仍然保持了超过 98% 的完整数据集性能。这表明数据效率还有进一步改进的空间。

其次，当将数据集下采样到 50% 时，模型在 MMBench、ScienceQA 和 POPE 上的性能根本没有下降，甚至在 MMBench 上略有提高。同样，当进一步将数据从 50% 缩小到 30% 时，模型的性能保持稳定。这些结果也有望使多模态模型受益更少——更多[61]。

5.2. Rethinking Hallucination in LMMs

幻觉是解决llm和LMMs的一个重要问题。通常，在 LMM 中，我们将模型的幻觉归因于训练数据集中的错误或幻觉。例如，LLAVA-Instruct [36] 中的详细描述可能包含少量的幻觉内容，并且人们认为，当被要求“详细描述图像”时，对此类数据进行训练可能会导致模型产生幻觉。然而，我们发现当我们将模型的输入扩展到 448^2 等更高分辨率的图像时，这种幻觉显着降低。

这一发现很有趣，因为它表明 LMM 可能对训练数据中的一些此类错误具有鲁棒性。然而，当输入分辨率不足以模型识别训练数据中的所有细节时，并且在该粒度超出模型能力的数据量变得足够大时，模型学习产生幻觉。这进一步表明，需要在更详细地改进数据注释和模型正确处理此类粒度信息的能力之间取得平衡。我们希望这一发现为未来的工作提供了参考，即处理幻觉和模型和数据的缩放。

5.3. Compositional Capabilities

我们在 LlaVA-1.5 中展示了有趣的组合能力：在一组任务上训练的模型独立地泛化到需要组合这些功能的任务，而无需显式联合训练。我们注意到以下的一些发现。

首先，我们观察到在包含ShareGPT[46]数据后，视觉对话中的语言能力有所提高，包括SEC中讨论的多模态多语言能力。4.3.此外，该模型更有能力在视觉对话中提供更长、更详细的响应。其次，来自学术面向任务的数据集的额外视觉知识提高了 LlaVA-1.5 在视觉对话中响应的视觉基础性，如表 4 中 MMVet [55] 和 LlaVA-Wild [36] 的改进结果定量证明了这一点。

然而，对于某些需要某种能力组合的任务，实现理想的性能仍然很困难。例如，能够正确回答 VQA 中某个对象的属性，并不能保证在整个图像的详细描述中准确描述该对象属性。此外，在某些外语（例如韩语）的对话中植入的能力仍然落后。有关示例，请参见附录。

这些发现表明，可以通过详尽地包含所有任务组合，利用 LMM 的组合能力来提高模型的性能，而不会显着增加数据。然而，它可以进一步研究，更深入地理解LMMs组合能力背后的机制可以进一步提高LLAVA-1.5的能力和数据效率

6. Conclusion

在本文中，我们朝着揭开大型多模态模型的设计迈出了一步，并为大型多模态模型提出了一个简单、有效和数据高效的基线 LlaVA-1.5。此外，我们探索了视觉指令调整、将 LMM 缩放到更高的分辨率方面的开放问题，并在 LMM 的模型幻觉和组合能力方面提出了一些有趣的发现。我们希望这些改进且易于复制的基线以及新发现将为开源 LMM 未来的研究提供参考。

限制。尽管 LlaVA-1.5 展示了有希望的结果，但它仍然存在局限性，包括对高分辨率图像进行长时间的训练、缺乏多图像理解、某些领域有限的问题解决能力。它不免产生幻觉，应该在关键应用（例如医学）中谨慎使用。有关详细讨论，请参见附录。

YangJZ_ByteMaster

关注

24
点赞
踩
25

收藏

觉得还不错? 一键收藏
0
评论
Improved Baselines with Visual Instruction Tuning

大型多模态模型 (LMM) 最近在视觉指令调整方面显示出令人鼓舞的进展。在本文中，我们提出了第一个系统研究来研究 LLAVA 框架下受控设置下 LMM 的设计选择。我们表明，LLAVA 中的全连接视觉语言连接器非常强大和数据效率。通过对LLAVA进行简单的修改，即使用带有MLP投影的CLIP-ViT-L-336px和添加具有响应格式提示的面向学术任务的VQA数据，我们建立了更强的基线，可以在11个基准测试中实现最先进的性能。
复制链接

扫一扫

专栏目录