论文翻译：Position-Enhanced Visual Instruction Tuning for Multimodal Large Language Models

解包

已于 2023-10-16 14:42:56 修改

阅读量226

点赞数

分类专栏：学习记录文章标签：语言模型人工智能自然语言处理

于 2023-10-15 21:49:03 首次发布

本文链接：https://blog.csdn.net/JieBao11/article/details/133814167

版权

学习记录专栏收录该内容

17 篇文章 4 订阅

订阅专栏

写在前面：本人研一新生，纯科研小白，本文仅用作学习记录，不喜勿喷。

标题

Position-Enhanced Visual Instruction Tuning for Multimodal Large Language Models

多模态大语言模型的位置增强型视觉指令调优

作者

Chi Chen1 , Ruoyu Qin1 , Fuwen Luo1 , Xiaoyue Mi3 , Peng Li2 , Maosong Sun1 , Yang Liu1,2

1：清华大学人工智能研究院计算机科学系

2：清华大学人工智能产业研究院(AIR)

3：中国科学院计算技术研究所

Abstract

最近，多模态大语言模型（MLLMs）取得了巨大成功，它使得大语言模型（LLMs）能通过视觉指令微调来理解图像。然而，现存的视觉指令微调技术只使用图像-语言指令数据来对齐语言和图像模态，无法实现更加细粒度的跨模态对齐。在本篇论文中，我们提出了位置增强视觉指令调优技术（PVIT），通过整合一个额外的区域级视觉编码器来扩展MLLMs的功能。这项整合能促使MLLM形成对图片的更详细的理解。除此之外，为了有效地实现LLM和视觉模块的细粒度对齐，我们还设计了多种数据生成策略，用来构建一个“图像-区域-语言”指令数据集。最后，我们给出了定量实验和定性分析，证明了所提出模型的优越性。代码和数据将在https://github.com/PVIT-official/PVIT上发布。

1.Introduction

最近，多模态大语言模型（MLLMs）在使现有的大语言模型(LLMs）理解图像方面取得了非凡的成就。这些方法的基本原理是将现有的视觉模型或多模态模型的功能集成到LLM中。根据它们实现这一目标的方式，当前的MLLMs可以分为两类。第一类是直接利用了语言模型的零样本学习（zero-shot）和少样本学习（few-shot）能力，通过设计特定的提示符使LLM能够调用外部多模态模型。第二类通过视觉指令微调的方式，将视觉特征与语言模型的表示空间对齐，从而实现端到端的模型整合。这种端到端的MLLMs比第一种具有更多的多模态功能，因而受到越来越多的关注。

尽管取得了成功，这些端到端的MLLMs只使用“图像－语言”指令数据来对齐预训练的图像级视觉编码器和LLM。没有细粒度的多模态指令数据，模型对精细图像的理解能力仍然是有限的。例如，在图1所示的情况下，让目前的MLLMs区分复杂场景下的特定对象是有挑战性的。此外，目前的视觉指令数据的格式也限制了模型执行更精细的指令的能力，例如那些含有空间信息的指令（图1"【区域】中的这个物体是什么？"）。这类指令有可能减小模型交互的复杂性，并提高所给指令的精确度。因此，为了改进现有的MLLMs，使模型对图像形成更精细的理解，也使模型的交互更加灵活，开发更加细粒度的多模态指令数据，尤其是含有空间信息的指令，就显得至关重要。

图1：当前MLLM和PVIT的对比。MLLM有两个明显的缺陷：（1）使用朴素的语言传递信息是低效的（2）对于精细图片的理解能力有限。PVIT通过位置增强指令微调，将一个额外的区域级视觉编码器整合到MLLM中，从而解决了这些问题。

这就带来了两个挑战：一方面，与图像-文本对相比，细粒度对齐的多模态数据少得可怜，更不用说用于微调MLLMs的指令数据了。另一方面，如何利用这些数据去有效地扩展和增强MLLM的能力也是一个悬而未决的问题。与我们并行的一些工作已经作出了初步尝试，他们通过对现有的MLLMs进行微调，使其能够支持含有空间坐标的多模态指令。具体来说，Chen等[3]和Zhao等[35]直接将空间坐标以自然语言数字的形式纳入指令数据，并对MLLM进行微调以理解它们。Zhang等[34]首先根据输入区域从视觉编码器中提取空间特征，并将其整合到自然语言指令中作为LLM的输入。然而，需要注意的是，现有的MLLMs(如CLIP[22])中使用的视觉编码器是使用图像级监督进行预训练的，其对细粒度图像理解的能力本就有限[36,13]。因此，在此基础上直接进行微调得到的结果可能不是最优的，并且可能与MLLM现有的功能发生冲突。考虑到区域级对齐的“视觉-语言”预训练(VLP)模型的可用性[36,13]，一个有趣的可能性出现了:我们能否通过整合区域级视觉编码器的能力来进一步增强MLLMs?

在本文中，我们提出了位置增强的视觉指令调优（PVIT），它通过整合一个额外的区域级视觉编码器来扩展MLLM模型，使其能够支持基于区域的输入，如图1所示。具体来说，我们采用了RegionCLIP[36]中的视觉编码器，将图像和区域作为输入，利用它提取区域级特征。作为一个额外的信息来源，以这种方式整合的区域级特征对原有的MLLM影响最小。此外，由于RegionCLIP提供的特征本身已经在细粒度水平上与语言对齐了，再将其与MLLM对齐的开销就相对较小。受Liu等人[16]的启发，我们为PVIT设计了一个两阶段的训练策略，首先预训练一个线性投影，用来对齐区域特征和LLM的词嵌入，然后通过端到端的微调使模型遵循复杂的细粒度指令。

正如前面所提到的，细粒度的多模态指令数据是非常稀少的，这从训练和评估两个方面对研究造成了影响。为此，我们提出了一个区域级指令数据的生成方案，基于不同的数据源设计不同的方法用于满足区域级指令数据生成的需要。除此之外，我们还提出了一个新的评估数据集——FineEval，专门用来评估MLLMs遵循含有细粒度空间信息的指令的能力，我们希望我们提出的数据能够对未来该领域的研究有所帮助。

总而言之，我们的贡献主要有以下三点：

我们介绍了位置增强的视觉指令调优（PVIT），这是一种扩展MLLM的细粒度理解能力和交互能力的方法。
我们提出了一个区域级指令数据的构建方案以及一个评估数据集，以便于PVIT的训练和评估。
我们进行了大量的实验并且证明了我们提出的方法的有效性。

2.Related work

2.1 Multimodal Large Language Models 多模态大语言模型

为了充分利用LLMs强大的零样本学习和推理能力，越来越多的工作已经转向在LLMs的基础上构建视觉语言模型，这就是我们所说的多模态大语言模型（MLLMs）。具体来说，这些MLLMs可以分为两类。一些工作直接调用外部的多模态模型，利用现成的LLM的零样本和少样本学习能力来解释用户的意图[29,25,31]。尽管这些模型支持灵活的多模态能力，但它们的性能取决于LLM和外部模型本身的能力，因而性能受限。另一类工作则是将视觉编码器的输出特征与语言模型的特征空间对齐，并将其直接用作语言模型的输入，通过这种方式实现端到端的模型整合[29,25,31]。尽管它们取得了成功，这些端到端的MLLMs仅仅是将预训练的图像级视觉编码器与LLM对齐。相比之下，我们专注于通过位置增强的视觉指令调优来整合区域级视觉编码器的能力。

2.2 Region-Level Understanding for MLLMs MLLM的区域级理解

在视觉和语言预训练(VLP)中，为了增强模型对图像的细粒度理解能力，一般的做法是在预训练过程中集成广泛的区域级监督[13,36,32]。对于MLLMs而言，最近的一些工作已经作出了初步的尝试，它们通过微调MLLM使其能够支持包含区域信息的指令。具体来说，GPT4RoI[34]从MLLM的图像级视觉编码器中聚集了区域级特征，形成了包含图像级特征、区域级特征和语言指令的混合输入，并将其输入给LLM。Shikra[3]和ChatSpot[35]直接将空间坐标整合到指令数据中，并对MLLM进行微调使其能够理解它们。然而，因为这些模型是建立在图像级视觉编码器之上的，所以直接微调获得的区域级理解可能不是最优的，并且可能与现有功能相冲突。在本文中，我们通过整合一个额外的区域级视觉编码器来对扩展MLLM，以开发它的细粒度图像理解能力。

2.3 Multimodal Instruction Data 多模态指令数据

现有的工作以两种方式收集多模态指令数据。大部分工作都是利用已经标注好了的可用数据库来构建指令形式的数据集。一般来说，用作指令的任务描述是通过手动设计或LLM为每个数据集自动生成的。接着将它们与初始任务的输入和输出进行组合来创建指令数据集。尽管现有的基准数据集提供了大量的数据源，但它们往往达不到人类解决实际问题的需要。因此，另一些工作利用自指导方法（self-instruct pipeline），通过向LLM提供种子样例来使其生成更多的指令样例，以此收集不同的指令数据。例如，LLaVA[16]使用包含注解和边界框的图像的文本描述来激励GPT-4[19]生成高质量的多样化多模态指令示例。我们从这些工作中汲取灵感，并介绍了一种专门为区域级指令数据构建而设计的数据生成方法。

3.Methods

3.1 Model Design 模型设计

图2：PVIT的模型结构

如图2所示，我们的模型由三个基本部分构成：一个视觉编码器，一个区域编码器和一个大语言模型（LLM）。该模型将输入图像与包含嵌入区域的指令一起处理，并生成相应的响应。

以图2为例，指令可以被表示为“<图像>描述<区域1>和<区域2>之间的关系”。在此指令中，“<图像>”和“<区域>”是作为占位符的特殊标记，用于指示各自特征的插入位置。对于指令的文本部分，我们直接获得它们的词嵌入 $X_{T}$ 。

对于指令的区域部分，每个区域 $r_{k}$ 都表示为[x1, y1, x2, y2]，其中(x1, y1)和(x2, y2)表示左上角和右下角的相对坐标。我们使用RegionCLIP[36]作为区域编码器，以图像 $I$ 和 $r_{k}$ 为输入，使用感兴趣区域池化（RoI pooling）来提取区域特征。接着我们用一个线性投影层将区域特征映射到LLM的表示空间中。我们将所有最终区域特征的集合表示为 $X_{R}$ 。

我们使用CLIP ViT-L/14[22]作为图像编码器来处理图像 $I$ 并产生图像特征 $X_{I}$ ，接着LLM将特征 $X_{I}$ 、 $X_{T}$ 和 $X_{R}$ 进行组合，分别作为来自图像、指令和区域的输入，并生成响应 $Y$ 。

3.2 Training 训练

受Liu等人[16]的启发，我们的模型以两阶段的方式进行训练。在第一阶段，我们使用预训练的LLaVA[16]初始化模型，并固定图像编码器、区域编码器和LLM的参数不变。我们只训练负责变换区域特征的线性投影层。第一阶段的目的是在不影响MLLM本身的前提下，将区域特征和MLLM的嵌入空间对齐。为此，我们收集了一个大规模的区域级对齐数据集，每个示例由一张图像、一个边界框和边界框内对象的简短文本描述组成。在训练过程中，模型接收图像和边界框作为输入，然后预测相应的文本。

经过第一阶段的训练，模型已经能够理解区域特征，并能利用区域编码器的区域级理解能力。为了进一步增强模型对包含区域的指令的执行能力，我们采用了带有区域级指令数据的第二阶段训练。在此训练阶段，我们只保持图像编码器和区域编码器的参数不变，并对模型的其余部分进行微调以适应区域级指令。关于构造区域级指令数据的详细信息将在下一节中提供。

3.3 Region-level Instruction Data Construction 区域级指令数据构建

图3：我们提出的区域级指令数据构建方案的说明。在(a)中，我们利用现有的数据集(例如，GQA)，通过应用模板来构建简单的指令数据。在(b)中，我们基于为特定任务类型设计的提示和注释，利用ChatGPT生成更具有多样性的数据。在(c)中，我们通过改进的提示方法获得指令数据，首先从原始标注中生成图像的详细描述，然后从详细描述中提取自动接地注释（automatic grounding annotations）。最后，使用文字说明、详细描述、自动接地注释和随机选择的上下文示例作为提示，ChatGPT生成高质量的多轮指令数据，这些指令数据具有丰富的问题类型和复杂的推理答案。

如图3所示，我们的数据构建方案包括三种策略:(1)数据集转换：将现有的带边界框的视觉问答(VQA)数据集转换为区域级指令形式;(2)特定任务指令数据生成：它利用ChatGPT[18]为一组预定义的多模态任务生成区域级指令数据;(3)通用指令数据生成：通过自动生成的详细描述和接地注释（grounding annotations）来丰富图像，并辅以多种上下文示例，生成更通用的区域级指令数据。如图3底部所示，从第一种策略到第三种策略，生成的区域级指令数据的多样性是递增的，而由于计算能力和经济上的限制，数据的数量逐级递减。总的来说，这三种策略协同工作，使我们能够获得大量高质量和多样化的区域级指令数据。

3.3.1 Dataset Conversion 数据集转换

在该策略中，我们使用数据集特定的模板将现有的VQA数据集转换为区域级指令格式。我们使用了两个VQA数据集进行转换，包括GQA[7]和VCR[33]。该策略生成了146k个单轮次区域级指令数据。用于转换的模板可以在补充材料中找到。

3.3.2 Task-Specific Instruction Data Generation 特定任务指令数据生成

尽管我们能以很低的成本通过数据集转换获取大量数据，但这些数据的多样性仍然有限。为了解决这个问题，我们想到了使用ChatGPT为一组预先确定的多模态任务生成区域级指令数据。特别的是，我们选择了五个具有代表性的任务，包括小对象识别、同类对象识别、基于对象关系的推理、基于对象属性的推理和光学字符识别（OCR）。我们为每个任务设计了一个特定的提示，它由三部分组成：（1）一个概括了任务和数据格式要求的系统消息；（2）特定任务的上下文样例；（3）要生成新区域级指令的图像的文本描述。所有的提示都在补充材料中展示。通过相应地调整系统信息和上下文示例，我们可以获得单轮次和多轮次数据。我们总共实现了20k单轮次数据和66k多轮次数据。

为了获得图像的文本描述，我们使用了现有数据集中的详细注释。具体来说，我们利用了MS COCO[15]、Visual Genome[10]和COCO- text[27]的数据集。注释包括文字说明、对象属性、边界框等等。

3.3.3 General Instruction Data Generation 通用指令数据生成

为了进一步提高生成数据的质量和多样性，我们扩展了我们的程序以生成更通用的指令数据。该增强型数据的生成过程的概要如图3所示。

首先，我们注意到，当给出信息更丰富的图像文本描述时，ChatGPT产生更好的结果。因此，我们采用了LLaVA[16]的方法来利用ChatGPT生成详细的图像描述。这些描述通常比文字说明更长，蕴含的信息更丰富，并且与对象属性等更简单的注释相比，ChatGPT更容易理解这些描述。

其次，我们采用现成的视觉接地（grounding）模型[17]，将详细描述中的物体对齐（ground）到图像中相应的位置，即识别物体的边界框。太小的边界框将被丢弃。

第三，由于来自现有数据集的上下文示例往往只涵盖一个狭窄的主题范围，我们头脑风暴出了若干上下文样例。因此，这些新造的上下文样例就与那些来自现有数据集的样例明显不同。

最后，对于每个图像，我们将文本说明、详细描述和接地注释（grounding annotations）结合起来作为其文本描述，并从我们新创建的上下文示例集中随机选择三个实例。然后，我们将文本描述和选出的上下文示例输入ChatGPT以生成区域级指令数据。提示符的结构类似于特定任务指令数据生成策略中的结构，但是只使用一个提示符。通过这种增强策略，我们成功地获得了总计22k个高质量的数据条目，充满了多样化的问题类型和复杂的推理响应。

4.Experiments

4.1 BaseLines 基准

我们将我们的模型与三种强大的基准进行比较：

LLaVA[16]，一种在图像级多模态指令数据上训练的MLLM。
Shikra[3]，一种用参考对话数据训练的MLLM，这些数据是GPT-4通过将现有数据集转换为对话的形式合成而来的。
GPT4RoI[34]，一种用多模态指令数据训练的MLLM，这些数据来源于现有数据集，它使用来自LLaVA的模板和数据集，并增强了自动检测的边界框。

4.2 Implementation Details 实现细节

我们基于LLaVA-7B框架构建了我们的模型[16]。对于区域编码器，我们采用了RegionCLIP模型的一种变体，使用ResNet50x4作为视觉主干，并在Conceptual Captions数据集上进行预训练[24]。在第一个训练阶段，我们的batch size为128，每个epoch的学习率设为2×10^-3。采用余弦退火学习率调节算法，预热比为0.03。在第二个训练阶段，我们将学习率降低到2×10^−5，并且训练了三个epoch。LLM的最大序列长度设置为2048。所有的训练都是在8个A100 GPU上进行的，每个GPU有40GB的内存。

4.3 Objective Evaluation 客观评价

在本节中，我们定量地测试了模型的对象识别和多模态推理能力。

表1：识别任务(COCO)和多模态推理任务(GQA)的结果

4.3.1 Object Recognition 对象识别

为了进行评估，我们使用MS COCO的验证集[15]。当给出一个图片和边界框的时候，模型需要辨别边界框内物体的类别。准确度被用作评估指标。对于不处理特定区域输入的LLaVA，我们通过使用与指定边界框对齐的裁剪图像进行调整。

如表1所示，我们提出的PVIT和基准GPT4RoI都明显优于LLaVA和Shikra。我们认为这种优越性是因为PVIT和GPT4RoI都整合了区域级特征。在所有比较的模型之中，LLaVA的表现差的多。这个结果符合我们的预期。使用裁剪后的图像会引起数据分布的变化，使其成为次优。因此，细粒度多模态指令调优是一个很有前途的方向。

4.3.2 Multimodal Reasoning 多模态推理

我们使用GQA[7]的验证集进行评估。GQA是一个视觉问答(QA)数据集，专门用于评估视觉推理和组合QA能力。对于LLaVA，输入是问题和整个图像。对于其他三个MLLMs，输入数据还包括GQA数据集中提供的问题的边界框信息。同样以精确度作为评价指标。

结果如表1所示。我们提出的PVIT达到了最高的性能，展示了它的功效。然而，与其在COCO数据集上的性能相比，GPT4RoI并没有超过Shikra。我们认为这是因为GQA数据集中的问题可以在不引入边界框的情况下解决。因此，GPT4RoI没有从区域级特征中获得优势，这从另一个角度强调了我们方法的优越性。LLaVA同样也落后了。我们猜测这可能是因为用于训练LLaVA的指令数据集的大小和多样性都有限。

4.4 Human Evaluation 人类评估

与LLMs类似，自动评估MLLMs遵循指令的能力也是一个相当大的挑战。因此，我们转向了人类评估。我们提出了一种新的评估数据集——FineEval，专门用来评估MLLMs遵从含有细粒度空间细节的指令的能力。FineEval涵盖了基于50张图片的130个人工提出的问题。这些问题通过四个独特的视角探究模型的能力:对象识别、属性描述、推理和其他。值得注意的是，FineEval中的问题强调详细的空间信息，涉及各种相对较小的对象，并解决对象之间的复杂关系。图4显示了两个示例和FineEval的统计信息。

图4：我们提出的人类评估数据集FineEval中的两个例子（左图），以及FineEval的统计数据（右图）。

4.4.1 Quantitative Results 定量结果

受欧阳等人[21]的启发，我们采用两两比较来评估模型在FineEval上的性能。对于任意两个模型，人类评估者对它们的反应进行排名，然后计算整个数据集的胜率作为评估指标。为了减少偏差，我们随机化了答案呈现的顺序，并招募了五位评估者进行评估，这意味着每个回答将收到五个单独的排名结果。

我们提出的PVIT和LLaVA、Shikra以及GPT4RoI的对比结果如图5所示。从这些结果中可以明显看出，PVIT的表现始终优于其他三个基准线，而且通常有很大的优势。唯一的例外是在物体识别领域，PVIT稍微落后于Shikra。深入研究结果，我们发现这是由于PVIT的物体计数能力弱于Shikra。我们从理论上认为，这一问题可以通过在训练集中整合更多的特定计数指令数据来纠正，并将它作为未来的工作。

图5：PVIT对战LLaVA (a)、Shikra (b)、GPT4RoI (c)的人类排名胜率。

4.4.2 Qualitative Results 定性结果

图6：6个具有代表性的案例，它们展示了PVIT方法的不同功能。

为了提供对模型功能的全面理解，我们在图6中展示了几个案例。首先，必须强调的是，如果没有边界框的帮助，这些案例中的许多问题将很难被清晰地表述出来。例如，在案例1、2、3、6中，多个对象属于同一类别，这就使得仅仅使用语言指明目标对象而不在无意中泄露答案变得困难。这一遵循与我们探索MLLM的细粒度多模态指令遵从能力的基本原理一致。深入研究这些案例，我们想强调以下四种能力:

(1)物体识别:我们的模型擅长识别由边界框划分的物体。首先，正如预期的那样，它有效地识别了较大的物体，这与表1所示的结果一致。其次，该模型展示了识别较小物体的专业能力，如在案例1中正确地将“[REGION-1]”识别为屏幕，在案例5中将“[REGION-2]”正确识别为鱼。此外，它还可以区分同一图像中的各种边界框。例如，在案例1中，它准确地分辨出了对应于不同物体的边界框。

(2)属性描述:除了单纯的对象识别，我们的模型还能有效地描述它们的属性。它不仅能够详细地描述视觉上呈现出来的属性，例如颜色和位置，甚至对于较小的物体，他也能够详细阐述在图像中不可见的物体的固有特征。例如，案例5中对水母生成的大部分描述都是从外部知识中推断出来的，而不是基于图像本身。这表明，使用MLLM做传统的纯视觉任务可能会带来巨大的潜力，因为它能提供未封装在图片中的大量信息。

(3)推理:我们的模型展示了基于图像和指令的推理能力。例如，在示例2中，它同时识别游泳者和她的手，从逻辑上推断出手属于游泳者。在案例3中，它辨别出鱼之间的颜色变化，并利用其视觉对比知识来解释为什么红色的鱼会脱颖而出。

(4)文本生成:尽管在多模态数据集上进行了微调，我们的模型仍保持了鲁棒的文本生成能力。从上述案例中可以看出，它的大多数回答是连贯的，并且从语法上来讲也是正确的，案例1和案例4是代表性的例子。然而，需要强调的是，这些案例并不能完全评估我们方法的文本生成能力。完整的评估留给以后的工作。

4.5 Ablation Study 消融实验

4.5.1 Effect of Region Representations 区域表示的效果

为了评估使用区域编码器获得的区域级特征的有效性，我们尝试用文本坐标代替它们。具体来说，每个区域 $r_{k}$ 都表示为[x1, y1, x2, y2]，其中(x1, y1)和(x2, y2)表示左上角和右下角的相对坐标。所有坐标都归一化为[0,1]范围，并四舍五入到小数点后三位。这些坐标直接以文本的形式并入指令中，例如，“描述[0.121，0.212，0.301，0.413]中的对象”。我们用类似的两阶段方法训练这个模型。在第一阶段，只训练LLM的词嵌入部分。在第二阶段，除了图像编码器中的参数外，所有模型参数都是可训练的。注意，在这个模型中没有区域编码器。从表2的结果可以明显看出，区域级特征的使用大大提高了性能。这强调了集成区域编码器的价值。

表2：不同类型的区域表示方法在识别任务上的比较。“文本坐标”指的是直接将区域坐标作为文本数据输入的方法。

4.5.2 Impact of Textual Descriptions for Images 文本描述对图片的影响

鉴于在数据生成过程中文本描述对图像的重要性，我们探索了通用指令数据生成过程中的四种独特的文本描述类型:(1)详细描述和自动接地注释;(2)文字说明和手工对象标注;(3)文字说明、详细描述、自动接地注释;(4)文字说明、手工对象标注和详细描述。我们从格式正确性、问题多样性和创造性以及答案正确性三个角度，对30张相同的图片使用这些文本描述而生成的数据做了手动评估。表3中的结果表明，第三种产生的数据最优越，并且在我们的工作中得到了应用。