Monkey : Image Resolution and Text Label Are Important Things for Large Multi-modal Models

总结

引入Monkey模型:

  • Monkey模型通过处理高达1344×896像素的高分辨率图像,增强了LMM在复杂视觉场景中的表现。
  • 该模型通过窗口方法将高分辨率图像分割为小块,使每个补丁与训练良好的视觉编码器的原始训练分辨率(例如448×448)相匹配,从而提高视觉细节捕获能力。

多级描述生成方法:

  • 为了生成高质量、详细的图像描述,Monkey结合了多个先进系统的输出,如BLIP2、PPOCR、GRIT、SAM、和ChatGPT,通过这些系统的整合,模型能够更好地捕获场景中的细节和上下文关联。
  • 这种方法弥补了传统数据集在图像-文本对齐上的不足,生成了更丰富的字幕数据,增强了模型对复杂图像的理解。

实验验证与结果:

  • 在18个不同的数据集上进行了广泛实验,证明了Monkey在图像字幕、视觉问答等任务中的表现优于现有LMM模型。
  • 特别是在文本密集型的视觉问答测试中,Monkey相比GPT4V展现出了更好的表现。

消融研究:

  • 通过消融研究验证了Monkey在提高输入分辨率和利用可训练适配器上的有效性,证明了这种方法相比传统插值技术的优势。

局限性:

  • 由于语言模型输入长度的限制,Monkey最多只能处理六个图像补丁,限制了更大分辨率图像的处理能力。
  • 该方法依赖于BLIP2和CC3M的预训练知识,无法识别和指定图像中超出这些知识范围的场景。

总结与结论:

  • 通过Monkey模型提出的高效训练方法和多级描述生成策略,该模型在多个基准上表现出色,尤其在处理高分辨率图像和生成详细场景描述方面,展示了卓越的性能。

文章内容

Abstract

大型多模态模型 (LMM) 在视觉语言任务中显示出了希望,但在高分辨率输入和详细的场景理解方面遇到了困难。为了应对这些挑战,我们引入了Monkey来增强LMM能力。首先,Monkey 通过将输入图像划分为统一的补丁来处理输入图像,每个补丁都匹配训练良好的视觉编码器的原始训练中使用的大小(例如 448×448)。Monkey配备了每个补丁的单个适配器,可以处理高达1344×896像素的更高分辨率,从而详细捕获复杂的视觉信息。其次,它采用多级描述生成方法,丰富了场景-对象关联的上下文。这种两部分策略确保了从生成的数据中更有效的学习:更高的分辨率允许对视觉进行更详细的捕获,这反过来又增强了综合描述的有效性。广泛的消融结果验证了我们设计的有效性。此外,在 18 个数据集上的实验进一步表明,Monkey 在图像字幕和各种视觉问答格式等许多任务中超越了现有的 LMM。特别是,在专注于密集文本问答的定性测试中,Monkey 与 GPT4V 相比表现出令人鼓舞的结果。代码可在 https://github.com/Yuliang-Liu/Monkey 获得。

1. Introduction

大型多模态模型 (LMMs) 领域因其在处理不同类型的数据(如图像和文本)方面的技能而迅速推进。他们在各种任务中的成功,包括图像字幕和视觉问答,引起了学术界的关注。

训练LMMs从高分辨率图像[3]中受益匪浅,因为更高的分辨率允许这些模型检测更细微的视觉细节,从而准确识别对象、它们的相互关系以及图像中更广泛的上下文。此外,高分辨率图像的改进视觉清晰度有助于有效地捕获和表示对详细字幕至关重要的复杂细节。尽管取得了进展,但处理广泛的图像分辨率和训练数据质量仍然具有挑战性,尤其是在复杂的情况下。解决方案包括使用输入分辨率较大的预先训练的视觉模块(如LLAVA1.5[28]),并通过课程学习逐步提高训练过程的分辨率(如Qwen-VL[3]、PaLI-3[10]和PaLI-X[9]),但它们需要大量的训练资源,在处理更大的图像大小时仍然面临挑战。为了充分利用大输入分辨率的好处,拥有更详细的图像描述是至关重要的,可以增强对图像文本关系的理解。然而,广泛使用的数据集(如 COYO [6] 和 LAION [43])中的短字幕通常直观上是不够的。

在这里插入图片描述

图 2. Monkey 的整体架构。它通过从原始图像中捕获全局特征和来自分割补丁的局部特征来实现高分辨率。所有补丁都通过共享的静态 Vit 编码器进行处理,例如具有 2b 参数的 Vit-BigG。

我们引入了Monkey,这是一种资源高效的方法,可以在大型多模态模型框架内提高输入分辨率。与直接插值 ViT 以增加输入分辨率的方法相比,Monkey 使用了一个新模块,该模块使用滑动窗口方法将高分辨率图像划分为更小的补丁。每个补丁都由静态视觉编码器独立处理,通过 LoRA [18] 调整和可训练的视觉重采样器增强。该技术利用现有的LMM,同时规避对广泛预训练的需要。关键思想是这些编码器通常在较小的分辨率(如 448×448)上进行训练,这从头开始训练成本很高。通过将每个补丁的大小调整为其支持的分辨率,我们维护编码器的训练数据分布。我们的方法使用各种可训练的补丁来提高分辨率,显示出与传统的位置嵌入插值技术相比的明显优势,正如我们的定量分析所证明的那样。

为了进一步利用高分辨率的优势,我们还提出了一种自动多级描述生成方法。该方法旨在通过无缝集成来自多个生成器的见解来生成高质量、丰富的字幕数据。它利用各种先进系统的优势:BLIP2 [27],以其细微的图像-文本理解而闻名; PPOCR [14],一个强大的光学字符识别系统; GRIT [51],它在颗粒图像-文本对齐方面表现出色; SAM [24],一种用于语义对齐的动态模型;和 ChatGPT [39],一种以其上下文理解和语言生成能力而闻名的 AI。通过整合这些系统的独特能力,我们的方法为字幕生成提供了一种全面和分层的方法,捕获了广泛的视觉细节。

我们总结了Monkey的优点如下:

在没有预训练的情况下,支持高达1344×896的分辨率。通过超越 LMM 中使用的通常 448×448 分辨率,更高的分辨率有助于更好地识别和理解小或紧密分组的对象和密集文本。

上下文关联。我们引入了一种多级描述生成方法,该方法提高了模型对多个目标之间关系的掌握能力,更有效地利用常识知识生成文本描述。

在许多评估数据集上的性能增强。如图 1 所示,我们在 18 个不同的数据集上进行了实验,导致我们的 Monkey 模型在图像字幕、通用视觉问答、场景文本中心视觉问答和面向文档的视觉问答等任务中表现出非常有竞争力的性能。特别是,在以密集文本问答为中心的定性评估期间,Monkey 显示出有希望的结果,与 GPT4V 相比。

在这里插入图片描述

图 3. 图像的多级描述生成的管道。

2. Related Work

大型多模态模型 (LMM) 领域取得了重大进展,尤其是在增强视觉和语言处理方面。Flamingo[1]和OpenFlamingo[2]等方法通过将Perceiver Resampler与视觉编码器相结合,具有先进的视觉表示。BLIP2[27]采用Q-Former将冻结的LLM和视觉编码器联系起来。Unified-IO [32] 通过跨 80 多个不同数据集的训练来展示多功能性,扩大了其领域适用性。PaLM-E [13] 采用独特的方法,将图像和文本视为“多模态句子”来改进视觉语言任务。MiniGPT4[57]连接视觉模块和llm,增强多模态能力。InstructBLIP [12] 从 BLIP2 开始,在 Q-Former 中为与任务相关的视觉特征添加了教学输入。MME [15] 引入了一个评估 LMM 感知和认知的基准。

此外,利用大型语言模型取得了重大进展。LLAVA系列,包括LLAVA[29]和LLAVA1.5[28],对齐视觉编码器和llm,以获得更好的图像-文本理解。mPLUGOwl [53] 专注于使用混合文本和视觉文本数据进行微调。mPLUG-Owl2 [54] 引入了共享模块以获得更好的模态协作。KOSMOS-2 [42] 实现了检测框等视觉答案。Shikra [7] 专门从事参考对话,擅长处理位置输入和输出。BLiVA[19]结合了与任务相关的全局特征和全局特征来增强多模态任务处理。Qwen-VL [3] 将视觉模块分辨率提高到 448。 OtterHD [26] 使用指令/响应对微调 Fuyu-8B [4],在推理过程中保持原始图像大小。

尽管有这些进步,但在提取更精细的图像特征方面仍然存在挑战,如 [30, 52] 中所述,这表明该领域需要不断发展。

3. Methods

图 2 说明了 Monkey 的整体架构。最初,输入图像被分割成小块。然后,这些补丁通过配备不同适配器的共享视觉转换器 (ViT) 进行处理。随后,局部和全局特征以及问题都使用共享重采样器和大型语言模型 (LLM) 进行处理,从而产生所需的答案。

3.1. Enhancing Input Resolution

输入分辨率对于准确解释文本和详细的图像特征至关重要。先前的研究 [3, 10] 展示了从较小分辨率开始并通过课程学习逐步推进到更大的分辨率的有效性。然而,这种方法可能要求很高,通常需要对大规模数据进行全面的预训练(如 QwenVL 所示,支持高达 448×448 的分辨率)。为了解决这些问题并有效地提高分辨率,我们引入了一种简单而有效的技术。

给定一个图像 I ∈ RH×W ×3,我们使用滑动窗口 W ∈ RHv ×Wv(其中 Hv , Wv 表示原始 LMM 的支持分辨率)将图像划分为更小的局部部分。我们还在每个共享编码器中利用 LoRA [18] 来解决图像不同部分的不同视觉元素。LoRA 的这种集成是为了帮助我们的编码器有效地识别和吸收每个图像区域的细节敏感特征,这增强了对空间和时间关系的理解,而不会显着增加参数或计算需求。

为了保留输入图像的整体结构信息,我们将原始图像的大小调整为维度 (Hv , Wv ),将其维护为全局图像。在此之后,单个补丁和全局图像都通过视觉编码器处理并同时重新采样器。在这里,受 Flamingo [1] 的启发的视觉重采样器是一种执行两个主要功能的机制:总结视觉信息并在语言特征空间中获得更高的语义视觉表示。它通过利用交叉注意模块来实现这一点。该模块使用可训练向量(嵌入)作为query向量,以及来自视觉编码器的图像特征作为交叉注意力操作的keys。

在 Flamingo 模型中,交叉注意力(Cross-Attention) 是一个关键机制,用于在多模态任务中将不同模态的信息(如视觉和语言)进行交互和融合。交叉注意力的设计使得模型能够在一个模态(如图像)中选择性地关注另一个模态(如文本)中的相关信息,从而更好地理解和处理多模态输入。

交叉注意力的工作原理

  1. 多模态输入:Flamingo 模型接收多模态输入,比如一组图像和对应的文本描述。这些输入通常在各自的模态中经过初步处理,生成相应的特征表示。例如,图像经过卷积神经网络(CNN)提取视觉特征,文本通过嵌入层或 Transformer 生成语言特征。
  2. 注意力机制:交叉注意力的核心是注意力机制,它允许模型在处理一种模态的数据时,参考和关注另一种模态中的关键信息。在 Flamingo 中,图像特征可以作为“查询”(query),而文本特征作为“键”(key)和“值”(value),通过注意力机制计算图像特征在文本中的相关性。这意味着,模型在处理视觉数据时,能够从文本中选择性地提取与当前图像相关的信息。
  3. 模态间交互:交叉注意力机制的优势在于它能够在多模态任务中实现模态间的信息交互。通过交叉注意力,图像和文本这两种模态的信息得以融合,模型能够更好地捕捉它们之间的关联,从而在生成图像描述、回答视觉问答等任务中表现得更好。
  4. 动态关联:交叉注意力的灵活性使得 Flamingo 能够动态调整模态之间的关联性。例如,当模型处理一个图像中的某个特定区域时,它可以通过交叉注意力机制关注与之相关的文本描述部分,这种动态关联有助于模型生成更加准确和连贯的输出。

总结

在 Flamingo 中,交叉注意力的作用主要体现在以下几个方面:

  • 信息融合:将不同模态的信息(如图像和文本)进行有效融合,增强多模态任务的表现。
  • 相关性捕捉:通过注意力机制,模型能够在一个模态中选择性地关注另一个模态中的相关信息,提升理解能力。
  • 动态调整:交叉注意力使得模型能够根据输入内容动态调整模态间的关联性,从而生成更加精确的输出。

这种方法在图像的详细和整体视角之间取得了平衡,从而提高了模型的性能,同时避免了计算需求的大幅增加。

3.2. Multi-level Description Generation

以前的模型如LLAVA[29]和Qwen-VL[3]使用LAION[43]、COYO[6]和CC3M[44]等大型数据集进行初始训练。然而,这些数据集通常提供过于简单的图像-文本对(例如,描述复杂图像的短句),缺乏详细的图像。因此,即使这些模型是用高分辨率图像训练的,它们也很难准确地将视觉特征与基本标题联系起来。这种限制会影响模型有效地将视觉处理与语言理解相结合。

为了弥合这一差距,我们开发了一种自动生成多级描述的新方法。该技术旨在通过有效地混合各种生成器的输出来创建丰富且高质量的字幕数据。我们利用几个高级系统的组合,每个系统都将其自己的强度带到过程中:BLIP2 [27],它提供了对图像和文本之间关系的深刻理解; PPOCR [14],光学字符识别的强大执行者; GRIT [51],专门用于详细的图文匹配; SAM [24],专注于语义对齐;和 ChatGPT [39],以其在上下文语言生成方面的特殊能力而闻名。

如图 3 所示,图像描述过程从 BLIP2 开始,使用 Q-former 创建整体字幕,以与视觉编码器和 LLM 紧密集成,同时保留原始 CC3M 注释以进行上下文。接下来,GRIT 是一个区域到文本模型,生成特定区域、对象及其特征的详细描述。PPOCR从图像中提取文本,SAM片段并识别对象及其部分。然后,这些对象由 BLIP2 单独描述。然而,为了应对这些工具的潜在不准确,尤其是在零样本设置中,我们发现使用 BLIP2 来检查图像区域、对象及其描述之间的一致性至关重要,过滤掉低分匹配。最后,所有数据,包括全局字幕、本地化描述、文本提取和具有空间坐标的对象细节,都被输入 ChatGPT API 进行微调,使 ChatGPT 能够生成准确和上下文丰富的图像描述。

3.3. Multi-task Training

我们的目标是训练一个模型,该模型既具有成本效益,又能够理解各种任务的不同类型的图像。通过集成各种数据集并为所有任务使用统一的指令,如 [3] 指导,我们增强了模型的学习能力和训练效率。

我们专注于创建图像标题、响应基于图像的问题和其他需要模型处理文本和图像的活动等任务。对于字幕,我们用“生成英文标题”指示模型:用于基本字幕,“生成英文的详细标题:”表示更复杂的字幕。在回答有关图像的问题时,我们使用直接格式:“{question} Answer:{answer}。”

在我们的训练过程中,我们使用了针对特定任务量身定制的各种公共数据集。对于图像字幕,我们包括我们自己的详细字幕和已建立的数据集,如 COCO 字幕 [22] 和 TextCaps [45]。对于一般的视觉问答(VQA),我们利用VQAV2[16]、OKVQA[34]、GQA[20]、ScienceQA[33]和VizWiz[17]等数据集。对于以文本为中心的 VQA 任务,我们选择 TextVQA [46]、OCRVQA [38] 和 AI2D [23];而对于与文档相关的 VQA,我们采用了 DocVQA [36]、ChartQA [35]、InfoVQA [37]、DeepForm [48]、Kleister Charity (KLC) [47]、WikiTableQuestions (WTQ) [41]、TableFact [8] 和 VisualMRC [49] 等数据集。我们使用我们的多级描述生成方法从 CC3M 数据集中重新生成大约 427k 个图像-文本对,该数据集以前用于 LlaVA 的预训练阶段。为了确保平衡训练,我们控制每个任务的图像计数,详见 Tab。1. 我们编译的数据集,大约有 1.44 亿个示例,旨在有效地训练我们的模型来理解和执行各种指令。

4. Experiment

我们通过在广泛的标准视觉语言任务中测试它来评估我们的模型,包括图像描述的生成、回答不同的视觉问题以及理解图像中的目标短语。

4.1. Implementation Detail

模型配置。我们基于QwenVL3中训练有素的Vit-BigG[21]和LLM进行了实验。由于视觉编码器已经得到了很好的预训练,我们直接进入指令微调阶段。在指令调整期间,Hv 、 Wv 设置为 448 以匹配 Qwen-VL 的编码器。我们在所有作物中使用一致的重采样器。可学习的查询涉及局部特征,为每个作物使用相同的 256 个可学习查询集。由于训练时间的限制,我们的主要实验主要使用大小为 896×896 的图像进行,除非指定。对于 LoRA,我们将注意力模块的排名设置为 16,编码器中的 MLP 设置为 32。Monkey 包含大型语言模型的 7.7B 参数,重采样模块有 90M 参数,LoRA 有 1.9B 参数的编码器和 117M 参数。Monkey 的总体参数为 9.8B。

Training。在训练过程中,我们使用学习率为 1e-5 的 AdamW 优化器 [31] 和余弦学习率计划。此外,我们将 β1 和 β2 的值分别设置为 0.9 和 0.95。我们合并了 100 步的预热期,并使用 1024 的批量大小。为了控制过度拟合,我们应用了 0.1 的权重衰减。整个训练过程一个 epoch 需要 40 A800 天。

4.2. Results

在这里插入图片描述

表 2. 图像标题和通用 VQA 的结果。

表 3. 以场景文本为中心的 VQA 的结果。

表4。面向Doc的VQA结果。

4.3. Ablation Study

在这里插入图片描述

表 5. 使用 Qwen-VL(最初使用 448×448 训练)增强输入分辨率和可训练适配器数量的消融研究。* 指使用传统的位置位置插值直接将视觉编码器的输入大小从 448 缩放到 896。

在这里插入图片描述

表6。LLAVA1.5的消融研究。“Res.”表示分辨率。“PT”是指预训练数据。

4.4. Visualization

在这里插入图片描述

图5。在一些文本密集的测试样本上,与GPT4V相比,Monkey表现出了令人印象深刻的性能。

4.5. Limitation

由于语言模型的输入长度有限,我们的方法处理输入图像的能力被限制为最多六个补丁。这种限制阻碍了输入分辨率的进一步扩展。

此外,对于多级描述生成方法,它只能描述图像中呈现的场景,其范围受封装在 BLIP2 和原始 CC3M 注释中的世界知识的限制。例如,当提供国家位置的照片时,该方法可以描述场景的视觉方面,但它缺乏识别和指定场景确实在该国家的能力。

5. Conclusion

本文提出了一种训练高效的方法,在不从一开始就进行预训练的情况下,有效地将输入分辨率容量提高到1344×896像素。为了弥合简单文本标签和高分辨率之间的差距,我们提出了一种多级描述生成方法,该方法自动提供丰富的信息,可以引导模型学习场景和对象之间的上下文关联。随着这两种设计的协同作用,我们的模型在多个基准上都取得了优异的成绩。通过将我们的模型与各种 LMM 进行比较,包括 GPT4V,我们的模型通过关注文本信息并捕获图像中的精细细节来展示图像字幕的良好性能;它改进的输入分辨率也可以在具有密集文本的文档图像中取得显着的性能。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值