Mini-Monkey: Multi-Scale Adaptive Cropping for Multimodal Large Language Models

总结

问题背景与挑战

  • 传统的裁剪策略在处理高分辨率图像时,会导致对象或连通区域的分割,特别是在轻量级多模态大型语言模型 (MLLM) 中,这影响了对小或不规则形状对象和文本的识别能力。
  • 这种现象在文档理解任务中尤为明显,会产生所谓的“锯齿效应”,导致语义不连贯。

Mini-Monkey 模型的提出

  • Mini-Monkey 是一种轻量级的 MLLM,旨在通过改进裁剪策略来缓解上述问题。
  • 该模型引入了多尺度自适应裁剪策略 (MSAC),能够生成多尺度表示,从而在不同尺度上选择未被分割的对象特征,避免裁剪策略引起的语义不连贯问题。

尺度压缩机制 (SCM)

  • 为了降低 MSAC 带来的计算成本,文章提出了一种尺度压缩机制 (SCM),通过压缩图像标记,减少计算开销。SCM 是一个无训练和无参数的模块,利用已训练的注意力层来选择必要的视觉特征。

实验结果

  • Mini-Monkey 在多个多模态理解任务和文档理解任务中表现优异,特别是在 OCRBench 基准测试中,得分为 802,超过了参数量更大的模型(如 InternVL2-8B)。
  • 实验还证明了 Mini-Monkey 的训练效率很高,仅使用了八个 RTX 3090 GPU。

总结与贡献

  • Mini-Monkey 提供了一种有效且资源高效的解决方案,显著提高了 MLLM 在高分辨率图像处理中的能力,尤其在轻量级模型中表现突出。
  • 该方法可以在不同的 MLLM 架构中推广应用,表明其广泛的适用性和潜力。

Abstract

最近,人们对增强多模态大型语言模型 (MLLM) 处理高分辨率图像的能力产生了浓厚的兴趣。大多数现有方法侧重于采用裁剪策略来提高多模态大型语言模型理解图像细节的能力。然而,这种裁剪操作不可避免地会导致对象和连接区域的分割,这削弱了MLLM识别小或不规则形状的对象或文本的能力。这个问题在轻量级 MLLM 中尤为明显。为了解决这个问题,我们提出了Mini-Monkey,这是一种轻量级的MLLM,它结合了一种称为多尺度自适应裁剪策略(MSAC)的即插即用方法。Mini-Monkey 自适应地生成多尺度表示,使其能够从各种尺度中选择非分段对象。为了减轻 MSAC 引入的计算开销,我们提出了一种尺度压缩机制 (SCM),它有效地压缩图像标记。Mini-Monkey 在 2B 参数 MLLM 中实现了最先进的性能。它不仅在各种通用多模态理解任务上展示了领先的性能,而且在文档理解能力方面也显示出一致的改进。在 OCRBench 上,Mini-Monkey 得分为 802,优于 8B 参数最先进的模型 InternVL2-8B。此外,我们的模型和训练策略非常高效,仅用8个RTX 3090进行训练。代码可在https://github.com/Yuliang-Liu/Monkey获得。

1 Introduction

近年来,自然语言处理 (NLP) 领域表现出显着的范式转变,其特点是专注于大型语言模型 [80, 3, 66, 56] (LLM) 的发展。这种转变为创建能够处理一般视觉和语言理解的多模态大型语言模型 (MLLM) 铺平了道路 [33, 41, 2]。研究人员正在积极探索将视觉编码器与llm集成的有效方法。一些方法,如Flamingo[1]、BLIP-2[33]、MiniGPT4[82]和Qwen-VL[2]利用一组可学习的查询对图像标记进行采样,并将图像标记与大型语言模型对齐。相比之下,LLAVA [42] 和 CogVLM [67] 等其他方法建议使用线性层来实现这一点。尽管取得了这些成就,但由于处理的分辨率有限,以前的多模态大型语言模型并没有取得详细的场景理解。

最近的工作试图通过扩展图像的输入分辨率来解决这个问题。裁剪策略是最常用的方法之一[40,74,36,8,60,72]。最简单的裁剪策略有很多技术扩展。例如,Monkey[36]利用LoRA[23]进入视觉编码器,从子图像中学习细节敏感特征。尽管这些方法已经显示出有希望的结果,但它们的性能仍然落后于领先的商业模型。为了弥合这一差距,InternVL 1.5[8]采用了一种强大的视觉编码器[9]来增强视觉表示,并使用动态高分辨率将分辨率扩大到4K,显著提高了性能。

在这里插入图片描述

图 1:裁剪引起的锯齿效应。(a) 输入图像 (b) 裁剪策略。© 重叠裁剪策略。(d) Ours:多尺度自适应裁剪策略。

锯齿效应(Sawtooth Effect)通常是指在数字图像处

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值