2B 最强多模态大模型——Mini-Monkey!

关注公众号,发现CV技术之美

本篇分享论文Mini-Monkey: Multi-Scale Adaptive Cropping for Multimodal Large Language Models,华科大提出2B最强多模态大模型- Mini-Monkey!

0a4835c9900b68855f634e66cfef08d6.png
  • 论文地址:https://arxiv.org/pdf/2408.02034

  • 项目地址:https://github.com/Yuliang-Liu/Monkey


研究动机


随着自然语言处理(NLP)领域的飞速发展,大型语言模型(LLMs)已成为研究的热点。然而,现有的多模态大型语言模型在处理高分辨率图像时通常使用一个切分策略,这个切分策略会不可避免会对目标、联通区域带来割裂,导致MLLM对于微小或形状不规则的目标的辨识能力。这个现象在文档理解任务中,表现极为明显,这限制了它们对细节场景的理解能力。

如下图(b)所示,切分策略导致图片中问题的语义丢失了,把豚鼠的鼻子看成了一直猴子。Mini-Monkey正是为了解决这一问题而生。

Mini-Monkey不仅在2B参数规模的MLLM中取得了SOTA性能,更在OCRBench基准测试中以802分的成绩,超越了8B参数的现有最先进模型InternVL2-8B。

b8032c83d82961340bfbed811bd8b6e7.jpeg
图1. (a)输入图像。(b)切分策略导致的“锯齿效应”。(c)有重叠的进行切分。(d)本文提出的方法。

方法


  1. Mini-Monkey提出了两个重要创新:多尺度自适应裁剪策略(MSAC)尺度压缩机制(SCM)

  2. MSAC策略允许Mini-Monkey在不同尺度上捕捉图像特征,有效避免了因裁剪导致的信息丢失。

  3. SCM的应用不仅减轻了计算负担,更通过智能压缩,确保了模型在处理大量视觉数据时的高效性。

08716ba1674b0dcab1cb258206be7df7.png
图2 总体方法框图

多尺度自适应裁剪策略(MSAC)

  • MSAC通过预设的一组网格,根据网格的宽高比和分辨率执行分层操作。

  • 每个分层层选择不同的宽高比,确保文本不会在不同图像中被分割。

  • 详细层(Detailed layer,)负责提供详细的信息,限制子图像的最大和最小尺寸,以确保图像中的对象尽可能清晰。

  • 适应层(Adaptive layer)与详细层协同工作,确保裁剪线在详细层和适应层之间不重叠,以提供不同尺度的非分割对象特征。

  • 全局层(Global layer)负责提供全局的图片信息。

  • 不同层之间协同工作相互促进,提高了图片信息的利用效率

尺度压缩机制(SCM)

  • SCM主要对详细层的视觉Tokens进行压缩,因为这些标记通常具有较低的信息密度。而适应层和全局层的Tokens则提供给LLM完整的空间信息,使得在降低计算量的同时,能提供较多的信息量给LLM,进而实现了比较高的性能。

  • SCM利用大型语言模型(LLM)中的注意力层来确定哪些视觉标记是重要的。通过这种方式,它能够识别出信息密度较高的标记,并将它们保留,同时过滤掉那些相对不那么重要的标记。

  • SCM是一个无需训练的模块,这意味着它不会引入额外的训练成本。它直接利用已经训练好的LLM的注意力层来工作。

  • 与FastV对比:SCM:通过注意力机制压缩具有低信息密度的标记,保留自适应层和全局层的视觉标记,为LLM提供了完整的空间信息。FastV:压缩策略可能包括随机选择或基于其他启发式的方法来减少标记数量。在论文的消融研究中,SCM在50%压缩和90%压缩的条件下,分别比FastV的性能高出21.5%和4.4%,这表明SCM在压缩效率和保持模型性能方面更为有效。


试验结果


Mini-Monkey在11个通用多模态理解基准测试中超越了其他2B参数模型,并在多个与文本相关的基准测试中取得了优异的成绩。

9bc847027c1da19cef4cba2002d41783.png
表1. 多模态理解基准上的结果
572b778b0c8f9b776dd48f605d5a7674.png
表2. 文本相关的基准

消融实验

9a5b5222c510dc01f792f0449c2dd23d.png
表3. 多尺度自适应裁剪策略的消融实验。第一行是动态切分,第二行是固定分辨率切分,第三行是有重叠的切分,第四行是多尺度策略。
74483b8f112afff9f2e86a360b9ccf43.png
表4. 将MSAC应用到不同的多模态大模型上都能获得一致的提升。

可以看到Mini-Monkey同时在通用多模态理解和文档理解任务上都有一致的提升。并且提出的MSAC在不同的结构上都能有明显的提升。

定性结果

论文还提供了一些定性结果,如图(d)的例子,展示了Mini-Monkey如何克服“锯齿效应”,准确地识别和理解图像中的文字信息。

图(b)说明了有重叠的切分的并不能很好的解决“锯齿效应”。

图(c)说明了“锯齿效应”在较小的模型更明显。

d6b1a63433a1afd6cbe6b7e43459040d.png
图4定性结果。(a)输入图像和Ground Truth。(b)采用重叠切分策略的结果。OSC表示重叠切分策略。(c) internv2 - 2b和internv2 - 26b的结果。(d) Mini-Monkey的结果。

可视化对比

c62416a90bec85b932814d29e3e89b43.jpeg
(a)输入图片
701c8ed914c5c3e8803e41bfbb2e90c0.png
(b)Mimi-Monkey的回答。Mini-Monkey准确的识别出所有文字。
c0ad9ce509411631813dce7165552e24.png
(c)MiniCPM-V 2.6的回答。MiniCPM-V 2.6漏掉了很多文字。
69e9b081efbc224bd2e0f92bda330570.png
(d)InternVL2-2B的回答。InternVL2-2B漏掉了一整句比较模糊的文字。
076f3c774b37998c1ae835e01e4a3cf9.png
(e)GPT-4o的回答。GPT-4o拒绝回答。

结语


Mini-Monkey提出了一种克服“锯齿效应”的方法多尺度自适应裁剪策略(MSAC),并且在不同架构的多模态大模型下都验证了它的有效性。

并且针对MSAC引入的计算量,作者还进一步设计了一种不用训练的SCM进一步压缩视觉Tokens减少计算量,配合着MSAC使用。

以后再也不用担心切片引起的“锯齿效应”,MSAC让大家以后可以放心的使用切片来提升多模态大模型的输入分辨率!

参考文献

[1] Chen Z, Wang W, Tian H, et al. How far are we to gpt-4v? closing the gap to commercial multimodal models with open-source suites[J]. arXiv preprint arXiv:2404.16821, 2024.
[4] Bai J, Bai S, Yang S, et al. Qwen-vl: A frontier large vision-language model with versatile abilities[J]. arXiv preprint arXiv:2308.12966, 2023.
[5] Dubey A, Jauhri A, Pandey A, et al. The Llama 3 Herd of Models[J]. arXiv preprint arXiv:2407.21783, 2024.

最新 AI 进展报道
请联系:amos@52cv.net

ec222d98b4c4638e6721a2cfa94244a3.jpeg

END

加入「计算机视觉交流群👇备注:CV

21652f118fad633b52499344ccbdca0d.png

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Monkey 多模态模型是由阿里云开发的一种大型预训练模型。它采用了多模态学习技术,能够同时处理文本、图像、语音等多种形式的数据,并从中提取出丰富的特征信息。这种模型设计使得它在多种需要跨模态理解的任务上展现出较高的性能。 ### 驱动原理与优势: 1. **统一表示学习**:通过深度学习架构,Monkey 模型能够将不同模态的信息映射到共享的高维空间中,便于后续任务如分类、生成等操作。 2. **端到端学习**:基于强化学习或自监督学习机制,模型可以自动从数据中学习最优策略或表示,无需大量人工标注数据,提高了训练效率和泛化能力。 3. **大规模预训练**:通常,多模态模型会利用大规模未标记数据进行预训练,这有助于模型在各种下游任务中快速适应和获得良好的性能。 4. **高性能应用**:在诸如问答系统、智能推荐、视觉描述生成、语言理解和生成等多个领域,多模态模型展现了强大的处理能力和创新的应用潜力。 ### 实现与应用: - **问答系统**:结合文本理解和图像检索功能,提供更为精准的问题解答服务。 - **智能推荐**:融合用户的历史行为、喜好及实时情境信息,给出个性化的产品或内容推荐。 - **视觉描述生成**:对图像或视频进行描述,帮助视障人群理解多媒体内容,或用于辅助教育场景中的故事讲述。 - **自然语言处理**:提升机器翻译、情感分析、对话系统等任务的准确性和流畅度。 --- ### 相关问题: 1. **如何评估 Monkey模型的效果?** 2. **多模态模型与其他类似模型相比有何独特之处?** 3. **如何优化多模态模型的训练过程以提高其性能?**
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值