Abstract
多模态大语言模型(MLLM)依靠强大的LLM来执行多模态任务,在最近的研究中显示出惊人的新兴能力,例如基于图像写诗。然而,这些案例研究很难全面反映MLLM的绩效,缺乏全面的评估。在本文中,我们填补了这一空白,提出了第一个M LL ME,它测量总共 14 个子任务的感知和认知能力。为了避免直接使用公共数据集进行评估可能导致的数据泄露,指令-答案对的注释都是手动设计的。简洁的指令设计使我们能够公平地比较 MLLM,而不是在即时工程中苦苦挣扎。另外,通过这样的指令,我们还可以方便地进行定量统计。在我们的 MME 上对总共12 个先进的 MLLM 进行了全面评估,这不仅表明现有的 MLLM 仍然有很大的改进空间,而且还揭示了后续模型优化的潜在方向。
1介绍
大语言模型(LLM)的蓬勃发展为多模态领域开辟了一条新的道路,即多模态大语言模型(MLLM)OpenAI(2023年);阿莱拉克等人。(2022年);黄等人。(2023年);李等人。(2023c);德里斯等人。(2023年)。指以LLM为大脑,处理多模态信息并给出推理结果。配备强大的 LLM,MLLM 有望解决更复杂的多模式任务Driess 等人。(2023年);吴等人。(2023年);沉等人。(2023年)。赵律师等人的三种代表性能力 (2023a),包括情境学习(ICL)Brown 等人。(2020年) ,遵循Touvron 等人的说明。(2023年)和思想链 (CoT) Wei 等人。(2022年),也体现在多模态上。例如,Flamingo Alayrac 等人。(2022年)开启多模态 ICL,举几个例子可以适应新任务。MiniGPT-4朱等人 (2023年)实现 GPT-4 OpenAI (2023年)类指令跟随能力,例如通过引入多模态指令调优将图像转换为相应的网站代码。PaLM-E Driess 等人。(2023年)通过 CoT 实现令人惊叹的无 OCR 数学推理。MLLM 的这些新兴能力令人兴奋,并意味着人工智能的新曙光已经到来。
尽管这些模型在进行日常聊天时表现出令人惊讶的对话能力,但我们仍然对它们在各个方面的定量表现知之甚少。现有的三种常见的MLLM定量评价方式均存在局限性,难以全面评价其绩效。具体来说, Xu 等人的第一种方式。(2022年);戴等人。(2023年);王等人。(2023年)对现有的传统多模态数据集进行评估,例如 Image Caption Chen 等人。(2015年)和 VQA Goyal 等人。(2017年);马里诺等人。(2019年);卢等人。(2022年)。然而,一方面,可能很难反映 MLLM 在这些数据集上的新兴能力。另一方面,由于大型模型的训练集不再统一,很难保证所有MLLM都没有使用测试集进行训练。第二种方式Ye 等人。(2023年)的目的是收集数据进行开放式评估,但目前该数据尚未向公众公开。(2023c)或者数量很少(只有 50 张图像)Ye et al. (2023年)。第三种方式侧重于 MLLM 的一个方面,例如物体幻觉Li 等人。(2023天)或对抗稳健性Zhao等人。(2023b),无法进行综合评价。
鉴于这些担忧,迫切需要一个新的综合评估基准来匹配MLLM的蓬勃发展。我们认为,一个具有普适性的综合评价基准应具备以下四个特点:(1)应尽可能涵盖感知能力和认知能力。前者是指识别特定物体,如其存在、数量、位置、颜色等。后者是指将感知信息与LLM中的知识进行合成,从而推导出更复杂的答案。显然,前者是后者的前提。(2)其数据或注释尽量不来自现有的公开数据集,避免数据泄露的风险。(3)其指令应尽可能简洁并符合人类认知。虽然指令设计可能会对输出产生很大影响,但所有模型都应该在相同的统一指令下进行测试,以便公平比较。一个好的 MLLM 应该能够概括出如此简洁的指令。(4)MLLM对指令的响应应直观、便于定量分析。MLLM 的开放式答案对量化提出了重大挑战。现有方法倾向于使用 GPT 或手动评分Li 等人。(2023a);刘等人。(2023年);叶等人。(2023年),但可能存在不准确和主观性的问题。
为此,我们收集了一个全面的MLLM评估基准,命名为MME,它同时满足以上四个特征:
- •
MME 涵盖感知和认知能力的检查。除了OCR之外,感知还包括粗粒度和细粒度物体的识别。前者识别物体的存在、数量、位置和颜色。后者可以识别电影海报、名人、场景、地标和艺术品。认知包括常识推理、数值计算、文本翻译、代码推理。子任务总数最多为14个,如图 1所示。
- •
所有指令-答案对都是手动构建的。对于我们研究中涉及的少数公共数据集,我们仅使用图像而不直接依赖其原始注释。同时,我们努力通过真实照片和图像生成来收集数据。
- •
MME指令设计简洁,避免即时工程对模型输出的影响。我们认为,一个好的 MLLM 应该能够推广到这种简单且常用的指令,这对所有模型都是公平的。各子任务的具体说明见图 1 。
- •
得益于我们“请回答是或否”的指令设计,我们可以轻松地根据 MLLM 的“是”或“否”输出进行定量统计,准确且客观。应该指出的是,我们也尝试过设计具有多项选择问题的指令,但发现它可能超出了当前 MLLM 遵循复杂指令的能力。
我们进行了大量实验来评估 12 个高级 MLLM 在 14 个子任务上的零样本性能。评估的 MLLM 包括 BLIP-2 Li 等人。(2023c),LLaVA刘等人。(2023年),MiniGPT-4 Zhu 等人。(2023年),mPLUG-Owl Ye 等人。(2023年),LLaMA-Adapter-v2高等人。(2023年),奥特·李等人。(2023b),多式联运-GPT龚等人。(2023年),指导BLIP戴等人。(2023年)、VisualGLM-6B git (2023l),PandaGPT Su 等人。(2023年) , ImageBind-LLM git (2023b),以及 LaVIN Luo 等人。(2023年)。如图 2所示,由 2 个总体排行榜(感知和认知)和 14 个单独排行榜组成,这些 MLLM 在我们的 MME 评估基准中显示出明显的差异。图 3还提供了另一个角度的比较。更重要的是,我们总结了实验中暴露出的四个突出问题,包括无法遵循基本指令、缺乏基本感知和推理以及物体幻觉,如图 4所示。这些发现对于后续的模型优化具有指导意义。
综上所述,这项工作的贡献如下:(1)我们提出了一个新的基准 MME 来满足 MLLM 评估的迫切需要。据我们所知,MME是第一个综合MLLM评估基准2。(2) 我们对总共 14 个子任务进行了大量的实验,以综合评估 12 个最新的 MLLM。(3)总结实验中暴露的问题,为MLLM的演进提供指导。
2MME 评估套件
2.1指令设计
为了便于定量的性能统计,我们指令设计的方向是让模型回答“是”或“否”。因此,该说明由两部分组成,包括一个简洁的问题和一个描述“请回答是或否”。对于每张测试图像,我们手动设计两条指令,其中差异在于问题。第一个问题的真实答案是“是”,第二个问题的真实答案是“否”,如图 1所示。当 MLLM 正确回答这两个问题时,似乎更有信心 MLLM 确实理解了图像及其背后的相应知识。
图2:我们的 MME 基准排行榜。(1)和(2)分别是感知和认知的总体排行榜,其中前者满分为2000,后者满分为800。(3)-(16)是14个子任务的排行榜满分200分。分数为准确度与表中准确度+的总和。 1、2、3。_ _ _ _
2.2评估指标
由于模型的输出仅限于两种类型(“是”或“否”),因此可以方便地衡量准确度和准确度+的指标。前者是根据每个问题计算的,而后者是根据每张图像计算的,两个问题都需要正确回答。两个指标的随机准确度分别等于 50% 和 25%。可以看出,accuracy+是一个更严格的衡量标准,但也更好地体现了模型对图像的综合理解程度。此外,我们根据准确度和准确度+的总和来计算子任务的分数。感知得分是所有感知子任务的得分之和。认知得分以同样的方式计算
2.3数据采集
2.3.1感知任务
粗粒度识别。粗粒度识别的内容包括常见物体是否存在、数量、颜色、位置等。图像取自 COCO Lin 等人。(2014年),但指令-答案对都是手动构建的,而不是直接使用公开可用的注释。即使 MLLM 已经看到这些 COCO 图像,我们手动准备的图像对也不会出现在他们的训练集中。这就要求MLLM能够理解指令并推断出相应的答案。在存在、计数、颜色和位置的每个感知子任务中,我们准备了 30 张图像和 60 个指令-答案对。
细粒度识别。细粒度的识别更多的是测试MLLM的知识资源。子任务包括识别电影海报、名人、场景、地标和艺术品,分别包含 147、170、200、200 和 200 张图像。对于名人,我们为图像中面部清晰可见的人绘制一个红色框,相应的指令是“红色框内的演员是否名为[名人姓名]?请回答是或否。” 与上述粗粒度识别类似,这些子任务的图像来自Huang等人公开的数据集。(2020年);毛等人。(2017年,2019年);周等人。(2014年);韦安德等人。(2020年)并且所有指令都是手动设计的。
光学字符识别。光学字符识别(OCR)也是 MLLM 的基础能力,服务于后续基于文本的任务,例如文本翻译和文本理解。图片来自刘等人。(2019年)并且指令-答案对是手动设计的。考虑到MLLM还处于起步阶段,我们在这个版本的MME中只选择了相对简单的样本。图像和指令-答案对的数量分别为 20 和 40。
2.3.2认知任务
我们评估任何 MLLM 在感知图像后是否可以进行进一步的逻辑推理,这是 MLLM 相对于以前的传统方法最迷人的方面。为了推断出正确的答案,MLLM需要遵循指令,感知图像的内容,并调用LLM中保留的知识,这比单一的感知任务更具挑战性。以下子任务的示例如图 1所示。
常识推理。与 ScienceQA 数据集Lu 等人不同。(2022年)需要专门知识,常识是指日常生活中的基础知识。例如,给定一张羽绒服的照片,询问 MLLM 在冷(或热)时穿这件衣服是否合适。这些都是人类可以即时判断的基础知识,无需复杂的一步步推理。因此,我们预计 MLLM 在零短路设置中表现良好。图像都是手动拍摄或通过扩散模型生成的,并且指令-答案对都是手动设计的。共有 70 张图像和 140 个指令-答案对。
数值计算。它要求MLLM能够读取图像中的算术问题并以端到端的方式输出答案,这已经在Huang等人的论文中得到了证明。(2023年)。在这个版本中,我们只考虑相对简单的算术问题,例如加法、减法、乘法和除法。共有 20 张图像和 40 个指令-答案对。图像都是手动拍摄的,指令-答案对都是手动设计的。
文本翻译。考虑到 MLLM git (2023l)支持英文和中文,我们设置文本翻译任务。它要求MLLM将图像中写的中文翻译成相应的英文。在这个版本中,我们只设计了基本的翻译问题,未来会根据MLLM的发展进行更新。这部分的图像都是手动拍摄的,指令-答案对都是手动设计的。共有 20 张图像和 40 个指令-答案对。
代码推理。它需要MLLM读取图像中的代码并自动完成代码内部的逻辑运算。Zhu 等人演示了基于图像编写网站代码的类似任务。(2023年)。图像都是手动拍摄的,指令-答案对都是手动设计的。我们在这个版本中只设置了基本的代码问题。总共有 20 张图片和 40 个指令-答案对。
3实验
在本节中,我们对 MME 基准进行了大量实验,以评估总共 12 个开源 MLLM,包括 BLIP-2、LLaVA、MiniGPT-4、mPLUG-Owl、LLaMA-Adapter-v2、Otter、Multimodal-GPT、 InstructBLIP、VisualGLM-6B、PandaGPT、ImageBind-LLM 和 LaVIN。除BLIP-2外,其他模型都在其指令调优数据集上进行了微调。
3.1基准
所有实验均在 NVIDIA V100 GPU 上进行,我们使用尽可能大的模型。 BLIP-2 李等人。(2023c)专注于基本的预训练,其中图像编码器和 LLM 都被冻结,并且轻量级 Q-Former 被训练用于多模态表示对齐和视觉到语言生成。尽管没有执行多模式指令调整,BLIP-2 仍然能够利用 LLM 自身的能力来遵循指令。正在调查的版本是“blip2-pretrain-flant5xxl” git(2023a)。
LLaVA 刘等人。(2023年)是将多模式指令调整引入 MLLM 的先驱。调优数据由纯语言 GPT-4 通过精心设计的提示生成。指令由对话、详细描述和复杂推理三种类型组成。投影层和 LLM 在训练期间更新。测试的版本是“LLaVA-7B-v0” git(2023f)。
MiniGPT-4 朱等人 (2023年)在预训练的 BLIP-2 上执行多模态指令调整,其中仅更新线性层。这些指令主要基于图像描述任务,例如“详细描述该图像”。我们使用“minigpt4-aligned-with-vicuna13b” git(2023克)供测试用。
mPLUG-Owl Ye 等人。(2023年)使用纯语言指令数据和来自 LLaVA 的多模式指令数据。视觉编码器、提出的视觉抽象器和法学硕士(插入 LoRA 模块Hu 等人(2021年) ) 均在训练期间更新。我们测试“mplug-owl-llama-7b” git(2023小时)。
LLaMA-Adapter V2 高等人。(2023年)仅通过参数有效的方式对纯语言指令数据和图像文本对进行训练。可以集成其他专家模型(例如检测)以增强推理能力。“LLaMA-7B” git的版本 (2023年)用于测试。
指导 BLIP Dai 等人。(2023年)基于BLIP-2,重新组织了图像标题和VQA等26个现有公共数据集作为指令调优格式。训练期间仅更新 Q-Former。“blip2-instruct-flant5xxl” git (2023c)经过测试。
水獭 李等人。(2023b)混合了多模态上下文学习和多模态指令调整。该框架基于 OpenFlamingo Awadalla 等人。(2023年),其感知器模块和 LLM 的部分内容在训练期间更新。指令数据来自 VQAv2 Antol 等人。(2015年) , GQA哈德森和曼宁(2019年)、LLaVA 和非公开视频数据集。“OTTER-9B-LA-InContext” git的版本 (2023j)经过测试。
多模式-GPT 龚等人。(2023年)也基于 OpenFlamingo,并使用纯语言和多模式指令数据。后者包括来自 LLaVA、Mini-GPT4 以及各种图像标题和 VQA 数据集的数据。训练期间仅更新LLM中的LoRA模块。测试版本是“Multimodal-GPT-9B” git (2023i)。
PandaGPT 苏等人 (2023年)使用来自 LLaVA 和 MiniGPT-4 的多模态指令数据,并且只有线性投影层以及 LLM 中的 LoRA 模块是可训练的。预训练的 ImageBind Girdhar 等人。(2023年)被采用作为多模态编码器,其具有模态对齐的属性。“pandagpt-7b-max-len-512” git (2023k)用于测试。
3.2结果
3.2.1洞察力
感知能力评估共有10个子任务,从粗粒度识别、细粒度识别、OCR三个角度。无花果。 图2(3)-(6)显示了各个粗粒度识别子任务的得分排行榜。对于对象存在性,InstructBLIP和LaVIN获得最高分185,准确率95%,准确率90%+,如表 1所示。相比之下,第二名BLIP-2和第三名ImageBind-LLM分别落后InstructBLIP 25分和56.67分。对于对象数量、位置和颜色,InstructBLIP、BLIP-2 和 MiniGPT-4 名列前三。有趣的是,InstructBLIP 和 MiniGPT-4 都是在预训练的 BLIP-2 上用指令数据进行微调的。请注意,在四个粗粒度子任务中,这些 MLLM 在对象位置上得到最差的结果,表明当前模型对位置信息不够敏感。
无花果。 图2(7)-(11)显示了各个细粒度识别子任务的得分排行榜。在海报识别方面,BLIP-2、mPLUG-Owl 和 InstructBLIP 名列前三。有趣的是,mPLUG-Owl 在粗粒度识别方面表现相对较差,但现在表现良好。这意味着我们对粗粒度和细粒度的划分是合理的,使我们能够检查 MLLM 的不同方面。在名人认可度方面,BLIP-2、InstructBLIP 和 mPLUG-Owl 仍然以相似的分数占据前三名。在场景识别方面,InstructBLIP、LLaMA-Adapter V2 和 VisualGLM-6B 领先于其他 MLLM。这是VisualGLM-6B首次闯入前三名。另外值得关注的是PandaGPT,得分首次突破百分。在地标识别方面,前三名分别由 mPLUG-Owl、LLaMA-Adapter V2 和 BLIP-2 占据,其中 mPLUG-Owl 名列第一。在艺术品识别方面,BLIP-2、InstructBLIP 和 mPLUG-Owl 超过了其他同行,前两者得分相似,领先第三个 38+。对于图 2(12)中列出的OCR,LLaMA-Adapter V2、BLIP-2和LaVIN分别以125、110和107.5的分数获得前三名。从图2 (1)可以看出 ,在整个感知识别排行榜中,BLIP-2、InstructBLIP和LLaMA-Adapter V2位居前三,紧随其后的是mPLUG-Owl和LaVIN。他们的感知得分分别为 1293.84、1212.82、972.67、967.35 和 963.61。
3.2.2认识
认知能力评估有四个子任务,包括常识推理、数值计算、文本翻译和代码推理。无花果。 2 (13)-(16) 绘制各个子任务的分数排行榜。在常识推理方面,“常胜将军”InstructBLIP和BLIP-2仍然超过了其他MLLM,尤其是InstructBLIP,得分为129.29。在数值计算和文本翻译方面,虽然设计的题目难度适中,但这些MLLM的表现并不令人满意,没有得分超过80分。这表明MLLM在这些能力上还有很大的改进空间。在代码推理方面,MiniGPT-4取得了110分的高分,遥遥领先于其他同行。这让人想起它展示的从图像编写网站代码的示例。在所有认知任务中,MiniGPT-4、InstructBLIP和BLIP-2分别获得金、银、铜牌,如图2 ( 2)所示。
4分析
我们总结了四个在很大程度上影响 MLLM 性能的常见问题。 第一个问题是不遵循指示。 虽然我们采用了非常简洁的指令设计,但也有MLLM是自由回答而不是遵循指令。例如,如图 4的第一行所示,指令声称“请回答是或否”,但MLLM仅做出声明性表达式。如果生成的语言开头没有出现“是”或“否”,则判断模型回答错误。我们认为,一个好的 MLLM(尤其是在指令调整之后)应该能够遵循这样一个简单的指令,这在日常生活中也很常见。
第二个问题是缺乏认知。 如图 4第二行所示,MLLM错误识别了第一幅图像中香蕉的数量,并误读了第二幅图像中的字符,导致错误的答案。我们注意到,感知的表现很容易受到指令的细微差别的影响,因为同一图像的两个指令只有一个词不同,但却导致完全不同甚至矛盾的感知结果。
第三个问题是缺乏理性。在图4 的第三行中 ,我们从红色文本中可以看到,MLLM已经知道第一张图像不是办公场所,但仍然给出了错误的答案“是”。类似地,在第二张图中,MLLM 计算出了正确的算术结果,但最终给出了错误的答案。这些现象表明MLLM在推理过程中逻辑链被破坏。添加 CoT 提示,例如“让我们一步一步思考” Driess 等人。(2023年),可能会产生更好的结果。我们期待进一步深入的研究。
第四个问题是跟随指令出现物体幻觉,如图4的第四行所示 。当指令包含对图像中未出现的对象的描述时,MLLM 将假设该对象存在并最终给出“是”答案。这种不断回答“是”的情况,准确率约为50%,准确率+约为0,如表 1、表2和表3所示。这表明迫切需要抑制幻觉,社区应该考虑生成答案的可靠性。
5结论
本文提出了第一个MLLM评估基准MME,在任务类型、数据来源、指令设计、定量统计方面具有四个鲜明的特点。我们在 MME 上评估了 12 个先进的 MLLM,实验结果表明仍有很大的改进空间。我们还总结了实验结果中提出的常见问题,为MLLM的发展提供有价值的指导。