MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language ModelsMME：多模态大语言模型综合评估基准

最新推荐文章于 2025-05-04 09:00:00 发布

Mars_prime

最新推荐文章于 2025-05-04 09:00:00 发布

阅读量6.2k

点赞数 23

分类专栏：大模型幻觉文章标签：语言模型人工智能自然语言处理 LVLM幻觉大语言模型幻觉

本文链接：https://blog.csdn.net/Mars_prime/article/details/134926992

版权

大模型幻觉专栏收录该内容

16 篇文章

订阅专栏

Abstract

多模态大语言模型（MLLM）依靠强大的LLM来执行多模态任务，在最近的研究中显示出惊人的新兴能力，例如基于图像写诗。然而，这些案例研究很难全面反映MLLM的绩效，缺乏全面的评估。在本文中，我们填补了这一空白，提出了第一个M LL ME，它测量总共 14 个子任务的感知和认知能力。为了避免直接使用公共数据集进行评估可能导致的数据泄露，指令-答案对的注释都是手动设计的。简洁的指令设计使我们能够公平地比较 MLLM，而不是在即时工程中苦苦挣扎。另外，通过这样的指令，我们还可以方便地进行定量统计。在我们的 MME 上对总共12 个先进的 MLLM 进行了全面评估，这不仅表明现有的 MLLM 仍然有很大的改进空间，而且还揭示了后续模型优化的潜在方向。

1介绍

大语言模型（LLM）的蓬勃发展为多模态领域开辟了一条新的道路，即多模态大语言模型（MLLM）OpenAI（2023年）；阿莱拉克等人。（2022年）；黄等人。（2023年）；李等人。（2023c）；德里斯等人。（2023年）。指以LLM为大脑，处理多模态信息并给出推理结果。配备强大的 LLM，MLLM 有望解决更复杂的多模式任务Driess 等人。（2023年）；吴等人。（2023年）；沉等人。（2023年）。赵律师等人的三种代表性能力（2023a），包括情境学习（ICL）Brown 等人。（2020年) ，遵循Touvron 等人的说明。（2023年)和思想链 (CoT) Wei 等人。（2022年），也体现在多模态上。例如，Flamingo Alayrac 等人。（2022年）开启多模态 ICL，举几个例子可以适应新任务。MiniGPT-4朱等人（2023年)实现 GPT-4 OpenAI (2023年）类指令跟随能力，例如通过引入多模态指令调优将图像转换为相应的网站代码。PaLM-E Driess 等人。（2023年）通过 CoT 实现令人惊叹的无 OCR 数学推理。MLLM 的这些新兴能力令人兴奋，并意味着人工智能的新曙光已经到来。

尽管这些模型在进行日常聊天时表现出令人惊讶的对话能力，但我们仍然对它们在各个方面的定量表现知之甚少。现有的三种常见的MLLM定量评价方式均存在局限性，难以全面评价其绩效。具体来说， Xu 等人的第一种方式。（2022年）；戴等人。（2023年）；王等人。（2023年）对现有的传统多模态数据集进行评估，例如 Image Caption Chen 等人。（2015年）和 VQA Goyal 等人。（2017年）；马里诺等人。（2019年）；卢等人。（2022年）。然而，一方面，可能很难反映 MLLM 在这些数据集上的新兴能力。另一方面，由于大型模型的训练集不再统一，很难保证所有MLLM都没有使用测试集进行训练。第二种方式Ye 等人。（2023年）的目的是收集数据进行开放式评估，但目前该数据尚未向公众公开。（2023c）或者数量很少（只有 50 张图像）Ye et al. （2023年）。第三种方式侧重于 MLLM 的一个方面，例如物体幻觉Li 等人。（2023天）或对抗稳健性Zhao等人。（2023b），无法进行综合评价。

鉴于这些担忧，迫切需要一个新的综合评估基准来匹配MLLM的蓬勃发展。我们认为，一个具有普适性的综合评价基准应具备以下四个特点：（1）应尽可能涵盖感知能力和认知能力。前者是指识别特定物体，如其存在、数量、位置、颜色等。后者是指将感知信息与LLM中的知识进行合成，从而推导出更复杂的答案。显然，前者是后者的前提。（2）其数据或注释尽量不来自现有的公开数据集，避免数据泄露的风险。(3)其指令应尽可能简洁并符合人类认知。虽然指令设计可能会对输出产生很大影响，但所有模型都应该在相同的统一指令下进行测试，以便公平比较。一个好的 MLLM 应该能够概括出如此简洁的指令。(4)MLLM对指令的响应应直观、便于定量分析。MLLM 的开放式答案对量化提出了重大挑战。现有方法倾向于使用 GPT 或手动评分Li 等人。（2023a）；刘等人。（2023年）；叶等人。（2023年），但可能存在不准确和主观性的问题。

为此，我们收集了一个全面的MLLM评估基准，命名为MME，它同时满足以上四个特征：

•

MME 涵盖感知和认知能力的检查。除了OCR之外，感知还包括粗粒度和细粒度物体的识别。前者识别物体的存在、数量、位置和颜色。后者可以识别电影海报、名人、场景、地标和艺术品。认知包括常识推理、数值计算、文本翻译、代码推理。子任务总数最多为14个，如图 1所示。
•

所有指令-答案对都是手动构建的。对于我们研究中涉及的少数公共数据集，我们仅使用图像而不直接依赖其原始注释。同时，我们努力通过真实照片和图像生成来收集数据。
•

MME指令设计简洁，避免即时工程对模型输出的影响。我们认为，一个好的 MLLM 应该能够推广到这种简单且常用的指令，这对所有模型都是公平的。各子任务的具体说明见图 1 。
•

得益于我们“请回答是或否”的指令设计，我们可以轻松地根据 MLLM 的“是”或“否”输出进行定量统计，准确且客观。应该指出的是，我们也尝试过设计具有多项选择问题的指令，但发现它可能超出了当前 MLLM 遵循复杂指令的能力。

我们进行了大量实验来评估 12 个高级 MLLM 在 14 个子任务上的零样本性能。评估的 MLLM 包括 BLIP-2 Li 等人。（2023c），LLaVA刘等人。（2023年），MiniGPT-4 Zhu 等人。（2023年），mPLUG-Owl Ye 等人。（2023年)，LLaMA-Adapter-v2高等人。（2023年），奥特·李等人。（2023b），多式联运-GPT龚等人。（2023年），指导BLIP戴等人。（2023年)、VisualGLM-6B git (2023l），PandaGPT Su 等人。（2023年) , ImageBind-LLM git (2023b），以及 LaVIN Luo 等人。（2023年）。如图 2所示，由 2 个总体排行榜（感知和认知）和 14 个单独排行榜组成，这些 MLLM 在我们的 MME 评估基准中显示出明显的差异。图 3还提供了另一个角度的比较。更重要的是，我们总结了实验中暴露出的四个突出问题，包括无法遵循基本指令、缺乏基本感知和推理以及物体幻觉，如图 4所示。这些发现对于后续的模型优化具有指导意义。

综上所述，这项工作的贡献如下：（1）我们提出了一个新的基准 MME 来满足 MLLM 评估的迫切需要。据我们所知，MME是第一个综合MLLM评估基准2。(2) 我们对总共 14 个子任务进行了大量的实验，以综合评估 12 个最新的 MLLM。(3)总结实验中暴露的问题，为MLLM的演进提供指导。

2MME 评估套件

2.1指令设计

为了便于定量的性能统计，我们指令设计的方向是让模型回答“是”或“否”。因此，该说明由两部分组成，包括一个简洁的问题和一个描述“请回答是或否”。对于每张测试图像，我们手动设计两条指令，其中差异在于问题。第一个问题的真实答案是“是”，第二个问题的真实答案是“否”，如图 1所示。当 MLLM 正确回答这两个问题时，似乎更有信心 MLLM 确实理解了图像及其背后的相应知识。

图2：我们的 MME 基准排行榜。(1)和(2)分别是感知和认知的总体排行榜，其中前者满分为2000，后者满分为800。(3)-(16)是14个子任务的排行榜满分200分。分数为准确度与表中准确度+的总和。 1、2、3。_ _ _ _

2.2评估指标

由于模型的输出仅限于两种类型（“是”或“否”），因此可以方便地衡量准确度和准确度+的指标。前者是根据每个问题计算的，而后者是根据每张图像计算的，两个问题都需要正确回答。两个指标的随机准确度分别等于 50% 和 25%。可以看出，accuracy+是一个更严格的衡量标准，但也更好地体现了模型对图像的综合理解程度。此外，我们根据准确度和准确度+的总和来计算子任务的分数。感知得分是所有感知子任务的得分之和。认知得分以同样的方式计算

2.3数据采集

2.3.1感知任务

我们认为感知是MLLM最基本的能力之一，缺乏感知很容易导致物体幻觉问题。（2023天）。也就是说，MLLM会根据自己的幻想来回答问题，而不是根据图像的现实内容来回答问题，如图 4所示。

粗粒度识别。粗粒度识别的内容包括常见物体是否存在、数量、颜色、位置等。图像取自 COCO Lin 等人。（2014年)，但指令-答案对都是手动构建的，而不是直接使用公开可用的注释。即使 MLLM 已经看到这些 COCO 图像，我们手动准备的图像对也不会出现在他们的训练集中。这就要求MLLM能够理解指令并推断出相应的答案。在存在、计数、颜色和位置的每个感知子任务中，我们准备了 30 张图像和 60 个指令-答案对。

细粒度识别。细粒度的识别更多的是测试MLLM的知识资源。子任务包括识别电影海报、名人、场景、地标和艺术品，分别包含 147、170、200、200 和 200 张图像。对于名人，我们为图像中面部清晰可见的人绘制一个红色框，相应的指令是“红色框内的演员是否名为[名人姓名]？请回答是或否。” 与上述粗粒度识别类似，这些子任务的图像来自Huang等人公开的数据集。（2020年）；毛等人。（2017年,2019年）；周等人。（2014年）；韦安德等人。（2020年）并且所有指令都是手动设计的。

光学字符识别。光学字符识别（OCR）也是 MLLM 的基础能力，服务于后续基于文本的任务，例如文本翻译和文本理解。图片来自刘等人。（2019年）并且指令-答案对是手动设计的。考虑到MLLM还处于起步阶段，我们在这个版本的MME中只选择了相对简单的样本。图像和指令-答案对的数量分别为 20 和 40。

2.3.2认知任务

我们评估任何 MLLM 在感知图像后是否可以进行进一步的逻辑推理，这是 MLLM 相对于以前的传统方法最迷人的方面。为了推断出正确的答案，MLLM需要遵循指令，感知图像的内容，并调用LLM中保留的知识，这比单一的感知任务更具挑战性。以下子任务的示例如图 1所示。

常识推理。与 ScienceQA 数据集Lu 等人不同。（2022年）需要专门知识，常识是指日常生活中的基础知识。例如，给定一张羽绒服的照片，询问 MLLM 在冷（或热）时穿这件衣服是否合适。这些都是人类可以即时判断的基础知识，无需复杂的一步步推理。因此，我们预计 MLLM 在零短路设置中表现良好。图像都是手动拍摄或通过扩散模型生成的，并且指令-答案对都是手动设计的。共有 70 张图像和 140 个指令-答案对。

数值计算。它要求MLLM能够读取图像中的算术问题并以端到端的方式输出答案，这已经在Huang等人的论文中得到了证明。（2023年）。在这个版本中，我们只考虑相对简单的算术问题，例如加法、减法、乘法和除法。共有 20 张图像和 40 个指令-答案对。图像都是手动拍摄的，指令-答案对都是手动设计的。

文本翻译。考虑到 MLLM git (2023l）支持英文和中文，我们设置文本翻译任务。它要求MLLM将图像中写的中文翻译成相应的英文。在这个版本中，我们只设计了基本的翻译问题，未来会根据MLLM的发展进行更新。这部分的图像都是手动拍摄的，指令-答案对都是手动设计的。共有 20 张图像和 40 个指令-答案对。

代码推理。它需要MLLM读取图像中的代码并自动完成代码内部的逻辑运算。Zhu 等人演示了基于图像编写网站代码的类似任务。（2023年）。图像都是手动拍摄的，指令-答案对都是手动设计的。我们在这个版本中只设置了基本的代码问题。总共有 20 张图片和 40 个指令-答案对。

3实验

在本节中，我们对 MME 基准进行了大量实验，以评估总共 12 个开源 MLLM，包括 BLIP-2、LLaVA、MiniGPT-4、mPLUG-Owl、LLaMA-Adapter-v2、Otter、Multimodal-GPT、 InstructBLIP、VisualGLM-6B、PandaGPT、ImageBind-LLM 和 LaVIN。除BLIP-2外，其他模型都在其指令调优数据集上进行了微调。

3.1基准

所有实验均在 NVIDIA V100 GPU 上进行，我们使用尽可能大的模型。 BLIP-2 李等人。（2023c）专注于基本的预训练，其中图像编码器和 LLM 都被冻结，并且轻量级 Q-Former 被训练用于多模态表示对齐和视觉到语言生成。尽管没有执行多模式指令调整，BLIP-2 仍然能够利用 LLM 自身的能力来遵循指令。正在调查的版本是“blip2-pretrain-flant5xxl”  git（2023a）。

LLaVA 刘等人。（2023年）是将多模式指令调整引入 MLLM 的先驱。调优数据由纯语言 GPT-4 通过精心设计的提示生成。指令由对话、详细描述和复杂推理三种类型组成。投影层和 LLM 在训练期间更新。测试的版本是“LLaVA-7B-v0”  git（2023f）。

MiniGPT-4 朱等人（2023年）在预训练的 BLIP-2 上执行多模态指令调整，其中仅更新线性层。这些指令主要基于图像描述任务，例如“详细描述该图像”。我们使用“minigpt4-aligned-with-vicuna13b”  git（2023克）供测试用。

mPLUG-Owl Ye 等人。（2023年）使用纯语言指令数据和来自 LLaVA 的多模式指令数据。视觉编码器、提出的视觉抽象器和法学硕士（插入 LoRA 模块Hu 等人（2021年) ) 均在训练期间更新。我们测试“mplug-owl-llama-7b”  git（2023小时）。

LLaMA-Adapter V2 高等人。（2023年）仅通过参数有效的方式对纯语言指令数据和图像文本对进行训练。可以集成其他专家模型（例如检测）以增强推理能力。“LLaMA-7B” git的版本（2023年)用于测试。

指导 BLIP Dai 等人。（2023年）基于BLIP-2，重新组织了图像标题和VQA等26个现有公共数据集作为指令调优格式。训练期间仅更新 Q-Former。“blip2-instruct-flant5xxl”  git (2023c）经过测试。

VisualGLM-6B git (2023l）是一个开源的 MLLM，但目前训练细节尚不清楚。它支持英文和中文。我们测试“VisualGLM-6B”   git（2023l）。

水獭李等人。（2023b）混合了多模态上下文学习和多模态指令调整。该框架基于 OpenFlamingo Awadalla 等人。（2023年)，其感知器模块和 LLM 的部分内容在训练期间更新。指令数据来自 VQAv2 Antol 等人。（2015年) , GQA哈德森和曼宁(2019年)、LLaVA 和非公开视频数据集。“OTTER-9B-LA-InContext” git的版本（2023j）经过测试。

多模式-GPT 龚等人。（2023年）也基于 OpenFlamingo，并使用纯语言和多模式指令数据。后者包括来自 LLaVA、Mini-GPT4 以及各种图像标题和 VQA 数据集的数据。训练期间仅更新LLM中的LoRA模块。测试版本是“Multimodal-GPT-9B” git (2023i）。

PandaGPT 苏等人（2023年）使用来自 LLaVA 和 MiniGPT-4 的多模态指令数据，并且只有线性投影层以及 LLM 中的 LoRA 模块是可训练的。预训练的 ImageBind Girdhar 等人。（2023年）被采用作为多模态编码器，其具有模态对齐的属性。“pandagpt-7b-max-len-512”  git (2023k）用于测试。

ImageBind-LLM git (2023b）是一个开源的 MLLM，其描述详细算法的论文仍在准备中。我们评估“imagebind-LLM-7B” git（2023b）。

拉文· 罗等人。（2023年）引入了一个轻量级适配器作为视觉和 LLM 之间的桥梁。此外，路由算法的设计是为了更好地使用纯语言和多模式指令数据。“LAVIN-13B”经过git测试（2023天）。

3.2结果

3.2.1洞察力

感知能力评估共有10个子任务，从粗粒度识别、细粒度识别、OCR三个角度。无花果。图2（3）-（6）显示了各个粗粒度识别子任务的得分排行榜。对于对象存在性，InstructBLIP和LaVIN获得最高分185，准确率95%，准确率90%+，如表 1所示。相比之下，第二名BLIP-2和第三名ImageBind-LLM分别落后InstructBLIP 25分和56.67分。对于对象数量、位置和颜色，InstructBLIP、BLIP-2 和 MiniGPT-4 名列前三。有趣的是，InstructBLIP 和 MiniGPT-4 都是在预训练的 BLIP-2 上用指令数据进行微调的。请注意，在四个粗粒度子任务中，这些 MLLM 在对象位置上得到最差的结果，表明当前模型对位置信息不够敏感。

无花果。图2（7）-（11）显示了各个细粒度识别子任务的得分排行榜。在海报识别方面，BLIP-2、mPLUG-Owl 和 InstructBLIP 名列前三。有趣的是，mPLUG-Owl 在粗粒度识别方面表现相对较差，但现在表现良好。这意味着我们对粗粒度和细粒度的划分是合理的，使我们能够检查 MLLM 的不同方面。在名人认可度方面，BLIP-2、InstructBLIP 和 mPLUG-Owl 仍然以相似的分数占据前三名。在场景识别方面，InstructBLIP、LLaMA-Adapter V2 和 VisualGLM-6B 领先于其他 MLLM。这是VisualGLM-6B首次闯入前三名。另外值得关注的是PandaGPT，得分首次突破百分。在地标识别方面，前三名分别由 mPLUG-Owl、LLaMA-Adapter V2 和 BLIP-2 占据，其中 mPLUG-Owl 名列第一。在艺术品识别方面，BLIP-2、InstructBLIP 和 mPLUG-Owl 超过了其他同行，前两者得分相似，领先第三个 38+。对于图 2（12）中列出的OCR，LLaMA-Adapter V2、BLIP-2和LaVIN分别以125、110和107.5的分数获得前三名。从图2 （1）可以看出，在整个感知识别排行榜中，BLIP-2、InstructBLIP和LLaMA-Adapter V2位居前三，紧随其后的是mPLUG-Owl和LaVIN。他们的感知得分分别为 1293.84、1212.82、972.67、967.35 和 963.61。

3.2.2认识

认知能力评估有四个子任务，包括常识推理、数值计算、文本翻译和代码推理。无花果。 2 (13)-(16) 绘制各个子任务的分数排行榜。在常识推理方面，“常胜将军”InstructBLIP和BLIP-2仍然超过了其他MLLM，尤其是InstructBLIP，得分为129.29。在数值计算和文本翻译方面，虽然设计的题目难度适中，但这些MLLM的表现并不令人满意，没有得分超过80分。这表明MLLM在这些能力上还有很大的改进空间。在代码推理方面，MiniGPT-4取得了110分的高分，遥遥领先于其他同行。这让人想起它展示的从图像编写网站代码的示例。在所有认知任务中，MiniGPT-4、InstructBLIP和BLIP-2分别获得金、银、铜牌，如图2  （ 2）所示。

4分析

我们总结了四个在很大程度上影响 MLLM 性能的常见问题。 第一个问题是不遵循指示。 虽然我们采用了非常简洁的指令设计，但也有MLLM是自由回答而不是遵循指令。例如，如图 4的第一行所示，指令声称“请回答是或否”，但MLLM仅做出声明性表达式。如果生成的语言开头没有出现“是”或“否”，则判断模型回答错误。我们认为，一个好的 MLLM（尤其是在指令调整之后）应该能够遵循这样一个简单的指令，这在日常生活中也很常见。

第二个问题是缺乏认知。 如图 4第二行所示，MLLM错误识别了第一幅图像中香蕉的数量，并误读了第二幅图像中的字符，导致错误的答案。我们注意到，感知的表现很容易受到指令的细微差别的影响，因为同一图像的两个指令只有一个词不同，但却导致完全不同甚至矛盾的感知结果。

第三个问题是缺乏理性。在图4 的第三行中，我们从红色文本中可以看到，MLLM已经知道第一张图像不是办公场所，但仍然给出了错误的答案“是”。类似地，在第二张图中，MLLM 计算出了正确的算术结果，但最终给出了错误的答案。这些现象表明MLLM在推理过程中逻辑链被破坏。添加 CoT 提示，例如“让我们一步一步思考” Driess 等人。（2023年），可能会产生更好的结果。我们期待进一步深入的研究。

第四个问题是跟随指令出现物体幻觉，如图4的第四行所示。当指令包含对图像中未出现的对象的描述时，MLLM 将假设该对象存在并最终给出“是”答案。这种不断回答“是”的情况，准确率约为50％，准确率+约为0，如表 1、表2和表3所示。这表明迫切需要抑制幻觉，社区应该考虑生成答案的可靠性。

5结论

本文提出了第一个MLLM评估基准MME，在任务类型、数据来源、指令设计、定量统计方面具有四个鲜明的特点。我们在 MME 上评估了 12 个先进的 MLLM，实验结果表明仍有很大的改进空间。我们还总结了实验结果中提出的常见问题，为MLLM的发展提供有价值的指导。