MM-Vet: Evaluating Large Multimodal Models for Integrated Capabilities论文解读(大模型评估方法)

提示:MM-Vet是一个大模型评估方法,想深入了解大模型评估可参考此文章


前言

我们提出了MM-Vet,这是一个评估基准,旨在检验大型多模态模型(LMMs)在复杂多模态任务上的表现。最近的LMMs展示了各种有趣的能力,比如解决写在黑板上的数学问题,推理新闻图片中的事件和名人,以及解释视觉笑话。快速的模型进展给评估基准的开发带来了挑战。问题包括:(1)如何系统地构建和评估复杂的多模态任务;(2)如何设计能够适用于不同问题和答案类型的评估指标;以及(3)如何提供超越简单性能排名的模型洞见。为此,我们提出了MM-Vet,其设计基于这样一个见解,即解决复杂任务的有趣能力通常是通过通用模型能够整合不同核心视觉-语言(VL)能力实现的。MM-Vet定义了6种核心VL能力,并检查了从能力组合中衍生出的16种感兴趣的整合方式。对于评估指标,我们提出了一个基于LLM的评估器,用于开放式输出。该评估器使得能够跨不同问题类型和答案风格进行评估,从而产生统一的评分指标。我们在MM-Vet上评估了代表性的LMMs,从而深入了解不同LMM系统范式和模型的能力。


原文链接:https://arxiv.org/pdf/2308.02490
论文附有翻译链接如下:
链接:https://pan.baidu.com/s/116tbJ9bpujcrlXOgQxmMsA
提取码:mmvt

一、引言

  大型语言模型(LLMs)的突破[11, 59, 20, 5, 73, 36]带来了可以解决各种复杂自然语言任务的通用人工智能模型,许多模型接近甚至达到了人类专家水平的表现[59, 13]。大型多模态模型(LMMs)旨在通过将LLMs与多模态输入相结合,实现更强大的通用智能。由于我们人类超过80%的感知、学习、认知和活动是通过视觉介导的[65],因此通过给LLMs“配备眼睛”来开始探索是很自然的。LMM工作的一个主要线索,由Frozen [75]、Flamingo [4]、PaLM-E [25]、GPT-4 [59]等代表,通过端到端调整将视觉理解能力融入LLMs中。还有一些关于LLMs和图像到文本视觉-语言模型的模块化组合的探索[83, 89, 85, 70, 30]。最近,得益于像LLaMA [73]这样强大的开源LLMs,构建了更多开源LMMs,包括OpenFlamingo [9]、LLaVA [51]、MiniGPT-4 [93]、Otter [44]、InstructBLIP [23]等等[33, 52, 87]。这些研究展示了有趣能力解决各种复杂多模态任务,列如open-world识别,通识能力,场景文本理解等。
  尽管对LMM的潜力结果表现出了希望,但如何系统评估展示的复杂多模态任务仍不清楚,以及评估任务之间的关系是开发量化评估基准的第一步。如图1所示,现有的视觉-语言基准[6, 17, 72]侧重于需要特定一两种能力的简单视觉-语言(VL)任务,如识别、语言生成或OCR,但在基准更复杂任务方面表现不佳。或者,我们考虑对于复杂任务核心VL能力的任意整合,通过这种洞察力可以实现解决复杂多模态任务的引人入胜能力,这可以通过通用模型掌握和整合不同核心能力来实现。根据这一洞察,我们提出了一个新的用于评估LMM的基准,即MM-Vet。MM-Vet定义了六种核心VL能力,包括识别、OCR、知识、语言生成、空间意识和数学,这些能力整合在一起解决各种复杂多模态任务。MM-Vet包含16个任务进行定量评估。例如,在图1(d)中,回答“右边的女孩会在黑板上写什么?”这个问题在MM-Vet中需要识别三个孩子的性别,空间定位被询问的女孩,识别女孩写的场景文本,最后计算结果。
   除了评估类别定义之外,评估指标是基准开发中的另一个挑战,考虑到多样化的答案风格和问题类型。具体来说:(1)不同多模态任务中期望的输出具有不同格式,例如图1(d)中的数学问题可以用一个单词回答,而作文题的输出则有数百个字长;(2)在不同任务中要评估的核心方面也不同,例如文本生成更注重文本质量,识别可以通过识别到关键概念而被认为是正确的。大多数综合任务将需要从多个维度进行全面评估。受最近NLP研究[19, 53, 28]启发,我们提出了一种基于LLMs的评估器作为开放式模型输出的评估指标。如表1所示,我们通过少样本评估提示GPT-4 [59]以获得从0到1的评估分数。我们并没有手动定义可能的答案风格和问题类型,而是将不同样本类型作为少样本示例,并让LLMs自动推断评分标准。这种指标设计简化了未来对更多问题类型的扩展,例如框定位[16, 82, 77]。
   MM-Vet的评估类别和指标设计使用户能够获得对不同LMMs能力的洞察。这种模型分析比单一整体排名更具信息量,后者高度依赖数据集样本组成,并可能存在偏见。我们评估了两组多模态系统,即端到端调整的LMMs包括OpenFlamingo [9]、LLaVA [51]、MiniGPT-4 [93]、Otter [44]、InstructBLIP [23]等等,以及使用LLM工具的系统[85, 70, 30, 38]如MM-ReAct [85]。尽管不了解模型细节,我们还评估了行业解决方案如Bard [34]。我们首先讨论了这两种系统范式和代表性模型的能力分析。然后我们深入研究开源LMMs,并检查训练数据、视觉编码器以及LLM选择如何影响不同能力上的表现。我们的贡献总结如下。
    • 我们提出MM-Vet来评估LMMs在复杂多模态任务上的能力。MM-Vet定义了16个紧迫任务,从六个定义的核心VL能力整合而来。
    • 我们提出了一个基于LLMs的评估器,用于LMMs开放式输出,统一了对不同答案风格和问题类型的评估。评估指标确保对响应的事实正确性和文本质量进行全面评估。
    • 我们在MM-Vet上对代表性LMMs进行基准测试,揭示了不同系统范式和模型的相对优势和劣势,如第4.5节所总结。
在这里插入图片描述

二、Related work

1、Multimodal models

  视觉-语言模型[17, 35, 56, 18, 48, 40, 79, 76, 82, 29]致力于联合理解和生成视觉和语言信号的多模态智能。受近期大型语言模型(LLMs)[12, 59, 20, 73]在卓越质量和通用性方面的启发,研究人员探索了能够无缝整合不同视觉-语言能力以解决复杂多模态任务的大型多模态模型(LMMs)。在接近这种多模态通用系统时,一个方向是通过扩展LLMs的多感知能力,如先驱作品Frozen [75]、Flamingo [4]、PaLM-E [25]、GPT-4 [59]。最近的开源LLMs[91, 73, 64]也促进了各种研究,包括OpenFlamingo [9]、LLaVA [51]、MiniGPT-4 [93]、Otter [44]、InstructBLIP [23]等等[33, 52, 87]。另一方面,多模态agent[85, 70, 38, 30]探索将不同视觉工具与LLMs[12, 59]进行链接以实现集成的视觉-语言能力。

2、VL benchmarks

  经典的VL基准侧重于特定感兴趣的能力,如视觉识别[35]、图像描述[17, 3],以及其他专门能力的基准,如场景文本理解[72, 71, 86]、常识推理[88]、外部知识[58]。通用LLMs的最新发展强烈需要现代化的VL基准,其中包含需要集成VL能力的复杂多模态任务。

我们的MM-Vet与同时进行的评估研究[27, 54, 45, 80, 50]最为相关,例如MME和MMBench,它们设计了全面的评估样本以促进LLMs评估。一个主要区别在于MM-Vet定义并研究了集成的VL能力,使评估能够提供超出整体模型排名的见解。

3、LLM-based evaluation

  MM-Vet采用开放式的基于LLM的评估器,允许交叉答案样式和问题类型进行评估,而无需二或多选答案选择。提示LLMs进行模型评估的技术与NLP领域的探索相关[19, 53, 28]。我们展示了这种技术在多模态任务中的良好拓展,并提供统一提示来评估具有不同答案样式和问题类型的样本。

三、MM-Vet

1、Data collection

  我们的目标是开发一个多模态基准,需要全面的能力,对应着人工智能代理可能会遇到的现实场景。例如,考虑以下场景:
从睡梦中醒来,你伸手拿起手机(识别能力)查看当前时间(OCR能力)。今天,你计划去一家你从未去过的新杂货店。根据杂货店位于体育场对面并且靠近电影院的信息(空间意识),你成功地找到了它。记住医生建议减肥,你有意避开高热量食物,选择了牛奶、蔬菜和水果(知识能力)。在乳制品区,你面临两种纯牛奶的选择。第一种是每升4美元,打8折,而第二种是每1.5升7美元,打75折。经过一番快速算术,你发现前者更便宜(数学能力),选择了一升装。购物后,你路过电影院,看到一个人指着海报介绍一部新电影(语言生成)。从感兴趣的场景中,我们总结了以下六种用于评估的核心VL能力,并在表10-15中展示了相应的MM-Vet示例。
    • 识别(Rec)。识别指的是一般的视觉识别能力,包括识别场景、物体、物体属性(颜色、材质、形状等)、计数以及计算机视觉中的各种其他高级视觉识别任务。
    • 知识(Know)。知识类别涵盖各种与知识相关的能力,包括社交和视觉常识知识、百科知识以及时效性知识如新闻。这种能力要求模型不仅具有这些知识,还要有效地利用它来解决所需的复杂任务。
    • OCR。光学字符识别(OCR)指的是场景文本理解和推理能力。模型经过测试可以阅读图像中的场景文本,并通过文本进行推理以解决各种任务。
    • 空间意识(Spat)。空间意识涵盖了与理解空间相关的各种能力,包括理解物体和场景文本区域之间的空间关系。
    • 语言生成(Gen)。语言生成是一项至关重要的能力,使模型能够以清晰、引人入胜和信息丰富的方式表达其回应。我们使用需要更详细回答的问题来评估语言生成能力。
    • 数学。数学评估模型在解决书面方程或实际问题时的算术能力。

  在现实世界的场景中,各种复杂的多模态任务需要整合不同的核心VL能力。例如,如表10(a)所示解释视觉笑话需要识别、幽默知识和语言生成;如表11(a)所示阅读文件和解决数学问题需要OCR、空间意识和数学;以及如表14(b)所示根据图像回答考试问题需要OCR、知识、空间意识。为了解决这些复杂任务,期望LLMs能够无缝整合不同的VL能力。因此,建立一个评估这些整合能力在LLMs内部表现的基准至关重要。

  为了构建基准,我们从各种在线来源收集了187张图片,并提出了205个问题,每个问题需要一个或多个能力来回答。如表10-15所示,这些问题类型各异,需要不同长度的开放式回答。155个问题的答案是人工标注的真实答案,而另外50个问题的答案则来自互联网。除了187张图片外,我们还从VCR [88]收集了十张高质量问题的额外图片,将问题和答案修改为开放式回答格式。另外三张图片来自ChestX-ray14 [78],以获取相应的医学专家知识。总体而言,我们的MM-Vet包含200张图片和218个问题(样本),每个问题都与其相应的真实答案配对。对于每个问题,我们还确定了回答所需的能力,并在图2中以统计数据显示这些信息。

2、LLM-based evaluator for open-ended model outputs

  MM-Vet中的问题和期望被设计为开放式的,以涵盖多样的现实场景。这在模型评估和指标设计方面自然带来了巨大挑战。受到最近利用LLM进行开放式评估的NLP研究的启发,我们利用GPT-4来辅助评估。如表1所示,我们为模型评估设计了一个few-shot提示。few-shot设计允许我们通过上下文示例定义评分指标,并支持轻松扩展到新的问题集。具体而言,我们实现的提示包括五个带有开放式简短答案的上下文示例和两个带有长答案的示例。我们涵盖了完全正确(即1.0)或不正确(即0.0)的示例,以及用于定义不同类型“部分正确”回答的示例。基于LLM的评估器允许使用统一一致的指标评估任何风格的模型输出。此外,它还支持通过简单修改评估示例轻松适应不同类型的问题和答案风格。
通过输入提示,GPT-4会根据每个样本的输入问题、真实答案和模型输出自动生成分数。每个样本的分数范围从0到1。总分数是通过计算得到的:
这个是论文中的表一:
在这里插入图片描述

这个是我测试对比表:

在这里插入图片描述

四、Evaluation results

1、Experiment settings

   我们利用MM-Vet来评估两种类型的LMMs,即:(1)端到端调优的LMMs(OpenFlamingo,BLIP-2,LLaVA,MiniGPT-4,Otter和InstructBLIP);(2)使用LLMtool的方法(MM-ReAct和Transformers Agent)。这些方法的总结如表2所示。如表1所示,对于每个样本,我们使用其问题、真实答案和特定LMM的输出填充提示模板。通过将填充后的提示输入GPT-4,GPT-4将为样本生成一个从0到1的分数。发现尽管温度设置为0,GPT-4的输出仍存在差异。因此,我们通过5次评估利用GPT-4评估LLMs的输出。由于空间限制,我们报告了能力/能力整合的平均分数,以及总分数的平均值和方差。

2、Regarding each capability

  识别。在“识别”类别中包含需要识别能力来回答的问题。示例见表10(a, b)、11(b)、12(a, b)、13(a, b)、14(a, c)和15(b)。表3中的“Rec”列比较了在“识别”方面的表现。在评估的模型中,LLaVA-13B(LLaMA-2)是最好的,获得了39.2%的得分。可能有两个原因。首先,LLaVA-13B(LLaMA-2)采用了来自CLIP的ViT-L/14 [24]作为视觉模型,该模型通过大量数据训练,包括4亿个图像文本对;其次,更强的语言模型可以大大提升识别性能,这让人感到惊讶。LLaVA-13B(LLaMA-2)比LLaVA-13B(Vicuna-13B)提高了8.3%的重要性。更强大的LLMs可能有助于更好地理解问题,并从视觉输入中识别关键信息。
 LLaMA-Adapter v2-7B是另一个在识别方面表现出色的模型,实现了38.5%的得分。这种出色的能力可能来自其各种各样和大量的调优数据,如表2所示的LAION-400M、COYO-700M、Multimodal C4和LLaVA的调优数据等。
此外,InstructBLIP-8B获得了32.4%的得分。如表2所示,InstructBLIP的调优数据包括26个公开可用数据集,其中包括大量关于识别的数据集,如VQA v2和GQA等。InstructBLIP在识别方面表现出色的潜力可能受益于这些数据集。
  OCR。OCR评估模型在识别图像中的场景文本以及进行各种类型推理(包括数学、空间、识别等)能力。示例见表10©、11(a, c, d)、12(b)、13(a, b)、14(a, b)和15(a, b)。如表2中“OCR”列所示,MMReAct-GPT4在OCR能力方面表现最佳(65.7%),借助外部OCR模型作为工具。在端到端调优模型中,LLaVA-13B(LLaMA-2)取得了最高表现(22.7%)。这种卓越表现可能归因于LLaVA采用CLIP ViT-L/14作为其视觉模型,并在训练数据中包含大量的图像-OCR配对。
  知识。如表10(a)、12(a, b)和14(b, c)所示,“知识”类别涵盖了从理解笑话到百科知识等广泛的知识相关问题。LLaVA-Adapter v2-7B在这一能力中是最好的模型,得分为31.4%,如表3所示。这可能得益于其包括GPT-4-LLM在内的大规模调优数据。MMReAct-GPT-4在这一能力中也取得了显著的得分(29.0%),因为它具有强大的LLM骨干,同时结合了像必应搜索这样的外部工具进行知识获取。
语言生成。在表10(a)、12(b)、13(a)和15(a)中展示的“语言生成”指的是产生流畅且信息丰富的文本输出的能力。这一类别的表现与语言建模的效果高度相关。因此,MMReAct-GPT4和LLaVA-13B(LLaMA-2)脱颖而出,成为排名前两位的模型。它们的成功归功于构建这些系统的GPT-4和LLaMA-2语言模型。
  空间意识。 “空间意识”涉及理解视觉对象区域(例如表10©)和场景文本区域(例如表13(a, b))之间的空间关系。MMReAct-GPT4在这一能力中取得了显著的领先地位(56.8%),因为采用的工具,如密集标注和OCR,提供了详细的对象和场景文本位置信息,以坐标的形式呈现,这些信息可以被GPT-4理解和处理。
 当涉及端到端调优模型时,LLaVA-13B(V1.3, 336px)展现出最佳表现,达到31.3%。LLaVA的调优数据部分来自捕捉对象名称及其相应坐标作为输入。这一过程确保生成具有空间信息的数据,可能有助于模型开发和增强其空间意识能力。
  数学。 “数学”衡量了对书面方程(例如表15(b))或实际问题(例如表11(d))的算术能力。值得注意的是,MMReAct-GPT4始终优于其他模型。这种卓越表现可能归功于采用的PAL数学工具(Program-aided Language Models)。

3、Result discussion

Foundation models and tuning data

  在这个小节中,我们讨论LMMs中的模块,并推测每个组件可能如何影响通过MM-Vet评估的LMMs在不同方面的能力。我们主要考虑基于开源LLMs的模型,即Flan-T5,LLaMA,Vicuna和LLaMA-2。
  视觉。对于视觉组件,在我们评估的端到端LMMs中使用了两个模型,即CLIP-ViT/L14(428M)和EVA-ViT-G(1.13B)。由于缺乏全面的消融研究,目前无法确定哪个模型更优秀。然而,值得注意的是,当与相同的语言模型配对时,InstructBLIP-8B在识别任务中表现优异,而LLaVA-7B在OCR方面表现特别出色。
  语言。有一个显著的趋势表明,优秀的语言模型(LLMs)通常会产生更好的性能,比如比较不同模型的7B和13B变体,除了InstructBLIP的8B版本表现比14B更好之外。
调优数据。增加数据量可以提高性能。以InstructBLIP-8B为例,它利用了来自26个公开可用数据集的更多数据来调整模型,并取得比BLIP-2-12B更高的分数。

Comparison with Bard

  Bard是一种流行的闭源商业LMM系统。评估中的一个问题是Bard拒绝包含人物的图像,而是输出“抱歉,我暂时无法处理包含人物的图像。”为了与其他模型进行公平比较,我们构建了一个包含168个Bard可以处理的样本的MM-Vet子集,简称为Bard集。在Bard集上的结果显示在表5和表6中。
  Bard在六个能力中的三个中取得最高分,在十五个能力整合中的七个中取得最高分,并获得最高的总分(53.5%)。MM-ReAct-GPT-4在剩下的六个能力中表现更好,在十五个能力整合中有九个名列前茅。特别是,在OCR、空间意识和数学能力方面,MM-ReAct表现更佳,表明即使使用最先进的LMMs,使用专门的外部工具也可能带来潜在好处。
  在考虑端到端模型时,与Bard仍存在巨大差距。例如,Vicuna-13B(V1.3, 336px)获得31.5%,比Bard低22.0%。未来更强大的开源LLMs和多模态训练的进步有望进一步缩小这一差距。

Comparison with GPT-4V(ision)

  我们对最先进的LMM,GPT-4V(ison)进行了MM-Vet评估和基准测试。在向GPT-4V发出查询时,我们在提示中加入“为以下图像文本对生成简短而简洁的回答”。定量结果显示在表7、8中,定性结果则在图3-6中表达。值得注意的是,GPT-4V取得了67.7%的得分,明显超过了开源LMMs和基于LLM的多模态代理。我们希望详细的按类别性能分析可以为增强模型能力的潜在途径提供启示,从而弥合现有的性能差距。举例来说,在代理系统中整合专门工具对于特定功能如OCR和数学来说是有利的。而其他类别,如识别和语言生成,则需要分别增强核心视觉和语言模块。图3-6提供了详尽的分析,突出了GPT-4V性能的成功和失败实例。这次MM-Vet分析旨在成为未来研究的灵感源泉,特别是在先进的多模态提示技术和模型改进领域,以进一步提高LMM性能。

4、Effectiveness analysis of LLM-based evaluation

  为验证LLM评估对LMM预测的有效性,我们选择了MMReAct-GPT-4在138个客观问题上的输出,这些问题可以由人类客观地注释。我们计算了评估器输出得分与人工注释得分之间的绝对差值。默认情况下,我们使用GPT-4 (0613)作为评估器。在这里,我们还将其替换为其他LLMs,例如LLaMA-2、GPT-3.5。平均与人类评分的差异报告在表9中,表示为∆。
最大潜在差异为1.0。基准评估方法,关键词匹配,导致了高达0.273的差异。这说明了当处理开放式答案时,关键词匹配不适用于MM-Vet。令人惊讶的是,LLaMA-2-7B的∆甚至高于关键词匹配,而LLaMA-2-13B的∆仅略低于关键词匹配。这表明评估模型的开放式输出远非易事。
对于OpenAI的模型,GPT-3.5 (turbo-0613)获得了0.178的∆,而GPT-4 (0613)实现了最低的差异,为0.042。在本文中,我们使用GPT-4 (0613)来评估LMMs的输出。

5、Takeaway notes

我们将上述分析和讨论总结如下:
  • 在MM-Vet上对综合能力的评估中(第4.2、4.3.2、4.3.3节),GPT-4V和Bard优于现有的开源方法。采用工具方法的MM-ReAct-GPT-4与Bard表现相当,使用有效的外部工具。不同类别中的优缺点激发了对增强工具的LMMs的未来研究。在端到端LMMs中,LLaVA-13B(LLaMA-2)/LLaVA-13B(V1.3, 336px)在MM-Vet上表现最佳。
  • 对开源LMMs的分析留下了关于LMMs优越视觉编码器的模糊空间,基于当前模型比较。然而,强大的LLMs显然可以提升LMMs的性能。
  • 对于开放式评估(第4.4节),使用GPT-4来评估LMMs的开放式输出是有效的。使用较弱的LLMs可能会导致与人类评估结果的标准之间更显著的偏差。
  • 当前表现最佳的方法,如GPT-4V和MM-ReAct-GPT-4,在MM-Vet上仅获得约68%/45%的得分(满分为100%)。这种差距表明需要进一步努力来增强LMMs在综合能力方面的表现,例如通过开发更强大的LLMs或将LLMs与外部工具扩展。

五、Conclusion

  在本文中,我们引入了MM-Vet基准测试,以评估LMMs在综合视觉-语言能力方面的表现。我们汇编了一个新的多模态数据集,需要整合多种视觉-语言能力。为了便于开放式评估,我们采用基于LLM的评估器来对LMMs的开放式输出进行评分。然后我们在MM-Vet上评估各种LMMs,分析它们的结果,以洞察不同LMM系统范式和模块选择。我们观察到目前最好的LMMs GPT-4V在MM-Vet上获得约68%的得分(满分为100%),表明需要努力进一步提高LMMs的综合能力。


总结

这篇文章给出了大模型评价方法,感觉是借用GPT4模型来评估。个人觉得很好的全面定量评估方法应该还不具备,毕竟表达方式不好统一。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

tangjunjun-owen

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值