“ 多大型多模态的评估标准MM-Vet 定义了 6 个核心 VL 功能:识别、OCR、知识、语言生成、空间感知和数学计算,并提出了一个基于 LLM 的开放式输出评估器,可以对不同的问题类型和答案风格进行评估,从而产生统一的评分指标。”
01
—
目前大型多模态模型(LMM) 展示了解决各种复杂任务的能力,为了评估在复杂多模态任务上的集成能力,新加坡国立大学 Weihao Yu、 Xinchao Wang 联合微软Azure AI团队Zhengyuan Yang、Linjie Li、Jianfeng Wang、Kevin Lin、Zicheng Liu、Lijuan Wang 提出了一种评估标准:MM-Vet。
LMM 表现出了各种有趣的能力,例如解决黑板上写的数学问题、推理新闻图像中的事件和名人以及解释视觉笑话。
模型的快速进步给评估标准的开发带来了挑战。问题包括:
如何系统地构建和评估复杂的多模态任务;
如何设计适用于各种问答类型的评估指标;
如何在简单的性能排名之外提供模型见解。
MM-Vet评估标准的设计基于这样观点:解决复杂任务的有趣能力通常是通过能够集成不同核心视觉语言(VL)功能的通才模型来实现的。
MM-Vet 定义了 6 个核心 VL 功能:识别、OCR、知识、语言生成、空间感知和数学计算,并检查了从功能组合中得出的 16 个感兴趣的集成。对于评估指标,我们提出了一个基于 LLM 的开放式输出评估器。
评估器可以对不同的问题类型和答案风格进行评估,从而产生统一的评分指标。
官方地址:
https://github.com/yuweihao/MM-Vet
论文地址:
https://arxiv.org/abs/2308.02490.pdf
Huggingface 上的 Demo 地址:
https://huggingface.co/spaces/whyu/MM-Vet_Evaluator
02
—
在MM-Vet 之前,现有的视觉语言评估标准仅需要一到两项简单的视觉语言 (VL) 功能。
如上图中的上面三个任务例子,这些任务只需要特定的一到两种功能,例如识别Recognition、语言生成 Language generation 或 OCR。
而MM-Vet定义了六大核心VL能力:识别、OCR、知识、语言生成、空间感知和数学计算,用户可以将它们集成起来解决各种复杂的多模态任务。
MM-Vet 包含了16 项定量评估任务。例如,在图1(d)中,回答“右边的女孩会在黑板上写什么?”的问题。
MM-Vet中需要识别三个孩子的性别,在空间上定位被查询的女孩,识别女孩写的场景文本,最后计算结果。
MM-Vet中各能力所占比例。(a)各单项能力所占比例。由于大多数样本需要多个能力,因此比例总和大于100%。(b)各能力组合所占比例。组合比例之和等于100%。
识别能力。识别是指一般的视觉识别能力,包括识别场景、物体、物体属性(颜色、材料、形状等)、计数以及计算机视觉中的各种其他高级视觉识别任务。
知识能力。知识类别涵盖了各种与知识相关的能力,包括社会和视觉常识知识、百科全书式知识以及新闻等时间敏感知识。这种能力要求模型不仅拥有这些知识,而且能够根据需要有效地利用这些知识来解决复杂的任务。
OCR识别能力。光学字符识别(OCR)是指对场景文本的理解和推理能力。对模型进行了测试,以读取图像中的场景文本,并对文本进行推理以解决各种任务。
空间意识能力。空间意识体现了与理解空间相关的各种能力,包括理解对象和场景文本区域之间的空间关系。
语言生成能力。语言生成是一种至关重要的能力,它使模型能够以清晰、引人入胜和信息丰富的方式表达它们的反应。我们使用需要更多扩展答案的问题来评估模型的语言生成能力。
数学计算能力。数学计算能力评估模型在解决书面方程式或野外问题方面的算术能力。
MM-Vet 上的一些模型结果
03
—
MM-Vet样例展示与分析
问:什么场合有人会使用这个表情包?
GT:这个模因通常被称为“尖叫熊猫”,通常用来表达震惊、惊讶或恐惧。它可以用来应对令人震惊或意外的事件,或者传达恐慌或警报的感觉。有人可能会使用此模因的一些可能场合包括:
对恐怖电影中的跳跃惊吓做出反应
对电视节目或书中令人惊讶的情节转折做出反应
对新闻标题或时事表达震惊
表达对即将到来的截止日期或考试的恐惧或焦虑
对体育比赛或其他比赛中的意外结果表现出惊讶。
所需能力:识别、知识、语言生成
问:有多少个西红柿?
GT:5
所需能力:认可
问:洗发水右侧的是什么?
GT : 护发素
所需能力:OCR、空间感知
问:双车库和客厅哪个房间更大?
GT : 双车库
所需能力:OCR、空间意识、数学
问:在右边的桌子上,笔记本电脑的左边是什么?
GT : 台灯 <OR> 台灯
所需能力:识别、空间意识
问:图像中的所有场景文本是什么?
GT : 5:30PM<AND>88%<AND>马里奥赛车 8 豪华版<AND>马里奥赛车 8 豪华版<AND>超级马里奥奥德赛<AND>塞尔达传说<AND>荒野之息<AND>选项<AND>开始
所需能力:OCR
问:50 美元可以购买多少加仑的高级汽油?
GT:13.6 <或> 13.7
所需能力:OCR、数学
问:这张照片是在哪个国家拍摄的?
GT:澳大利亚
所需能力:识别、知识
问:你能解释一下这个表情包吗?
GT:这个模因是对拖延症和将任务推迟到特定时间的倾向的幽默诠释。表情包中的人计划在 8 点做某事,但当他们错过了最后期限几分钟时,他们决定等到 9 点。青蛙克米特躺在床上的形象代表了这个人的懒惰和缺乏完成任务的动力。
所需能力:识别、OCR、知识、语言生成
问:下图显示了 1999 年至 2008 年英国的长期国际移民情况。
通过选择和报告主要特征来总结信息,并在相关时进行比较。
你应该写至少 150 个字。
GT:该图表提供了 1999 年至 2008 年间英国移民、移出和净移民的信息。
在此期间,移民和移民率均有所上升,但移民人数明显更高。净移民在 2004 年和 2007 年达到顶峰。
1999年,超过45万人来到英国居住,而移居英国的人数略低于30万人。净移民人数约为16万人,直到2003年一直保持在相似水平。从1999年到2004年,移民人数增加了近15万人,但移民人数的增幅要小得多。2004 年,净移民人数达到顶峰,接近 25 万人。
2004年以后,移民率仍然较高,但移民人数有所波动。2007年,移民人数突然下降,2008年达到约42万人的峰值。因此,2007年净移民人数升至24万人左右,但2008年又回落至16万人左右。
所需能力:识别、OCR、语言生成、空间感知
问: 停车位 33 上停着哪辆车?
GT : 没有 <OR> 为空
所需能力:识别、OCR、空间感知
问:这个苹果是有机的吗?
GT:是的
所需能力:识别、OCR
问:这个食物网中有哪些生产者?
GT : 浮游植物 <AND> 海藻
所需能力:OCR、知识、空间意识
问:人比车大吗?
GT:没有
所需能力:识别、知识、空间意识
问:上表列出了六个城市的地铁系统信息。
通过选择和报告主要特征来总结信息,并在相关时进行比较。
你应该写至少 150 个字。
GT:该表显示了六个主要城市的地下铁路网络的数据。
该表比较了六个网络的年龄、规模和每年使用它们的人数。很明显,三个最古老的地铁系统比新系统更大,服务的乘客也多得多。
伦敦地铁是最古老的系统,于 1863 年开通。它也是最大的系统,线路全长 394 公里。第二大系统位于巴黎,其规模只有伦敦地铁的一半左右,路线全长 199 公里。然而,它每年为更多的人提供服务。虽然东京系统的规模仅位列第三,但它无疑是使用最多的系统,每年运送乘客 19.27 亿人次。
在这三个较新的网络中,华盛顿特区的地铁是最广泛的,有 126 公里的路线,而京都和洛杉矶系统的路线只有 11 公里和 28 公里。洛杉矶网络是最新的,于 2001 年开通,而京都网络是最小的,每年仅服务 4500 万名乘客。
所需能力:OCR、语言生成、空间感知
问:右边的女孩会在黑板上写什么?
GT:14
所需能力:识别、OCR、空间意识、数学
如上所示,如果真的有一天,多模态的大模型能达到这个评测的100分标准,
真的是换一个人类的外表,区分不出来是人还是人工智能了。
阅读推荐:
Atom Capital:大模型在金融领域落地,想说爱你不容易
$100亿模型的扩张有望2年内实现通用人工智能—与 Claude 创始人Dario Amodei 访谈录
中文大模型 Chinese-LLaMA-Alpaca-2 开源且可以商用
LLama2详细解读 | Meta开源之光LLama2是如何追上ChatGPT的?
为什么对ChatGPT、ChatGLM这样的大语言模型说“你是某某领域专家”,它的回答会有效得多?(二)
拥抱未来,学习 AI 技能!关注我,免费领取 AI 学习资源。