参考链接:https://zhuanlan.zhihu.com/p/671638798
一、视觉大模型的任务
- 视觉问答(Visual Question Answering, VQA):给定一个图片以及问题,需要理解图片的内容并基于此用自然语言回答问题
- 视觉描述(Visual Captioning):给定一个图像,用自然语言描述图像的内容。
- 视觉定位(Visual Grounding)/短语定位(Phrase Localization/Phrase Grounding)。参考cogVLM文章的定义,把 Visual Grounding 作为一个广义概念,分为:
① Grounded Captioning:具有定位的视觉描述(描述图像的内容以及所提到所有实体的位置) Referring
② Expression Generation:指代表述生成(给定图像和对应在图像中的位置,生成一个自然语言描述,并与其他相似物体区分)
③ Referring Expression Comprehension(REC):指代表述理解(给定图像以及实体描述,定位到图中的最佳匹配区域,并理解各种自然语言语义及物体、属性、区域等相关的视觉信息)
④ Grounded Visual Question Answering:包含定位的视觉问答 (给定图像以及物品的位置框信息,进行视觉问答)
二、评估基准:
SEED-Bench排行榜:
- ppl (perplexity) 就是给模型 4 句话 A / B / C / D ,看模型更认同哪一句话 (混淆度 perplexity 更低);
- gen (generate) 就是问题为提示词,让模型往下续写,并从续写中提取答案为 A / B / C / D中的哪一个。
- SEED-Bench-2:由三个层级构成,每个层级都对模型的不同能力进行了深度评估:
L1评估模型对固定形式的图像(如单图、多图或视频)和文本的理解能力;
L2评估模型对图文穿插这一更为灵活的输入形式的理解能力;
L3更进一步,评估模型不仅输出文本,还包括生成图像的能力。
LLaVA-v1.6,模型评估
- MME(Multi-Modal Explanations):用于评估模型在多模态解释任务中的性能。包含MME-Cognition与MME-Perception。
- MMBench: 视觉模型多任务评估 MMBench-CN: 视觉模型多任务评估,中文任务评估 CMMLU: 中文多任务语言理解能力
- TouchStone:提供了多个任务和评估指标,用于综合评估多模态模型的能力。
- LLaVA-Bench–Wild:为评估模型在更具挑战性的任务中的能力以及对新领域的泛化能力,收集了 24 张不同的图像,总共60 个问题,包括室内和室外场景、绘画、草图等。将问题分为三类:对话(简单 QA)、详细描述和复杂推理。
- SEED-IMG:情感评估
- Math-Vista 在视觉环境中的数学推理