网络资料整理个人学习,感谢各位大神!(若侵则删)
问题22: 多模态大模型测试集与工具
参考:https://zhuanlan.zhihu.com/p/694361831
MMBench
主要由两个元素组成。第一个元素是精心标注的数据集,在评估问题和能力的数量和种类方面超过了现有的类似基准。第二个元素引入了一种新的 CircularEval 策略,并结合了 ChatGPT 的使用。这种实现旨在将自由形式的预测转换为预定义的选择,从而促进对模型预测的更稳健的评估。
MMStar
一个精选的、视觉内容不可或缺的多模态基准测试,包含1,500个由人工精心挑选的样本。MMStar评估6项核心能力和18个具体评估维度,旨在通过精心平衡和净化的样本,准确评估LVLMs的多模态能力。这些样本首先通过自动化流程从现有基准中粗选,随后进行人工审核,确保每个精选样本展现出对视觉的依赖性、最小化的数据泄露风险,并要求高级的多模态处理能力。
MME
提出了第一个全面的 MLLM 评估基准 MME。它在总共 14 个子任务上衡量感知和认知能力。为了避免直接使用公共数据集进行评估可能产生的数据泄漏,指令-答案对的标注都是手动设计的。
参考: