算法问题整理(八)

网络资料整理个人学习,感谢各位大神!(若侵则删)

问题22: 多模态大模型测试集与工具

参考:https://zhuanlan.zhihu.com/p/694361831

MMBench

主要由两个元素组成。第一个元素是精心标注的数据集,在评估问题和能力的数量和种类方面超过了现有的类似基准。第二个元素引入了一种新的 CircularEval 策略,并结合了 ChatGPT 的使用。这种实现旨在将自由形式的预测转换为预定义的选择,从而促进对模型预测的更稳健的评估。

MMStar

一个精选的、视觉内容不可或缺的多模态基准测试,包含1,500个由人工精心挑选的样本。MMStar评估6项核心能力和18个具体评估维度,旨在通过精心平衡和净化的样本,准确评估LVLMs的多模态能力。这些样本首先通过自动化流程从现有基准中粗选,随后进行人工审核,确保每个精选样本展现出对视觉的依赖性、最小化的数据泄露风险,并要求高级的多模态处理能力

MME

提出了第一个全面的 MLLM 评估基准 MME。它在总共 14 个子任务上衡量感知和认知能力为了避免直接使用公共数据集进行评估可能产生的数据泄漏,指令-答案对的标注都是手动设计的。

参考:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值