大模型论文—SEED-Bench-2-Plus:多模态大语言模型评测

本研究提出了SEED-Bench-2-Plus,这是一个针对多模态大语言模型在文本丰富的视觉内容理解方面的评测基准。基准包含2.3K个多项选择题和精准的人类注释,覆盖图表、地图和网页三大类别,旨在模拟真实世界的文本丰富环境。
理解文本丰富的视觉内容对于多模态大型语言模型 (MLLM) 的实际应用至关重要,因为文本丰富的场景在现实世界中无处不在,其特点是图像中嵌入了大量文本。最近,具有令人印象深刻的多功能性的 MLLM 的出现提高了我们对 MLLM 的期望标准。然而,由于目前的MLLM基准测试主要侧重于评估一般的视觉理解,因此尚未全面客观地评估他们在文本丰富的场景中的熟练程度。在这项工作中,我们介绍了 SEED-Bench-2-Plus,这是一个专门设计用于评估 MLLM 的 \textbf{text-rich visual comprehension} 的基准测试。我们的基准测试包括 2.3K 多项选择题和精确的人工注释,涵盖三大类:图表、地图和 Web,每个类别都涵盖了现实世界中广泛的文本丰富的场景。这些类别由于其固有的复杂性和多样性,有效地模拟了现实世界中文本丰富的环境。我们进一步对 34 个著名的 MLLM(包括 GPT-4V、Gemini-Pro-Vision 和 Claude-3-Opus)进行了全面评估,并强调了 MLLM 目前在文本丰富的视觉理解方面的局限性。我们希望我们的工作可以作为现有MLLM基准的宝贵补充,提供有见地的观察结果,并激发MLLM在文本丰富的视觉理解领域的进一步研究。

在这里插入图片描述

在这里插入图片描述
想要论文资源可以找我拿
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值