大模型论文—SEED-Bench-2-Plus:多模态大语言模型评测-CSDN博客

本文链接：https://blog.csdn.net/2401_84494441/article/details/138342146

本文提出SEED-Bench-2-Plus，一个针对文本丰富视觉内容理解的多模态大语言模型评测基准，包含2.3K个难题和精确注解，评估模型在图表、地图和网页等场景的表现，揭示了现有MLLM在文本丰富环境中的局限性，促进进一步研究。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

本研究提出了SEED-Bench-2-Plus，这是一个针对多模态大语言模型在文本丰富的视觉内容理解方面的评测基准。基准包含2.3K个多项选择题和精准的人类注释，覆盖图表、地图和网页三大类别，旨在模拟真实世界的文本丰富环境。
理解文本丰富的视觉内容对于多模态大型语言模型（MLLM）的实际应用至关重要，因为文本丰富的场景在现实世界中无处不在，其特点是图像中嵌入了大量文本。最近，具有令人印象深刻的多功能性的 MLLM 的出现提高了我们对 MLLM 的期望标准。然而，由于目前的MLLM基准测试主要侧重于评估一般的视觉理解，因此尚未全面客观地评估他们在文本丰富的场景中的熟练程度。在这项工作中，我们介绍了 SEED-Bench-2-Plus，这是一个专门设计用于评估 MLLM 的 \textbf{text-rich visual comprehension} 的基准测试。我们的基准测试包括 2.3K 多项选择题和精确的人工注释，涵盖三大类：图表、地图和 Web，每个类别都涵盖了现实世界中广泛的文本丰富的场景。这些类别由于其固有的复杂性和多样性，有效地模拟了现实世界中文本丰富的环境。我们进一步对 34 个著名的 MLLM（包括 GPT-4V、Gemini-Pro-Vision 和 Claude-3-Opus）进行了全面评估，并强调了 MLLM 目前在文本丰富的视觉理解方面的局限性。我们希望我们的工作可以作为现有MLLM基准的宝贵补充，提供有见地的观察结果，并激发MLLM在文本丰富的视觉理解领域的进一步研究。

在这里插入图片描述