多模态大模型LLM、MLLM性能评估方法-CSDN博客

本文链接：https://blog.csdn.net/lanlinjnc/article/details/136934153

本文介绍了评估多模态大模型性能的多个基准，如LLaVA-Bench在视觉聊天中的应用，SEED-Bench的多项选择题测试，以及MME Bench对感知和认知能力的全面考察。这些基准通过各种任务和数据集，揭示了模型的OCR能力、推理能力和多模态理解等方面的表现。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

虽然 LMM 在许多场景中以开放式方式和自由格式文本表现出了出色的视觉识别和推理能力，但 LMM 的评估正成为一个紧迫且具有挑战性的问题。已经开发了几个相关的基准来评估 LMM 的各个方面，包括 OCR、hallucination (POPE) 和 HaELM 等特定能力）和 adversarial robustness），到综合评估，如 LAMM、LVLM-eHub。我们在下表中总结了 LMM 评估基准。其中，LLaVA-Bench是首次尝试专门针对LMM设计开放世界视觉聊天基准。最近，人们进行了早期的多模态实验，将开源 LMM 与商业 LMM 进行比较，例如 BingChat、Bard、LLaVA-Bench 和 LVLM-eHub 。

令人惊讶的是，在没有对文本识别数据进行明确训练的情况下，LMM 在野外表现出强大的零样本 OCR 性能。为了揭示 LMM 中 OCR 隐藏的秘密，Liu 等人进行了一项全面的实证研究，在 24 个学术文本识别数据集上比较开源 LMM。强调了三个观察结果：(i) 尽管 LLaVA 中的训练数据要小一个数量级，但 LLaVA 在 24 个数据集中的 21 个数据集上始终优于 MiniGPT-4。 (ii) 正如 BLIP2 和 mPLUG-Owl 所证明的那样，使用更多的训练数据进行训练会带来更高的 OCR 性能。 (iii) 在大多数情况下，有监督的 SoTA 结果明显优于零样本 LMM。然而，值得注意的是，在以具有挑战性的艺术文本为主要特征的WordArt数据集中，BLIP2 超越了有监督的 SoTA。这揭示了 LMM 在识别更复杂文本类型方面的潜力。下表参考论文：Multimodal Foundation Models:
From Specialists to General-Purpose Assistants
在这里插入图片描述

LLaVA Bench

官方链接：https://github.com/haotian-liu/LLaVA/blob/main/docs/LLaVA_Bench.md
为了评估该模型在更具挑战性的任务中的能力和对新领域的可推广性，我们收集了一组不同的 24 张图像，总共有 60 个问题，包括室内和室外场景、模因、绘画、草图等，并将每张图像与高度详细和手动策划的描述和适当的问题选择相关联。这种设计还评估了模型对不同提示的鲁棒性。在此版本中，我们还将问题分为三类：对话（简单 QA）、详细描述和复杂推理。我们继续扩大和改善 LLaVA-Bench （In-the-Wild）的多样性。我们手动查询 Bing-Chat 和 Bard 以获取响应。

评分结果是通过与纯文本 GPT-4 生成的参考答案进行比较，该参考答案是通过输入问题以及作为上