MMMU-Pro:评估大规模多学科多模态理解和推理能力

最新推荐文章于 2025-04-17 10:01:07 发布

数据猎手小k

最新推荐文章于 2025-04-17 10:01:07 发布

阅读量1.8k

点赞数 37

文章标签：语言模型

本文链接：https://blog.csdn.net/u011559552/article/details/142035006

版权

2024-09-04，由MMMU 团队创建用于评估大规模多学科多模态模型的理解和推理能力的基准。

目前遇到问题和挑战：

MMMU-Pro通过基于MMMU的三步过程严格评估多模态模型的真实理解和推理能力：（1）过滤掉纯文本模型可回答的问题，（2）增强候选选项，（3）引入仅视觉输入设置，其中问题嵌入图像中。这种设置挑战人工智能同时真正“看”和“读”，测试无缝整合视觉和文本信息的基本人类认知技能。

1、过滤掉纯文本模型可回答的问题（LLM Filtering）：

这一步骤的目的是排除那些仅通过文本信息就能回答的问题。通过使用文本-only的语言模型（如 Llama3-70B-Instruct、Qwen2-72B-Instruct 等）来尝试回答 MMMU 中的问题，即使这些问题通常需要结合图像来理解。
如果这些文本模型在多次尝试中能够正确回答某个问题，那么这个问题就会被标记为可以通过文本信息回答，并在 MMMU-Pro 中被排除。

2、增加候选选项（Option Augmentation）：

3、引入仅视觉输入设置（Photos/Screenshots）：

经过三个步骤的筛选和增强后，最终获得了3460个问题，其中包括标准格式的1730个样本和以屏幕截图或照片形式呈现的另外1730个样本。

MMMU-Pro 能够更准确地评估模型是否真正理解了多模态信息，并且能够在没有明显线索或捷径的情况下进行复杂推理。这种方法更接近现实世界的应用场景，其中 AI 系统通常需要处理混合了文本和图像的复杂视觉输入。