1、介绍
本文论文标题翻译为《MathScape:通过分层基准测试评估多模态数学场景中的大型语言模型》。现有的多模态数学基准测试没有充分整合视觉和文本信息,导致评估不够全面。本文提出了一个新的基准测试MathScape,它通过使用真实世界的数学问题图像和正确答案的组合来评估MLLMs。MathScape旨在通过分类层次化方法评估基于照片的数学问题场景,评估MLLMs的理论理解和应用能力。
2、概念
- 多模态大型语言模型(MLLMs):结合了视觉和文本信息处理能力的高级语言模型。
- 视觉语言大型模型(VLLMs):MLLMs的一个分支,专注于图像和语言的结合,以执行多模态任务。
3、数据集
以前的数据集通常将数学描述作为文本输入提供,而图像只包含图形,与真实场景不一致。本文实施了一个三步流程来构建一个真实世界数学图像数据集。问题根据数学知识领域(如代数、几何、概率和统计)和教育阶段(小学、中学、高中)进行分类,以评估模型在不同数学领域和教育水平的适应性和准确性。
三步流程为:
- 数据准备(a):收集了从小学到高中的数学考试和家庭作业中的数学问题,并将这些问题文档转换为PDF格式,然后进一步转换成图像。
- 数据注释(b):通过拍摄打印图像、屏幕显示的照片以及使用屏幕截图,使图像更贴近真实世界场景。
- 数据检查和知识分类(c):构建数据集后,进行双重检查和基于知识的分类,以确保数据集的高质量,并根据知识点对数据进行分类。
下图展示了MathScape基准测试中不同难度级别和不同教育阶段(小学、中学、高中)的数学问题数量:
下图展示了MathScape数据集中问题类型和知识点的分布情况:
下图为MathScape数据集的一个例子:
4、模型评估方式
采用两步评估过程来有效评分长答案。
4.1 答案分割
将提示LLMs将长答案分解为多个子答案,每个子答案侧重于问题的一个特定方面。这种分割确保复杂答案被分解为易于管理的部分,使评估每个部分的正确性和相关性更加容易。通过将子问题隔离在整个解决方案中,可以对模型的性能进行更细粒度的分析。如下图所示:
4.2 子答案评分
在分割长答案之后,我们使用下图图中描述的提示自动为每个子答案单独评分。这种方法允许我们独立评估每个组成部分的准确性,确保最终得分反映模型全面处理问题各个方面的能力。通过单独评分子答案,我们可以确定模型擅长或挣扎的特定领域,为其优势和劣势提供更深入的见解。
5、实验
5.1 不同题型
与多项选择相比,模型在证明问题上表现的更好。证明问题中的结构化格式和清晰的信息使模型更容易处理,而需要复杂、多步骤推理的解决方案问题则构成了更大的挑战。
5.2 不同知识点
5.3 不同教育阶段
5.4模型稳定性
只有大约25%的模型在五次提问中都显示出很高的稳定性,因此模型的鲁棒性和稳定性有待提高。
5.5 问题长短
模型对字数少的问题有更高的准确度,而模型准确度和答案的长短无关。
6、不足之处
6.1 图像识别
无法从图像中提取出有效信息:
6.2 图像属性
空间能力和空间位置推理能力较弱:
6.3 推理能力
没有准确的记忆能力: