论文阅读7 MathScape: Evaluating MLLMs in multimodal Math Scenarios through a Hierarchical Benchmark

1、介绍

本文论文标题翻译为《MathScape:通过分层基准测试评估多模态数学场景中的大型语言模型》。现有的多模态数学基准测试没有充分整合视觉和文本信息,导致评估不够全面。本文提出了一个新的基准测试MathScape,它通过使用真实世界的数学问题图像和正确答案的组合来评估MLLMs。MathScape旨在通过分类层次化方法评估基于照片的数学问题场景,评估MLLMs的理论理解和应用能力。

2、概念

  1. 多模态大型语言模型(MLLMs):结合了视觉和文本信息处理能力的高级语言模型。
  2. 视觉语言大型模型(VLLMs):MLLMs的一个分支,专注于图像和语言的结合,以执行多模态任务。

3、数据集

以前的数据集通常将数学描述作为文本输入提供,而图像只包含图形,与真实场景不一致。本文实施了一个三步流程来构建一个真实世界数学图像数据集。问题根据数学知识领域(如代数、几何、概率和统计)和教育阶段(小学、中学、高中)进行分类,以评估模型在不同数学领域和教育水平的适应性和准确性。
三步流程为:

  1. 数据准备(a):收集了从小学到高中的数学考试和家庭作业中的数学问题,并将这些问题文档转换为PDF格式,然后进一步转换成图像。
  2. 数据注释(b):通过拍摄打印图像、屏幕显示的照片以及使用屏幕截图,使图像更贴近真实世界场景。
  3. 数据检查和知识分类(c):构建数据集后,进行双重检查和基于知识的分类,以确保数据集的高质量,并根据知识点对数据进行分类。
    在这里插入图片描述
    下图展示了MathScape基准测试中不同难度级别和不同教育阶段(小学、中学、高中)的数学问题数量:
    在这里插入图片描述
    下图展示了MathScape数据集中问题类型和知识点的分布情况:
    在这里插入图片描述

下图为MathScape数据集的一个例子:
在这里插入图片描述

4、模型评估方式

采用两步评估过程来有效评分长答案。

4.1 答案分割

将提示LLMs将长答案分解为多个子答案,每个子答案侧重于问题的一个特定方面。这种分割确保复杂答案被分解为易于管理的部分,使评估每个部分的正确性和相关性更加容易。通过将子问题隔离在整个解决方案中,可以对模型的性能进行更细粒度的分析。如下图所示:
在这里插入图片描述

4.2 子答案评分

在分割长答案之后,我们使用下图图中描述的提示自动为每个子答案单独评分。这种方法允许我们独立评估每个组成部分的准确性,确保最终得分反映模型全面处理问题各个方面的能力。通过单独评分子答案,我们可以确定模型擅长或挣扎的特定领域,为其优势和劣势提供更深入的见解。
在这里插入图片描述

5、实验

5.1 不同题型

在这里插入图片描述
与多项选择相比,模型在证明问题上表现的更好。证明问题中的结构化格式和清晰的信息使模型更容易处理,而需要复杂、多步骤推理的解决方案问题则构成了更大的挑战。

5.2 不同知识点

在这里插入图片描述

5.3 不同教育阶段

在这里插入图片描述

5.4模型稳定性

在这里插入图片描述

只有大约25%的模型在五次提问中都显示出很高的稳定性,因此模型的鲁棒性和稳定性有待提高。

5.5 问题长短

在这里插入图片描述
在这里插入图片描述

模型对字数少的问题有更高的准确度,而模型准确度和答案的长短无关。

6、不足之处

6.1 图像识别

无法从图像中提取出有效信息:
在这里插入图片描述

6.2 图像属性

空间能力和空间位置推理能力较弱:
在这里插入图片描述

6.3 推理能力

没有准确的记忆能力:
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值