论文阅读7 MathScape: Evaluating MLLMs in multimodal Math Scenarios through a Hierarchical Benchmark

最新推荐文章于 2024-10-04 20:04:05 发布

贤貝

最新推荐文章于 2024-10-04 20:04:05 发布

阅读量646

点赞数 9

分类专栏：笔记文章标签：论文阅读 python 深度学习 nlp 计算机视觉

本文链接：https://blog.csdn.net/qq_48898746/article/details/141671250

版权

笔记专栏收录该内容

4 篇文章 0 订阅

订阅专栏

1、介绍

本文论文标题翻译为《MathScape：通过分层基准测试评估多模态数学场景中的大型语言模型》。现有的多模态数学基准测试没有充分整合视觉和文本信息，导致评估不够全面。本文提出了一个新的基准测试MathScape，它通过使用真实世界的数学问题图像和正确答案的组合来评估MLLMs。MathScape旨在通过分类层次化方法评估基于照片的数学问题场景，评估MLLMs的理论理解和应用能力。

2、概念

多模态大型语言模型（MLLMs）：结合了视觉和文本信息处理能力的高级语言模型。
视觉语言大型模型（VLLMs）：MLLMs的一个分支，专注于图像和语言的结合，以执行多模态任务。

3、数据集

以前的数据集通常将数学描述作为文本输入提供，而图像只包含图形，与真实场景不一致。本文实施了一个三步流程来构建一个真实世界数学图像数据集。问题根据数学知识领域（如代数、几何、概率和统计）和教育阶段（小学、中学、高中）进行分类，以评估模型在不同数学领域和教育水平的适应性和准确性。
三步流程为：

数据准备（a）：收集了从小学到高中的数学考试和家庭作业中的数学问题，并将这些问题文档转换为PDF格式，然后进一步转换成图像。
数据注释（b）：通过拍摄打印图像、屏幕显示的照片以及使用屏幕截图，使图像更贴近真实世界场景。
数据检查和知识分类（c）：构建数据集后，进行双重检查和基于知识的分类，以确保数据集的高质量，并根据知识点对数据进行分类。

下图展示了MathScape基准测试中不同难度级别和不同教育阶段（小学、中学、高中）的数学问题数量：

下图展示了MathScape数据集中问题类型和知识点的分布情况：