多模态数学推理数据集:MATH-V和MATHVISTA

多模态数学推理数据集:MATH-V和MATHVISTA

返回论文目录

1.Measuring Multimodal Mathematical Reasoning with MATH-MATH-VDataset
论文地址

2.MATHVISTA: Evaluating Mathematical Reasoning of Foundation Models in Visual Contexts
论文地址

1.介绍

这里选取了两篇多模态数学推理数据集的代表工作MATH-V和MATHVISTA,均是今年2024年发表的工作。前者是港中大的工作,后者是加利福尼亚大学洛杉矶分校的工作。

2.两者的比较

  1. 从输入输出形式来看,两工作都是使用文本+图像纯文本作为输入,文本作为输出进行测试。

  2. 从题目类型来看,MATH-V主要包括了多选题和自由回答的题目,MATHVISTA包括选择和填空题,下面分别是MATH-V和MATHVISTA的部分题目例子。
    在这里插入图片描述

在这里插入图片描述

  1. 从数据来源来看,MATH-V来源于数学袋鼠竞赛(Math Kangaroo) ,英国不同级别的竞赛(UK (Grey,Pink,Junior,Senior)),美国数学竞赛(AMC 8, 10, 12)和美国数学邀请赛(AIME)(AMC (8,10,12), AIME)。MATHVISTA是基于已经有的数学相关数据集进行构建的,包括FQA:图形问题回答,GPS:几何问题解决,MWP:数学单词问题,TQA:教科书问题回答,VQA:视觉问题回答。

  2. 从题目难度来看,MATH-V难于MATHVISTA,在MATH-V中有两个测试集上的模型正确率的比较,如下图所示。
    在这里插入图片描述

  3. 从数据集的关键信息来看,MATH-V和MATHVISTA均给出了一些关键的统计信息,分别如下图所示。MATH-V共有3040个题目,而MATHVISTA有6141个题目,它们均给出了选择题和自由回答题目的数量,MATHVISTA给出了原始28个数据集的问题数量为5261,而新标注的3个有736个,MATH-V则给出了一个mini测试集(用于小规模快速测试)的数量为304个。两个工作均统计了单独的图片数量,唯一的问题数量或回答数量的信息。MATHVISTA给出了所有问题中最长的和平均的问题长度、回答长度、选项长度,MATH-V则只给出了最长的和平均的问题长度。此外,MATH-V还单独统计了答案是A、B、C、D的数量。
    在这里插入图片描述
    在这里插入图片描述

  4. 从数据集划分来看,MATH-V根据学科和难度进行划分,分成了16个不同的学科类型(包括代数,解析几何,算术,组合几何,组合学,计数,描述性几何,图论,逻辑,度量几何,实心几何,统计,拓扑,和变换几何)和5个测试难度等级,涉及到了12个年级。而MATHVISTA由于是主要基于原数据集改造,就按照了总共31个数据集进行划分,相当于31个不同的类型。相比之下,MATH-V是更偏纯数学题的推理测试题,需要强大的多模态数学能力才能解决,而MATHVISTA也测试涉及到数学推理,但可能不是强依赖,可能只需要简单的VQA的能力也能解决。此外,MATHVISTA测试数据有部分是固定模板获得的,这导致有些同一个个问题多次出现,此外抽象问题特征的问题(计数,测量,时间,如下图)超过了90%。
    在这里插入图片描述

  5. 从测试结果来看,两个模型都选择了代表性的一些多模态模型进行测试。两者的测试结果分别如下图所示。在MATH-V中给出了人类的测试结果,可以看到表现相对最好的GPT-4V距离人类的表现也相差非常大,只达到人类的47%的水平。表格中,MATH-V给出了几个部分的结果,第一是随机给出答案的结果,它的总体结果是7.17,第二个是自由文本的测试结果,只有GPT4-COT的测试结果,为8.16,第三个是文本加图像工具(会提取图像信息合并到文本一起送入大模型),第四个是开源的多模态大模型LMM,结果表现最好的是书生模型,该模型的huggingface地址github地址在这,第五个是闭源的多模态大模型,表现最好的是GPT-4V,为22.76。人类的测试结果是在304个题目上的testmini上进行的,如果是所有题目上人工成本太高,可以理解。
    在这里插入图片描述
    在这里插入图片描述

而在MATHVISTA中也给出人类的结果,表现相对较优的模型是Bard,但也只达到人类的58%的水平。表格中,与MATH-V不同的是该给出了多次随机猜测的结果,目的是让我们知道不懂的人的最优表现。其他方面没有太大区别
在这里插入图片描述
在这里插入图片描述

  1. 从文章结构来看,MATH-V是(1.引言 2.相关工作 3.数据收集概览 4.实验结果 5.总结 6.工作的局限性 7.伦理声明 参考文献 附录),MATHVISTA是(1.引言 2.数据收集概览 3.实验结果 4.相关工作 5.总结 参考文献 附录)。MATH-V总共有71页,MATHVISTA有116页。MATHVISTA已发ICLR,MATH-V在arXiv上。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

小怪兽会微笑

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值