Overview
MathVISTA
总览
题目: MATHVISTA: EVALUATING MATH REASONING IN VISUAL CONTEXTS WITH GPT-4V, BARD, AND OTHER LARGE MULTIMODAL MODELS
机构:UCLA,华盛顿大学,微软
论文: https://arxiv.org/pdf/2310.02255.pdf
代码: https://mathvista.github.io/
任务: 多模态大模型的数学推理能力评测
特点: 引入了一个数学推理能力的评测集MATH Vista,包含七种数学推理类型,五个主要任务,31个子数据集,并且在LLM,visual augmented LLM,开源LMM,以及两个专有 LMM(即 GPT-4V、Bard)展开了广泛的评测(人类表现60.3%)
前置相关工作:多模态VQA数据集(自然场景 + 数学/科学 + 人造数据集),LLM,LMM,CoT,PoT
摘要
大型语言模型(LLM)和大型多模态模型(LMM)在许多任务和领域中表现出令人印象深刻的问题解决能力,但它们在视觉上下文中的数学推理能力尚未得到系统研究。为了弥补这一差距,我们推出了 MATHVI