Overview
MathVISTA
总览
题目: MATHVISTA: EVALUATING MATH REASONING IN VISUAL CONTEXTS WITH GPT-4V, BARD, AND OTHER LARGE MULTIMODAL MODELS
机构:UCLA,华盛顿大学,微软
论文: https://arxiv.org/pdf/2310.02255.pdf
代码: https://mathvista.github.io/
任务: 多模态大模型的数学推理能力评测
特点: 引入了一个数学推理能力的评测集MATH Vista,包含七种数学推理类型,五个主要任务,31个子数据集,并且在LLM,visual augmented LLM,开源LMM,以及两个专有 LMM(即 GPT-4V、Bard)展开了广泛的评测(人类表现60.3%)
前置相关工作:多模态VQA数据集(自然场景 + 数学/科学 + 人造数据集),LLM,LM