Overview
MathVISTA
总览
题目: MATHVISTA: EVALUATING MATH REASONING IN VISUAL CONTEXTS WITH GPT-4V, BARD, AND OTHER LARGE MULTIMODAL MODELS
机构:UCLA,华盛顿大学,微软
论文: https://arxiv.org/pdf/2310.02255.pdf
代码: https://mathvista.github.io/
任务: 多模态大模型的数学推理能力评测
特点: 引入了一个数学推理能力的评测集MATH Vista,包含七种数学推理类型,五个主要任务,31个子数据集,并且在LLM,visual augmented LLM,开源LMM,以及两个专有 LMM(即 GPT-4V、Bard)展开了广泛的评测(人类表现60.3%)
前置相关工作:多模态VQA数据集(自然场景 + 数学/科学 + 人造数据集),LLM,LM
MATHVISTA是一个评估大模型在视觉上下文中的数学推理能力的新基准,涉及7种推理类型和5个主要任务。通过6,141个示例,包括新创建的IQTest、FunctionQA和PaperQA数据集,展示了模型如GPT-4V和Bard的性能。GPT-4V在某些任务上超越了人类,但总体上仍存在10.4%的差距。该研究强调了模型在视觉感知和数学推理方面仍有改进空间。"
131651408,7337247,元学习:开启学习新时代,"['自然语言处理', '人工智能', '语言模型', '编程实践']
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



