©PaperWeekly 原创 · 作者 | 史文浩
单位 | 电子科技大学
论文题目:
Math-LLaVA: Bootstrapping Mathematical Reasoning for Multimodal Large Language Models
论文链接:
https://arxiv.org/abs/2406.17294
开源链接:
https://github.com/HZQ950419/Math-LLaVA
动机和背景
近年来,大语言模型在数学推理中取得优异的表现,随着多模态大模型的发展,模型能够处理视觉语言输入进行多模态数学推理。然而,现有的视觉指令数据集中,每张图像对应有限的问题答案数据对,没有充分利用视觉信息来增强多模态大模型的数学推理能力。
为此,我们从多种数据集中收集 4 万张高质量图像和问答数据对。通过对图像各部分视觉信息充分提问,以及对问题数据进行增强,构建了一个高质量、多样化的合成多模态问答数据集,从而增强多模态大模型数学推理的能力。本项工作强调合成高质量的多模态问答数据集在提高多模态大模型数学推理能力方面的重要性。