充分利用视觉信息多问多答合成数据,提升多模态大模型数学推理能力

0d2a8842b417ffe7b2cda7976b202e99.gif

©PaperWeekly 原创 · 作者 | 史文浩

单位 | 电子科技大学

43c75b04762a5210867c3fdf778f1c74.png

论文题目:

Math-LLaVA: Bootstrapping Mathematical Reasoning for Multimodal Large Language Models

论文链接:

https://arxiv.org/abs/2406.17294

开源链接:

https://github.com/HZQ950419/Math-LLaVA

0f132edd9ee9d183c8b7a36cb678cb38.png

动机和背景

近年来,大语言模型在数学推理中取得优异的表现,随着多模态大模型的发展,模型能够处理视觉语言输入进行多模态数学推理。然而,现有的视觉指令数据集中,每张图像对应有限的问题答案数据对,没有充分利用视觉信息来增强多模态大模型的数学推理能力。

为此,我们从多种数据集中收集 4 万张高质量图像和问答数据对。通过对图像各部分视觉信息充分提问,以及对问题数据进行增强,构建了一个高质量、多样化的合成多模态问答数据集,从而增强多模态大模型数学推理的能力。本项工作强调合成高质量的多模态问答数据集在提高多模态大模型数学推理能力方面的重要性。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值