智谱AI+清华+北航再放大招 | 多模态MathGLM-Vision数学专才大模型正式开源!!!

大型语言模型(LLMs)在数学推理方面表现出了显著的能力,尤其是在基于文本的数学问题上。然而,当前的多模态大型语言模型(MLLMs),尤其是专门用于数学的模型,主要关注解决几何问题,而忽视了数学其他领域的丰富多样的视觉信息。此外,这些专门用于数学的MLLMs所使用的几何信息通常来源于几个公共数据集,这些数据集通常在多样性和复杂性上有限。

为了解决这些限制,作者旨在构建一个名为MathVL的微调数据集,并通过对MathVL进行各种参数尺度的监督微调(SFT),开发一系列专门的数学MLLMs,称为MathGLM-Vision。

为了广泛评估MathGLM-Vision的有效性,作者在几个公共基准测试和作者的自定义MathVL-测试(包括2000个问题)上进行实验。

实验结果表明,与一些现有模型(包括 Backbone 模型和开源数学MLLMs)相比,MathGLM-Vision取得了显著的改进。这些发现表明,多样化的数据集对于增强MLLMs的数学推理能力非常重要。

1 简介

近年来,计算机语言学领域的最新进展使得使用具有多步推理过程的大语言模型(LLMs)解决数学问题取得了显著的进步。例如,像GPT-4,Qwen,GLM-4,LLaMA等模型在诸如GSM8K和MATH等数学数据集上表现出了令人印象深刻的表现。

此外,专门用于解决数学问题的数学模型的开发正在扩大LLMs在该领域的潜力。这些模型包括WizardMath,MAMmOTH,MathCoder,MetaMath,DeepSeekMath,以及其他等。这些进展突显了LLMs在处理复杂数学推理和问题解决任务方面的日益熟练程度。

尽管取得了显著的进展,但主要用于数学问题解决的模型仍然主要依赖文本表示。这限制了它们在需要视觉信息场景中的有效性。值得注意的是,大约有63%的中国K12教育数学问题包括视觉元素,这突显了视觉信息在理解和解决数学问题中的关键作用。

因此,一个关键的问题出现了:包括视觉元素的数学问题是否需要视觉信息来解决?为了验证这一点,作者对这些模型(如GPT-4o,Claude-3.5-Sonnet,Qwen-VL-Max和Gemini-1.5-Pro)在MathVL-测试上的性能进行了比较,既包括有视觉输入,也包括没有视觉输入。

如图1所示,结果清楚地表明,包括视觉元素显著增强了这些模型准确解决复杂数学问题的能力。相反,排除视觉信息会导致性能明显下降,强调了在解决包括视觉元素的数学问题时,视觉上下文起着至关重要的作用。

目前,多模态大型语言模型(MLLMs)正处于解决数学问题整合视觉和文本信息的前沿。封闭源模型如GPT-4V,Gemini,Claude3,Qwen-VL,以及几个开源MLLMs如CogVLM,MiniGPT,LLaVA-1.5,SPHINX-MoE,和LLaVA-NeXT在解决几何推理挑战方面具有巨大的潜力。

此外,专门的数学MLLMs如G-LLaVA,GeoGPT4V和Math-LLaVA特别关注提高这一领域的能力。然而,这些模型仍面临许多挑战和局限性,需要解决。

当前的MLLMs,尤其是那些专注于数学的MLLMs,主要关注解决几何问题,往往忽视了数学中的视觉信息的多样性。这种视觉信息包括一系列元素,如算术、统计学、代数和应用题,每个领域都离不开几何学以外的其他数学领域。

当前用于专业数学MLLMs的微调数据集,通常来源于公共数据集如GeoQA和Geometry3K,往往缺乏多样性和复杂性。这一限制限制了模型有效地解决更广泛数学问题的能力。

当前专门的数学MLLMs主要设计用于处理单张图像输入,并且没有同时处理多张图像的能力。这一限制阻碍了它们处理需要从多个视觉来源整合信息的问题的能力。

针对这些挑战和限制,作者引入了MathGLM-Vision,这是一种具有前景的专门数学多模态大型语言模型,旨在无缝地整合视觉信息与文本分析。MathGLM-Vision的设计旨在增强模型解释和解决涉及视觉元素的复杂数学问题的能力,从而扩大可以有效解决的问题范围。

如图1所示,作者在MathVL测试中比较了MathGLM-Vision在有视觉输入和无视觉输入下的性能。结果表明,结合视觉输入的MathGLM-Vision显著优于只包含文本且忽略视觉信息的文本输入。这种增强的能力突显了在提高专门数学模型性能方面整合多模态输入的重要性。

在本文中,作者构建了一个微调数据集,名为MathVL,它包括开源数据和作者专门从K12教育中收集的中文数据。MathVL数据集经过精心设计,旨在包含各种数学问题,包括文本和视觉输入。

对于文本信息,MathVL数据集涵盖了诸如算术、代数、几何、统计学和应用题等数学课题。它包括各种类型的问题,包括填空题、选择题和自由形式题。对于视觉信息,MathVL数据集包括函数、统计数据、图表、图表、LaTeX表达式和几何图形等元素,为解决复杂数学问题提供了全面资源。

作者构建了MathVL数据集,并开发了一系列专业数学MLLM,统称为MathGLM-Vision,具有不同的参数尺度。具体而言,MathGLM-Vision-9B,MathGLM-Vision-19B和MathGLM-Vision-32B分别针对GLM-4V-9B,CogVLM2和CogVLM-32B这三种 Backbone 模型进行微调。

此外,作者还建立了一个名为MathVL-test的基准数据集,该数据集包含2000个问题,用于评估MathGLM-Vision和其他MLLM在解决涉及视觉信息数学问题的能力。通过在四个公共基准数据集和一个自建的MathVL-test上的广泛评估实验,作者验证了MathGLM-Vision的有效性。

图2的结果表明,与现有MLLM相比,MathGLM-Vision在理解和解决具有视觉元素的复杂数学问题方面表现出优越性能。例如,在MathVista的geometry问题解决(GPS)minitest split上,MathGLM-Vision-9B相对于GLM-4V-9B实现了39.68%的相对提升,MathGLM-Vision-19B相对于CogVLM2实现了65.06%的相对提升,MathGLM-Vision-32B相对于CogVLM-32B实现了51.05%的相对提升。

2 MathVL Dataset

为了提高MLLMs解决数学问题的能力,之前的努力主要集中在构建高质量的数据集。然而,这些数据集大多数属于视觉问答(VQA)类别,通常涉及描述性或识别任务,而不是传统的数学问题。

此外,一些公共数据集如Geometry3K, GeoGPT4V, MathV360K对于标准数学问题的答案通常过于简单,通常只提供最终答案,而没有深入理解所需的中间步骤。已经确立,包括分步解决方案可以显著提高大型语言模型的推理能力。图3展示了当前开源数学数据集中答案长度的分布。

为解决这些问题,作者构建了一个微调数据集MathVL,其中包括多个公共数据集和作者从K12教育水平收集的定制中文数据集。这个数据集经过精心设计,涵盖了各种包含视觉信息的数学问题。每个问题都附有详细的逐步解决方案,旨在通过提供上下文和程序性知识,增强MLLM的问题解决能力,以便进行有效的推理和理解。

开源数据。作者首先从GeoQA+,Geometry3K,ChartQA和UniGEO-Calculation等数据集中收集开源数据集。这些数据集通常作为构建增强数据集的种子数据。通过观察和统计分析,作者发现这些数据集中的57%的答案包含少于50个单词,这意味着许多问题直接回答,没有详细解释或阐述。

为了丰富这些数据集,作者使用GPT-4o为每个问题生成详细的解决方案,从而增强这些数据集的学习和推理能力。在生成详细答案后,作者进行严格的判断过程以确保GPT-4o提供的解决方案的准确性。

此外,作者采用了一个名为Geo170K的公开指导调优数据集,该数据集使用GeoQA+和Geometry3K作为种子数据,包含超过110K个几何问题-答案对。作者还将其中的另一个公开数据集GeomVerse纳入作者的资源。最后,作者在MathGLM-Vision中使用开源数据集的详细统计信息,如表1所示。

收集自K12教育的中文数据。作者构建了一个专门针对K12教育的数据集,包括341,346个数学问题以及相应的文本和视觉输入。该数据集经过精心筛选,涵盖了广泛的数学主题和难度 Level ,以适应中国教育课程。该数据集涵盖了各种问题类型,如选择题、填空题和自由形式题,涉及学科包括算术、代数、几何、统计学和文字题。从数学角度讲,该数据集可以表示为,其中表示问题,表示答案,表示每个对应问题的一个或多个图像。

构建这个数据集的过程如下:

首先,对图像进行处理,为每个图像添加一个白色边框并提高其分辨率,以确保MLLMs能够有效地识别和解释这些图像。这一修改对于促进视觉信息的准确提取至关重要。

接下来,从包含685,670个样本的原始数据集中提取341,346个样本,通过实现选择性过滤过程。这种选择基于两个特定标准:

  1. 过滤掉包含图像的样本或问题不完整的样本

  2. 消除答案少于50个字的样本,以确保答案足够详细,以便模型进行训练。

构建这个数据集后,作者根据每个问题的数学主题对其进行分类和分析。关于这些类别分布的详细统计数据请参见表2。

图4展示了从构建的中文数据集中样本的示例,提供了包含在问题中的数学主题的视觉表示。

3 MathGLM-Vision

3.1 模型架构

作者使用CogVLM和GLM-4V-9B作为基础模型,并在构建的MathVL数据集上进行监督微调。具体而言,在微调过程中使用了三个预训练的多模态大型语言模型(MLLMs):GLM-4V-9B,CogVLM2-19B和CogVLM-32B。这导致了三个不同的MathGLM-Vision变体的发展,分别称为MathGLM-Vision-9B,MathGLM-Vision-19B和MathGLM-Vision-32B。

表3展示了MathGLM-Vision系列的概述,详细列出了不同的模型参数和配置。关于上述三个预训练MLLM的更多详细信息,请参见附录B。

3.2 模型训练

为了保持MathGLM-Vision的总体视觉语言理解能力,作者将19个开源的视觉问答数据集(VQA数据集)纳入MathVL数据集。有关VQA数据集的任务类型和视觉上下文的更多详细信息,请参阅附录C。这些数据集精心挑选,以挑战和增强模型解释和整合视觉和文本信息的能力,确保在各种上下文中保持广泛的理解。

通过合并这些不同的来源,作者增强了MathGLM-Vision在数学问题求解方面的专业能力,同时保留了它在一般视觉语言任务中的强大 robustness。最后,作者在合并的VQA和MathVL数据集上进行有监督的微调(SFT)。训练过程进行了35,000次迭代,学习率为1e-5,批量大小为128。为确保训练的稳定性,作者启用了视觉编码器参数并将其学习率调整为剩余训练参数学习率的十分之一。SFT程序的详细信息请参阅附录D。

4 实验

4.1 试验设置

评估数据集

作者使用三个广泛认可的公共基准数据集(MathVista,MathVerse,和Math-Vision数据集)以及作者专门 curated 的数据集MathVL-test来评估MathGLM-Vision。MathVL-test数据集包含2,000个采样案例,这些案例与MathVL数据集中的案例不同,以确保对MathGLM-Vision的能力进行严格而公正的评估。

此外,作者采用[19]的测试协议并使用MathVista-GPS数据集来评估MathGLM-Vision解决几何问题的能力。此外,作者还使用MMMU基准来评估MathGLM-Vision的一般视觉语言理解能力。有关这些基准数据集的详细描述见附录E。

与其他多模态大型语言模型(MLLMs)进行比较。包括封闭源MLLMs,如Gemini,GPT-4V,Claude3,和Qwen-VL,以及开源MLLMs,如mPLUG-Owl,LLaMA-Adapter-V2,InstrctBLIP,LLaVA-1.5,ShareGPT4V,SPHINX,InternLM-XC2,和InternVL。此外,作者还与最近的专用数学MLLMs进行了比较,包括G-LLaVA,LLaVA-1.5-G,ShareGPT4V-G,和Math-LLaVA。

评估指标

作者采用top-1准确率来评估MathGLM-Vision在MathVista-GPS, MathVista, MathVerse, MathVision和MathVL-test上的性能。作者的评估过程遵循上述基准数据集的流程,该流程涉及使用LLM从模型的响应中提取预测答案,然后通过将提取的答案与真实值进行比较来计算准确率。

4.2 主要结果

MathGLM-Vision在公共基准数据集上的结果。 为全面评估MathGLM-Vision解决数学问题的能力,作者在几个公共基准数据集上评估其与其他MLLM的性能,包括MathVista-GPS,MathVista的测试子集,MathVerse 和Math-Vision。

表4展示了这些评估的整体结果。实验结果显示,作者构建的MathVL数据集可以显著提高MathGLM-Vision的数学推理能力。例如,MathGLM-Vision-9B在MathVista-GPS数据集上达到64.42%的准确率,比其基础模型GLM-4V-9B提高了39.68%。

此外,在各种参数尺度下,MathGLM-Vision在不同的评估基准上都优于所有基础模型,突显了MathVL对MathGLM-Vision解决问题能力带来的显著提升。值得注意的是,MathGLM-Vision在各个基准上都优于所有开源专业数学MLLM。优异的表现表明,高质量和多样化的数据,包括详细的逐步解决方案,对于提高MLLM的数学推理能力至关重要。

更重要的是,MathGLM-Vision-32B在更具有挑战性的Math-Vision基准上甚至超过了先进的GPT-4V,显示出其解决复杂数学问题的优越能力。在附录F中可以找到不同任务集的公共基准数据集上的详细实验结果。

MLCMs在几何学和统计学领域。相比之下,Claude3.5-Sonnet在代数和算术方面表现出色,显示出其在该领域的优势。同时,MathGLM-Vision-19B在算术领域的性能排名第二,显示出它在该领域的强大能力。GPT-4o在word problem领域表现出最高性能,而MathGLM-Vision也表现出强大的性能,超过了Gemini-1.5-Pro和Claude3.5-Sonnet在这个类别。

4.3 MathGLM-Vision 的泛化性

除了在数学推理方面的专业知识外,作者进一步评估了MathGLM-Vision在一般视觉语言理解方面的能力,通过在MMMU基准测试上进行实验。这个基准是专门设计来评估模型在各种学术和专业学科中理解和处理信息的能力,为一般视觉语言理解提供全面测试。表6显示了MathGLM-Vision在仅针对MathVL进行特定微调且不包含VQA数据集和 Backbone 模型方面的性能。

与CogVLM2相比,MathGLM-Vision-19B在通用性方面实现了可比性能,强调了其同时进行多模态理解和数学推理的能力。然而,当使用VQA数据集进行微调时,MathGLM-Vision-32B在MMMU基准测试的多个类别上的性能略有降低。

此外,当使用包含VQA数据集的MathVL进行微调时,MathGLM-Vision的表现超过了未包含VQA数据集的变体。这表明在微调过程中省略VQA数据集会限制一般视觉语言理解能力。因此,使用作者包含VQA数据集的MathVL进行专门微调不仅增强了MathGLM-Vision的数学推理能力,还保持了其通用性。

4.4 进一步分析

中文数据集的影响 为了验证采用的中文数据集在MathVL中的有效性,作者进行了一项扩展实验,该实验涉及微调GLM-4V-9B与开源数据集,故意排除来自K12教育的中国数据。该实验的目的是评估中文数据集对MathGLM-Vision能力的具体贡献。

表7显示了性能结果的比较。与基础模型GLM-4V-9B相比,经过专门微调的MathGLM-Vision-9B在MathVista的minitest上表现出显著的改进,尤其是在几何问题解决(GPS)和几何推理(GEO)方面。这表明在不同的开源数据上进行微调可以显著提高模型在特定数学领域的性能。

将开源数据和中国数据相结合的MathGLM-Vision在MathVista的minitest上超过了仅对开源数据进行微调的变体,突显了将中文数据集集成到训练过程中的显著价值。值得注意的是,与没有中文数据的变体相比,MathGLM-Vision在MathVL测试上的准确率显著更高。这些发现证实,将中文数据集纳入不仅提高了模型处理复杂数学问题的能力,而且对MathVista中多样化任务集的整体性能做出了显著贡献。

VQA数据集的影响为了探究VQA数据集对MathGLM-Vision性能的影响,可以设计一个扩展实验,其中专门针对数学数据集进行微调,故意排除VQA数据集。

表8展示了不同模型在MathVista上的性能对比。与基础模型GLM-4V-9B相比,MathGLM-Vision-9B在几何问题解决(GPS)和几何推理(GEO)方面取得了显著改进。然而,它在MathVista的minitest(ALL)上的整体准确性有所下降。这种下降可以归因于MathVista的组成,它包括五个任务,其中问题回答类型(如图形问题回答、教科书问题回答和视觉问题回答)占任务的60.6%。

在MathGLM-Vision中排除VQA训练会影响模型有效处理和回应这些多模态问题的能力。值得注意的是,在MathVista的特定子集(如GPS和GEO)中,MathGLM-Vision-9B略低于标准MathGLM-Vision-9B。这一观察表明,VQA数据集对于保持整体多模态理解至关重要,它们的影响可能取决于不同的任务类型。此外,VQA数据集可以间接提高数学推理能力,从而增强图像识别能力。

4.5 误差分析

作者仔细分析了MathGLM-Vision-32B在MathVL-test数据集上的错误原因,并在图5中说明了这些错误的分布。

作者将MathGLM-Vision-32B中的错误总结为五大类:推理错误、知识错误、视觉识别错误、计算错误和问题误解错误。其中最常见的一种错误,占总数的69.1%,被确定为推理错误。这表明MathGLM-Vision-32B在逻辑推理和推论方面存在显著挑战。改进这些能力可以极大地提高MathGLM-Vision-32B的整体性能。知识错误,占总数的12.7%,与模型对应用的误解或缺乏特定的事实信息有关。视觉识别错误占总数的11.4%,涉及对视觉数据的解释不准确。这种错误可以通过实现更先进的视觉编码器来减少。

此外,计算错误只占总数的4.3%,表明MathGLM-Vision-32B在数值和计算任务上具有相当强的健壮性。最后,问题误解错误占总数的2.5%,当模型无法正确解释问题时发生。通过增强自然语言处理能力和完善上下文理解,可以显著减少这些类型的错误。通过针对性的改进,可以显著提高MathGLM-Vision-32B的整体有效性。图6展示了计算错误类别的一些案例。这些错误的更详细示例可以在附录G中找到。

5 结论

在本文中,作者试图解决当前数学预训练语言模型(MLLMs)中存在的问题。作者构建了一个细粒度微调数据集,称为MathVL,并在其上进行了监督细粒度微调(SFT)过程。这一举措导致了一系列增强的MLLM的产生,作者将其命名为MathGLM-Vision。

特别是,MathGLM-Vision包含了三种变体:MathGLM-Vision-9B,MathGLM-Vision-19B和MathGLM-Vision-32B,分别针对不同的 Backbone 模型:GLM-4-V,CogVLM2和CogVLM-32B进行微调。这些开发的MathGLM-Vision在数学推理能力方面取得了显著的性能提升。

相对于各自的 Backbone 模型,MathGLM-Vision-9B,MathGLM-Vision-19B和MathGLM-Vision-32B在MathVista的Geometry Problem Solving(GPS)子测试上的性能分别提高了39%,65%和53.7%。这表明MathVL在增强MLLM的数学问题解决能力方面具有显著效果。此外,作者在作者精选的MathVL-test数据集上评估了MathGLM-Vision的有效性。

实验结果表明,MathGLM-Vision不仅在专门的数学测试中超越了其 Backbone 模型,而且在一般的视觉语言理解领域也保持了泛化能力。

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值