随着人工智能(AI)的快速发展,大型语言模型(LLMs)已经重塑了各个领域的前沿,包括医疗保健、公共卫生、工程、科学、农业、教育、艺术、人文学科和数学推理。在这些进步中,DeepSeek模型作为显著的竞争者出现,展示了与其他同类模型相比的卓越能力。尽管之前的研究对LLMs进行了比较分析,但很少有研究提供对广泛LLMs数学推理能力的全面评估。在这项工作中,我们通过深入的比较研究,旨在弥补这一差距,重点关注DeepSeek模型与其领先对手的优势和局限性。特别是,我们的研究系统地评估了两个DeepSeek模型和五个著名LLMs在三个独立基准数据集上的数学推理表现。研究结果揭示了几个关键见解:1). DeepSeek-R1在三个数据集中的两个上实现了最高的准确率,表现出强大的数学推理能力。2). 精简版LLMs的表现明显逊色于其同行,突显了使用蒸馏技术的潜在缺点。3). 在响应时间方面,Gemini 2.0 Flash表现出最快的处理速度,在效率方面优于其他模型,这对实时应用至关重要。除了这些定量评估外,我们还探讨了架构、训练和优化如何影响LLMs的数学推理能力。此外,我们的研究不仅限于性能比较,还识别出未来LLM驱动数学推理改进的关键领域。这项研究增强了我们对LLMs数学推理的理解,并为未来的改进奠定了基础。V+cadorai,回复:关注AIGC,可即时关注作者动态。
随着人工智能(AI)以前所未有的速度发展,一系列强大的大型语言模型(LLMs)已经出现,包括OpenAI的GPT-4o、o1、o3、Claude 3.5、Llama 3.2、Qwen 2.5和Gemini 2.0 (Achiam 等 2023; Chang 等 2024; Dubey 等 2024; Enis 和 Hopkins 2024; Kasneci 等 2023; A. Liu, Feng, Xue, 等 2024; Neha 和 Bhati 2025; Team 等 2024; Zhao 等 2023) . 这些模型由先进的深度神经网络(DNNs)推动,整合了人类认知元素以增强问题解决和决策能力 (Lappin 2024) . 它们在自然语言处理(NLP) (Min 等 2023) , 医疗保健 (H. Dai 等 2023; Z. Liu, Jiang, 等 2023; Z. Liu, Li, 等 2023) , 临床文本处理 (H. Dai 等 2025; Z. Liu, Huang, 等 2023; Zhong 等 2023) , 生物医学图像分析 (Z. Liu, Jiang, 等 2023) , 代码生成 (J. Liu 等 2023) , 决策支持 (S. Li 等 2022) , 多模态数据分析 (Wang 等 2024; Xiao 等 2024) , 和数学推理 (Ahn 等 2024a; X. Li 等 2024; Peng 等 2024; Shao 等 2024; Xin 等 2024; Zhong 等 2024; Zhuang 等 2024) 中,LLMs 推动了AI能力的边界,通过复杂的统计推断近似人类般的推理 (Achiam 等 2023; Kasneci 等 2023; Neha 和 Bhati 2025) . 然而,尽管它们具有变革潜力,这些模型仍面临显著限制。其高计算需求构成了更广泛应用的重要障碍,使大规模实施成本高昂 (Neha 和 Bhati 2025) . 此外,虽然LLMs在一般上下文中表现良好,但在特定任务中常表现出不一致的性能。例如,多模态模型在空间推理和现实世界物理方面仍然面临挑战,而AI辅助代码生成频繁产生语法正确但功能缺陷的输出,需要人工监督 (J. Liu 等 2023; Zhong 等 2024) . 这些约束强调了AI研究中持续改进和创新的必要性,以弥合人工和人类智能之间的差距。
特别是,OpenAI在2024年5月发布的GPT-4o是一个多模态模型,能够高效地处理文本、图像和语音。它利用先进的变压器架构,在数学推理和语言理解等关键领域超越了GPT-3 (Achiam 等 2023; Dale 2021; Hurst 等 2024; Shahriar 等 2024) . 据估计,GPT-4o拥有2万亿个参数,比其前代产品大得多,从而显著提升了性能和适应性。与此同时,其他尖端模型如o1和o3分别于2024年和2025年推出。特别是,o1通过引入链式思维(CoT)方法增强了推理能力 (Stechly, Valmeekam, 和 Kambhampati 2025) , 其中它在达到最终答案之前呈现中间推理步骤,密切模仿人类处理复杂问题的方式 (Zhong 等 2024) . 更重要的是,o3通过“模拟推理”过程提高了推理性能,其中模型主动生成并评估多个解决方案路径 (Arrieta 等 2025) . 通过在给出最终答案之前暂停、反思并调整其方法,o3表现出类似人类的推理能力,允许在高度复杂的情况下进行更细致和灵活的问题解决 (Mondillo 等 2025) . 然而,包括GPT-4o、o1和o3在内的所有GPT模型都不是开源的,因为它们仍然是专有产品。
此外,Claude 3.5于2024年发布,基于先前版本构建。它强调安全性、一致性以及性能,改进了推理、语言理解和处理复杂任务(如文本和代码生成)的能力 (Enis 和 Hopkins 2024) . 拥有250亿参数,它在准确性和伦理一致性上超越了早期模型。它可以支持长达20万词元的扩展上下文,从而更好地处理更大的输入。值得注意的是,通过强化学习从人类反馈(RLHF) (S. Hu 等 2024; Wen 等 2024) 和宪法AI,它减少了不受欢迎的响应、偏见,并更好地与人类意图保持一致。Claude 3.5在编码和科学推理等专业领域表现出色,改进了透明度和伦理保障 (Enis 和 Hopkins 2024; Neha 和 Bhati 2025) .
此外,2024年推出的Llama-3.3是Meta AI家族中最新的LLM版本,继Llama-1和Llama-2之后。Llama-3.3进一步推进,拥有700亿参数和128K词元上下文窗口,通过分组查询注意力提高了效率 (Dubey 等 2024; Z. Lu 等 2024) . Llama 3.1在编码、逻辑问题解决和低资源语言任务中表现出色。与封闭模型(如GPT系列)不同,它保持开放权重,可自由用于研究和商业用途,但仅限于文本输入 (Dominguez-Olmedo, Hardt, 和 Mendler-Dünner 2025; Z. Lu 等 2024; Neha 和 Bhati 2025) . 安全措施,如自动化红队测试和过滤后的训练数据,有助于最小化不希望的输出。此外,Gemini 2.0 Flash是谷歌最新一代多模态LLM,基于1.0和1.5版本提供了更强大的跨文本、图像、音频和视频的生成式AI能力。
此外,Gemini 2.0 Flash最初作为一个实验变体推出,在不牺牲效率的情况下提供了显著的速度和效率提升,超越了其前身Gemini 1.5 Flash (Huang 和 Zhang 2024; Imran 和 Almusharraf 2024; Team 等 2024) . 值得注意的是,它在关键基准测试中超越了Gemini 1.5 Pro,同时运行速度提高了一倍。它实现了代理AI和本地使用的结合,允许模型调用外部函数(如Google搜索和地图),并集成流媒体数据以扩展实时应用。通过在数学、代码生成和多语言音频输出等任务中实现更好的性能与效率结合,Gemini 2.0旨在为开发者和最终用户提供全面且成本效益高的AI解决方案 (Huang 和 Zhang 2024; Team 等 2024) . 最后,Qwen2.5于2024年9月发布,是Qwen系列的最新迭代,继2024年6月的Qwen2和2023年8月的原始Qwen之后。Qwen1.5包含多达720亿参数,强调效率和开源可用性。Qwen2引入了改进的推理、多语言支持和编码能力,模型规模扩大到727.1亿参数。 (A. Yang 等 2024; Zhu 等 2025)
此外,DeepSeek模型于2023年成立,旨在通过开发专注于效率、适应性和领域专业知识的专门模型来克服现有局限性 (Bi 等 2024; D. Dai 等 2024; Guo 等 2024, 2025; A. Liu, Feng, Xue, 等 2024; Kasneci 等 2023; A. Liu, Feng, Wang, 等 2024; Shao 等 2024) . 2024年,DeepSeek引入了效率驱动架构——专家混合(MoE),该架构通过稀疏激活减少计算开销 (Guo 等 2024; A. Liu, Feng, Wang, 等 2024; A. Liu, Feng, Xue, 等 2024) . 随后推出了DeepSeek Coder,这是一套参数范围从10亿到330亿的代码专用模型,旨在简化软件开发工作流程。同时,DeepSeek Math经过1200亿个数学相关标记的训练,旨在处理高级数学和符号推理任务 (Shao 等 2024) . 扩展其模型组合,DeepSeek推出了V2和V3系列 (A. Liu, Feng, Wang, 等 2024; A. Liu, Feng, Xue, 等 2024) . V2实现了多头潜在注意力(MLA)和总参数量为2360亿的MoE系统,其中每次查询仅激活210亿参数,优化了计算效率 (A. Liu, Feng, Wang, 等 2024) . V3作为一个开源模型,进一步通过6710亿总参数提升了效率,每次查询仅激活370亿参数,在复杂推理任务中表现出色,同时最小化资源需求和对监督数据的依赖 (A. Liu, Feng, Xue, 等 2024) . 2025年,DeepSeek在R1 Zero中实现了自我验证、反思和扩展的CoTs。值得注意的是,最近发布了DeepSeek-R1,特别设计用于数学、编码和逻辑问题解决,增强了研究和企业应用中的自主决策和精度 (Guo 等 2025, 2024; Shao 等 2024) . 为了扩展可访问性,DeepSeek提供了一系列针对边缘计算平台和低内存系统等资源受限环境优化的开源精简模型。这些模型保留了可扩展性和成本效益,使得前沿AI在各种应用中更加普及。
值得注意的是,数学推理通常会带来没有简单解决方案的复杂挑战 (Ahn 等 2024b; Liang, Zhang, 和 Zhong 2024) . 与遵循既定框架的常规任务不同,数学推理需要创造力、抽象思维和高级认知技能。在本研究中,我们系统地评估了多种LLMs的数学推理性能,特别关注DeepSeek模型,以进一步揭示机器在数学推理中的创造力。 通过利用多个独立数据集和定量指标,我们进行了一次全面的经验分析来评估和比较它们的能力。我们的发现提供了一个详细的评估,突出主要LLMs在数学推理中的进展和DeepSeek模型的独特优势。
2 相关工作
近期研究越来越关注总结和评估LLMs在解决问题和代码生成方面的表现,这些通用LLMs在基于文本的任务中表现出色,但在数学精确性和结构化推理方面往往遇到困难 (Dam 等 2024; Gu 等 2024; Kasneci 等 2023; Shen 2024; J. Wu 等 2025; Yao 等 2024) . 为了解决这些局限性,LLMs优先增强了推理能力和下一代模型的计算效率,目标是弥合语言流畅性与强大问题解决技能之间的差距。
具体来说,2024年,Wang等人总结并详细说明了多模态大型语言模型(MLLMs)的规范,处于AI前沿 (Wang 等 2024) . 简而言之,Wang等人概述了广泛的多模态数据,如文本、图像、音频和序列数据 (Wang 等 2024) . 实际上,MLLMs通过整合文本和图像信息在多模态理解任务中发挥关键作用,实现更智能和全面的理解和推理。在这一领域,Wang等人概述了多个MLLMs的发展、进步和应用,包括MiniGPT-4、InstructBLIP和Wiki-LLaVA三个备受推崇的模型,以及其他相关的MLLMs如3DMIT、GroundingGPT、ModaVerse、Vary-toy、LLaVAMOLE和CogCom (Wang 等 2024) .
此外,2024年底,钟等人对o1-preview(o1的早期版本)进行了全面而广泛的评估,展示OpenAI的o1-preview在涵盖多个领域的复杂推理任务中的进步,包括计算机科学、数学、自然科学、医学、语言学和社会科学 (钟 等 2024) . 通过广泛的测试,o1-preview展现了显著的能力,在编码挑战、科学推理、语言处理和创造性问题解决等领域经常达到或超过人类水平的性能 (钟 等 2024) . 主要发现包括:1). 解决复杂竞争编程问题的成功率为83.3%,超过人类专家。2). 在生成连贯且准确的放射报告方面表现出色,优于其他被评估模型。3). 在高中水平的数学推理任务中达到100%的准确率,提供详细的逐步解决方案。4). 在一般和特定领域(如医学)中表现出高级自然语言推理能力。5). 在芯片设计任务中表现出色,超越特定模型在脚本生成和错误分析等方面。6). 在人类学和地质学方面表现出色,展示了对这些特定领域的深刻理解和推理能力。7). 具有全面的金融知识和强大的量化投资能力。8). 在社交媒体分析中有效,包括情感分析和情绪识别。9). 在教育测量和心理测量中表现出色,展示了相当于或超出硕士或博士一年级学生水平的标准心理测量概念的坚实掌握。
此外,杨等人调查了先进LLMs(尤其是o1模型)在文学分析方面的能力 (Z. Yang 等 2024) . 鉴于诺贝尔奖的声望及其对文化、历史和语言深度的重视,将LLMs应用于这些作品提供了关于人类和AI在文学解释方法上的宝贵见解 (Z. Yang 等 2024) . 该研究采用了定性和定量评估来评估连贯性、创造性和忠实于文本的程度,揭示了AI在传统上由人类专家主导领域的优缺点。尽管LLMs在结构化任务中表现出显著的分析能力,但在情感细腻和连贯性方面却存在困难——这些领域中人类解释仍然无可匹敌。这项研究强调了人文领域中人类-AI合作的变革潜力,为文学研究、文本分析和跨学科研究开辟了新的机会。通过结合AI的分析能力和人类直觉,本研究指出了AI辅助文学解释及其他领域的有希望方向。
此外,许等人证明,LLMs在临床决策方面取得了重大进展,特别是那些利用上下文演示和专门医学微调的模型 (Shaochen Xu 等 2024) . 这些模型在医学语言处理方面表现出色,但在实时适应性、多步推理和处理复杂医学任务方面仍面临挑战。基于代理的AI系统通过引入推理轨迹、上下文工具选择、知识检索和短长期记忆来克服这些局限性。这些特性使医疗AI代理能够在需要实时与环境互动的复杂临床场景中进行管理 (Shaochen Xu 等 2024) . 不同于将医疗查询视为孤立问题的传统模型方法,医疗AI代理将其视为动态、多面任务,使它们更像人类医生一样运作。许还调查了医疗AI代理的主干LLM选择,这为主理和行动生成奠定了基础。具体而言,许等人 (Shaochen Xu 等 2024) 考察了新兴o1模型的能力及其对代理推理、工具使用适应性和实时信息检索的影响,涵盖了多样化的临床场景,包括高风险环境如重症监护室(ICUs)。研究表明,o1在提高诊断准确性和一致性方面具有潜力,为更智能、响应迅速的AI工具铺平道路,这些工具支持改善患者结果和临床实践中更有效的决策 (Shaochen Xu 等 2024) .
值得注意的是,Ahn等人 (Ahn 等 2024b) 地址了LLMs在数学推理中的四个关键方面:1). 数学问题类型和数据集,2). 提高LLM性能的技术(如提示工程和微调),3). 影响模型效果的因素(包括规模和预训练数据),以及4). 挑战如脆弱性和不一致性,这些问题常常导致模型对相似问题产生不同的答案。
除此之外,梁等人提供了一份关于AI在数学研究中的应用的综合概述,强调了AI在这一领域开始扮演的变革角色 (Liang, Zhang, 和 Zhong 2024) . 传统上,AI的进步很大程度上依赖于数学和统计学提供的理论基础。然而,AI在强化学习(RL)和LLMs方面的最新发展表明,AI可以通过提供灵活的算法框架和强大的归纳推理能力回馈数学,支持数学研究的各个方面。此综述旨在建立AI与数学之间的桥梁,提供相互利益的见解,并促进更深的跨学科理解。特别是在当前AI和LLMs可能在复杂演绎推理方面有所欠缺时,它们内在的创造力,即根据浅层模式识别以高吞吐量生成输出的能力,对于支持和启发数学研究具有重要意义 (Liang, Zhang, 和 Zhong 2024) . 此外,梁等人 (Liang, Zhang, 和 Zhong 2024) 解决了跨学科沟通不足的问题:数学家可能无法完全理解AI的最新进展,而AI研究人员经常优先考虑基准性能而非前沿数学研究的实际应用。
最后,这项工作试图填补这一空白,提供对AI基础、其优势以及其在数学科学中的新兴应用的详细探索。虽然一些研究已经开始深入比较DeepSeek-R1与其他领先模型 (Guo 等 2025, 2024; Shao 等 2024) , 很少有研究提供对其数学推理能力的全面分析。因此,在本工作中,我们介绍了一项整体实证研究,系统地比较了DeepSeek-R1与其同侪模型在数学推理方面的表现。我们的目标是通过广泛的同侪模型、数据集和定量指标,为更深入理解DeepSeek-R1的优势和局限性做出贡献,并激励未来工作的进一步改进。
3 方法论
在本节中,我们提供了我们实验框架的全面概述,详细说明了所使用的数据集、定量评估指标以及整体方法论。我们还提出了选择这些数据集作为基准的理由,强调它们在有效评估LLM数学推理能力方面的相关性、多样性和适用性。通过建立一致的评估框架,我们旨在确保对各种推理任务中的模型能力进行全面而深入的比较。
该图展示了本研究的实验框架,包括五个关键组成部分。
3.1 实验框架
如图 1 所示,本实证研究的框架包含五个关键组成部分:1). 基准数据:我们使用了三个代表性基准数据集 (Cobbe 等 2021; Hendrycks 等 2020; P. Lu 等 2023) 来评估多个LLMs的数学推理能力。2). 零样本提示:零样本提示被用来设计所有提示 (W. Hu 等 2025) ,确保标准化的评估方法。3). 语言模型选择:选取了一组具有代表性的多样化LLMs,包括Google的Gemini 2.0 Flash (Imran 和 Almusharraf 2024) , OpenAI的GPT-4o (Achiam 等 2023) , o1-mini (Jaech 等 2024) , o1 (Zhong 等 2024) , o3-mini (Arrieta 等 2025) , DeepSeek的DeepSeek-R1-Distill-Qwen-1.5B (Guo 等 2025) , 以下简称为DeepSeek-1.5B,以及DeepSeek-R1 (A. Liu, Feng, Wang, 等 2024) . 4). 评估:准确性被用作一个关键的定量指标,以评估和比较这些模型的数学推理性能 (CoLab, n.d.a, n.d.b, n.d.c) . 5). 模型之间的比较:进行了全面的统计分析,以评估和对比每个LLM的性能,提供对其数学推理能力的更深入见解。总体而言,这一结构化的框架使得对LLMs在数学推理方面的能力进行全面而系统的比较成为可能。
3.2 数据集
为了评估LLMs的数学推理能力,我们采用了涵盖不同数学领域、问题类型和难度级别的广泛认可的基准数据集。所选数据集包括Math Competition (MATH) (Hendrycks 等 2021) , Grade School Math 8K (GSM8K) (Cobbe 等 2021) , 以及Massive Multitask Language Understanding (MMLU) (Hendrycks 等 2020) , 涵盖了从基础算术到高级代数、逻辑和数学竞赛的主题。从每个基准中,我们精心挑选了一组代表性问题,以确保平衡评估,同时保持数学推理任务的多样性和复杂性。这些子集因其广泛的数学领域覆盖、多样的问题格式和不同复杂度水平的代表性,确保了对LLMs符号操作、逻辑推理和解决问题能力的全面评估 (Gema 等 2024; Setlur 等 2024; Zhang 等 2024) . 总体上,我们的评估跨越了多个基准数据集中的2,178个数学问题,确保了对LLMs数学推理能力的全面评估。
通过对这些基准的评估,我们识别出LLMs在数学推理中的优势和局限性,有助于开发更强大和有能力的模型。表 [tab:overview_of_data] 提供了本研究所使用的数据集概览。
3.2.1 MATH
MATH是一个综合性的基准数据集,旨在评估在各种问题解决场景下的数学推理能力 (Hendrycks 等 2021) . 与主要评估算法熟练度的传统数学问题数据集不同,MATH专注于高级推理和启发式驱动的问题解决。
具体来说,MATH源自高水平的数学竞赛,包括AMC 10、AMC 12和AIME (Hendrycks 等 2021) . 这些问题本质上比标准K-12数学任务更为复杂,要求应用非平凡的问题解决策略、逻辑推断和特定领域的启发式方法,而不是直接进行公式计算。同时,MATH被认为是一个困难的基准,LLMs的准确率介于3.0%至6.9%之间 (Hendrycks 等 2021) . 尽管整体得分较低,但LLMs展示了一定程度的数学能力,例如:在最简单的难度级别上达到高达15%的准确率 (Hendrycks 等 2021) . 能够生成逐步解决方案,尽管有时不正确,但仍保持连贯性和上下文相关性。为了衡量数据集的难度,也考虑了人类的表现。例如,一位没有特别擅长数学的计算机科学博士生达到了大约40%的准确率。此外,三届国际数学奥林匹克(IMO)金牌得主达到了90%的准确率。因此,这些发现表明MATH对人类解题者和LLMs都具有挑战性,使其成为评估和提升LLMs及人类解题者数学推理能力的宝贵数据集。
3.2.2 GSM8K
GSM8K是2021年推出的一个基准数据集,包含8,500个高质量的小学数学问题 (Cobbe 等 2021) . 它旨在结合高语言多样性的同时依赖基本数学概念,为最先进的LLMs提供了独特的挑战。虽然底层数学相对简单,但多样的问题表述方式造成了显著障碍,阻止了许多模型实现持续高准确率。GSM8K由7,500个训练问题和1,320个测试问题组成,均由专业的人类问题编写者精心设计。这些问题主要涉及基础算术运算,通常需要2到8个逻辑步骤才能得出答案。这个数据集被广泛用于评估LLMs的逻辑推理和数学能力,并作为各种评估的基准,包括LLM排行榜。值得注意的是,尽管某些GSM8K问题概念上较为简单,但对于最先进的LLMs来说仍然具有挑战性,当相同问题以略有不同的方式呈现时,往往表现出很高的响应变异性。这突显了在语言模型中实现稳健数学推理的持续困难。在本研究中,我们选择了GSM8K中的1.32K数学测试集,以系统地评估和比较每个LLM的数学推理能力。
3.2.3 MMLU
MMLU数据集是一个综合性基准,包含来自多个学术学科的选择题。它涵盖了57个不同任务,涉及人文学科、社会科学、硬科学和数学推理,反映了各学习领域所需的知识广度 (Hendrycks 等 2020) . MMLU的问题由研究生和本科生根据公开资源手动整理,包括标准化考试(如GRE和USMLE)的练习题。此外,它还包括为本科课程和牛津大学出版社书籍读者设计的问题。值得注意的是,其数学推理部分涵盖多个子领域,分为“抽象代数”、“大学数学”、“形式逻辑”和“高中数学”等类别。例如,“抽象代数”类别的问题来源于专业的数学实践,而“高中数学”类别则包括类似于标准高中考试中的问题。总共,MMLU包含15,908个问题,分为三个子集:a). 每个主题包含五个问题的少量示例开发集。b). 包含1,540个问题的验证集,用于选择超参数。c). 包含14,079个问题的测试集,确保严格的评估。每个MMLU主题至少包含100个测试问题,使它比大多数标准考试更具扩展性和挑战性。这个广泛且结构化的数据集作为评估LLMs推理和问题解决能力的关键基准。
3.3 评估LLMs在数学推理中的表现
如前所述,多种LLMs已展现出卓越的数学推理能力 (Zhou 等 2024) . 为了系统评估各种LLMs的数学推理能力,我们通过API访问进行实验,采用了一组多样化的模型。所选模型包括Google的Gemini-2.0-flash、OpenAI的GPT-4o、o1-mini、o1、o3-mini,以及DeepSeek的DeepSeek-1.5B和DeepSeek-R1。
3.3.1 提示策略
LLMs在数学推理中的有效性高度依赖于输入提示的设计 (Amatriain 2024; Cain 2024; Denny 等 2024) . 为了确保公平和可重复的评估,我们采用了以零样本提示为主的结构化提示策略。我们的方法旨在评估模型内在的问题解决能力,而不提供额外的外部指导 (Z. Wu, Jiang, 和 Shen 2024) . 总体而言,在所有评估中,我们都采用了零样本提示方法,其中模型在没有任何先前示例或演示的情况下接收数学问题。零样本提示对于评估模型从预训练语料库中泛化数学知识并将其应用于新问题的能力特别有价值 (Z. Wu, Jiang, 和 Shen 2024; Yuan 等 2024) . 通过不提供明确的例子,这种方法评估了模型仅根据其先前的学习推断适当解决方案方法的能力。
用于评估LLMs数学推理能力的模板。多项选择格式(a)确保有结构化的决策过程,而开放式格式(b)评估自由形式的问题解决能力。
具体而言,如图 2 所示,每个提示明确指示模型在选择最终答案前以 \boxed{} 格式解答问题。虽然未强制执行显式的CoT提示,但“遵循格式并继续你的推理直到最终的答案框”这一指令隐含鼓励逐步推理,使我们能够评估模型在没有显式CoT引导下自我启动逻辑推理的程度 (Sahoo 等 2024) . 经验观察显示,一些模型在选择答案之前自然生成了中间推理步骤,展示了新兴的推理能力,而其他模型则直接给出了最终答案,尤其是那些推理能力较弱的模型。在不同模型中观察到了推理深度的变化,反映了它们内部问题解决策略的差异。为了进一步研究显式逐步提示的影响,我们通过修改提示,加入直接指令:“在给出最终答案之前,逐步解决此问题。”进行了一项消融研究。这种显式CoT版本在所有模型中均导致了更加结构化和详细的解释,证实了模型对隐式和显式推理提示的不同反应 (Yuan 等 2024) . 对这两种提示策略的比较分析提供了有价值的见解,说明了结构化指导如何影响模型推理和准确性。
对于多项选择题,我们提供了选项集,并指示模型从给定选项中选择正确答案,确保结构化的决策过程 (Myrzakhan, Bsharat, 和 Shen 2024) . 提示中包含了明确的格式指南,以标准化不同模型的响应格式。相比之下,对于需要自由形式数值或符号响应的开放式问题,我们在不提供预定义答案选项的情况下直接提出问题,允许模型基于其内部推理能力生成响应 (Tam 等 2025) . 这种方法确保多项选择任务评估模型区分结构化选项的能力,而开放式问题测试其独立推导解决方案的能力。
3.3.2 采样设置
此外,为了避免不同供应商施加的速率限制,同时确保大规模评估的效率,我们在连续API调用之间实施了自适应时间延迟。所有查询均以标准化格式进行,以确保模型间的公平比较。
3.3.3 评估指标
为了评估模型在数学任务中生成响应的正确性,我们采用 完全匹配 作为主要评估方法 (Soroush 等 2024) . 鉴于基准数据集中的每个问题都有唯一正确答案,而模型每次查询产生一个响应,完全匹配确保通过将提取的答案与真实答案进行比较来进行严格评估。
其中
此外,还纳入了错误处理机制,以检测幻觉响应 (Ni 等 2024; Spracklen 等 2024; Zablocki 和 Gajewska 2024) , 不完整的计算或缺少方框输出,通过自动验证和手动审查标记案例确保稳健评估。此外,由于一些模型响应超过了令牌限制并导致截断输出,检测机制被实施以标记不完整解决方案,必要时排除评估或进行手动审查。
表 1 展示了模型生成响应与真实值的评估。其中 参考答案 代表真实值,而 解析模型答案 包含从模型输出中提取的响应。 正确性 列表明模型响应是否在解析后与真实值完全匹配,确保对数学准确性的严格评估。格式不匹配或数值错误等差异直接影响正确性评分,突出模型在解决数学问题上的精确性。
通过集成自动化解析、格式校正和评估指标,我们的后处理管道确保了对不同LLM架构的数学推理能力进行可靠且无偏见的评估。
4 结果
在本节中,我们对前述的最新LLMs进行了定量和定性评估,使用多个公共基准数据集来评估数学推理能力。作为初步评估,我们选择了一个子集,包含三个广泛认可的数据集 (Cobbe 等 2021; Hendrycks 等 2020; P. Lu 等 2023) ,如第 3 节所述,系统评估了各种前沿模型的性能。总体而言,我们的评估包括DeepSeek-R1 (A. Liu, Feng, Wang, 等 2024) ,这是DeepSeek最先进的推理模型,以及其精简版DeepSeek-1.5B (Guo 等 2025) , 后者衍生自R1模型。此外,我们还评估了谷歌最新的Gemini 2.0 Flash (Imran 和 Almusharraf 2024) 和四种OpenAI模型:GPT-4o、o1-mini、o1和o3-mini (Arrieta 等 2025; Hurst 等 2024; Zhong 等 2024) . 特别指出的是,尽管所有这些模型都设计了推理能力,但GPT-4o是唯一一个未明确优化为提供基于推理的CoT响应的模型。这些选定的LLMs代表当今最先进的AI系统,不断演变并在各种数学推理基准上竞争。
4.1 使用MATH评估LLMs
如表 2 所示,各种LLMs在MATH基准数据集上的表现存在显著差异,突出了它们在数学推理能力上的差异。
特别是,GPT-4o (Hurst 等 2024) 表现出显著较低的准确率64.88%,落后于其同侪模型。这一局限可能是由于复杂推理能力的不足或数据集中竞赛级数学问题的固有难度所致。相比之下,OpenAI的o1模型实现了最高的准确率(93.12%),紧随其后的是DeepSeek-R1(90.45%),两者均超越了90%的正确性阈值——这一基准是其他模型未能达到的。其他模型表现各异:Gemini 2.0 Flash,85.87%;o1-mini,88.93%; o3-mini,82.06%。然而,一个关键观察结果是DeepSeek-R1的精简版表现显著较差,进一步强化了模型蒸馏可能会损害数学推理能力的假设,即为了提高计算效率而牺牲关键推理路径。
此外,如图 3 所示的多个LLMs的定量比较揭示了OpenAI模型的一致表现模式,而DeepSeek-R1始终优于其精简版。这些发现突显了模型大小与推理能力之间的权衡,正如Fu等人所述 (Fu 等 2023) ,强调了优化技术的必要性,这些技术可以增强计算效率而不牺牲数学问题解决能力。
在MATH基准中不同LLMs的性能比较。每个模型的准确率显示在其对应的柱状图上方,突出不同发布者间数学问题解决能力的差异。
此外,图 4 提供了DeepSeek-R1、o1和Gemini 2.0 Flash在提示响应和数学推理方面的深入比较。有趣的是,Gemini 2.0 Flash未能提供正确答案,而DeepSeek-R1和o1展示了更结构化和逻辑连贯的推理过程。这进一步说明了不同模型在数学推理能力上的差异 (Zhong 等 2024) ,以及在实现高精度时结构化推理框架的重要性。
此外,图 4 表明DeepSeek-R1和o1几乎遵循相同的推理步骤,正确分配坐标、计算中点和质心,并使用基于行列式的面积计算得出正确答案8。然而,Gemini 2.0 Flash偏离了正确的推理路径,在计算中出现了错误。 具体而言,尽管正确识别了一些中间关系,但在面积缩放和高度比计算中的处理失误导致最终答案为4而非正确的8。这表明Gemini 2.0 Flash在复杂几何问题上的数值精度和推理准确性相较于其同行有所不足。
值得注意的是,DeepSeek-R1在图 4 中的强劲表现,其主要依赖于RL方法 (Dulac-Arnold 等 2021) ,突显了反馈驱动训练范式在解决数学难题方面的有效性。其训练中的一个关键组件是群相对策略优化(GRPO) (Shao 等 2024) ,这是一种比传统方法更高效的RL方法。GRPO使DeepSeek-R1在数学、科学和编码等复杂领域中表现出色,强化了先进学习技术在提升模型性能方面的潜力 (Guo 等 2025) 。这些发现强调了高级推理机制在解决竞赛级数学问题中的重要性,表明RL框架——以DeepSeek-R1为代表——为提升下一代LLMs的数学推理能力提供了一个有希望的方向。
不同LLMs在MATH基准中的几何问题上的比较评估。该图展示了来自三个不同模型的逐步推理,并突出显示正确性。问题以红色显示,而提取的答案则被方框标记。绿色高亮部分表示正确响应,而红色高亮部分表示错误输出。该比较说明了不同模型在数学推理和准确性上的差异。
4.2 使用GSM8K评估LLMs
如第 3 节所述,GSM8K基准数据集 (Cobbe 等 2021) 包含约1.32k个测试样本,旨在评估LLMs的数学推理能力 (Cobbe 等 2021) 。各种模型的零样本表现总结在表 3 中,提供了它们数学推理能力的宝贵见解。
特别是,结果显示DeepSeek-R1 (Guo 等 2025) 与OpenAI的o1表现相当,两者均实现了最高的96.13%的准确率,超越了所有其他同行模型。此外,其他几个模型也表现出强大的性能:Gemini 2.0 Flash,95.53%;GPT-4o,95.58%;o1-mini,95.91%;o3-mini,95.83%。然而,DeepSeek-R1的精简版表现出明显的性能差距,仅达到81.13%的准确率——与其完整版相比有显著下降。这种性能差异突显了模型蒸馏相关的权衡,即减少参数数量以提高计算效率可能会无意中削弱逻辑推理和问题解决能力。尽管蒸馏使模型更小、更快,但我们的研究结果表明,过度减少参数可能会削弱数学推理能力,从而限制其在复杂问题解决任务中的有效性。同样,图 5 表明DeepSeek-R1和o1优于其他同行LLMs。值得注意的是,OpenAI发布的所有LLMs之间没有显著差异。
这些结果强调了模型大小与推理能力之间的微妙平衡,突显了推进蒸馏技术的必要性,以在保持计算效率的同时保留核心推理结构。
此外,图 6 中的定性比较揭示了OpenAI的o1、DeepSeek-R1和Google的Gemini 2.0 Flash在推理能力上的显著差异。分析表明,DeepSeek-R1在数学推理方面表现出色。具体来说,DeepSeek-R1生成了准确的解决方案,并详细阐述了一个系统化的逐步过程来得出结论。相比之下,OpenAI的o1和Gemini 2.0 Flash产生了较不全面的路径,导致错误答案。这些发现如图 6 所示,突出了DeepSeek-R1相对于当代模型的强大分析能力,展示了其在复杂数学任务中卓越的问题解决能力。
在GSM8K基准上各种LLMs的性能比较。每个模型的准确率显示在其对应的柱状图上方,突出不同发布者间数学问题解决能力的差异。
不同LLMs在GSM8K基准中的算术问题上的比较评估。该图展示了来自三个不同模型的逐步推理,并突出显示正确性。问题以红色显示,而提取的答案则被方框标记。绿色高亮部分表示正确响应,而红色高亮部分表示错误输出。这种比较说明了不同模型在数学推理和准确性上的差异。
4.3 使用MMLU评估LLMs
利用MMLU基准数据集的结构化分类 (Hendrycks 等 2020) ,我们对不同数学领域的各种LLMs进行了深入的比较分析。
首先,如表 4 所示,DeepSeek-R1在形式逻辑领域中超越所有同侪模型,实现了最高的97.62%的准确率。其他模型如o1、o3-mini和Gemini 2.0 Flash也表现出色,均超过了90%的准确率。然而,DeepSeek-R1和o1-mini的精简版未能达到这一标准,进一步验证了模型蒸馏可能会通过限制关键计算路径来削弱逻辑推理能力的假设。
此外,在抽象代数方面,o3-mini的表现优于其同侪,实现了最高的96.00%的准确率。抽象代数是一个特别具有挑战性的学科,即使是数学毕业生也需要进行根本性的数学思维转变,从传统的代数操作转向分析复杂的代数结构,例如群、环和域。掌握这个学科需要对抽象概念有深刻的理解、严格的证明构建和高级逻辑推理。
结果还表明,OpenAI的模型,特别是o3-mini,在抽象推理和符号操作方面表现出色,使它们能够有效地重建和处理复杂的代数结构。相比之下,DeepSeek-R1的精简版表现显著较差,仅达到61%的准确率,进一步验证了参数减少对逻辑推理和抽象推理产生的负面影响。
此外,在大学数学方面,o1和o3-mini都实现了99.00%的优异准确率,超过了所有其他模型。这一出色表现可归因于两个关键因素:a). 强大的推理能力:OpenAI的o1和o3-mini模型设计时融入了增强的数学推理框架,使它们能够高效地处理和解决复杂的大学级问题。b). 多样化的训练数据:广泛的训练数据暴露可能使o1和o3-mini具备更广泛的数学基础,从而在高级数学推理任务中表现出无与伦比的性能。同时,Gemini 2.0 Flash也表现出强劲的性能,达到了96%的相似准确率,强化了其在大学数学方面的竞争力。然而,蒸馏显然对性能产生了负面影响,如:1). o1-mini,其准确率仅为76.00%,与其完整版相比有显著下降。2). DeepSeek-1.5B,仅达到65.00%的准确率,进一步强调了模型大小与推理能力之间的权衡。
这一性能差距凸显了大学数学相较于高中数学的更高复杂性。大学课程通常要求:1). 对抽象数学概念有更深的理解;2). 更强的逻辑推理能力;3). 在复杂证明和实际应用中的熟练程度。值得注意的是,与高中数学相比,大学数学节奏更快、工作量更大,这进一步增加了其难度 (Benken 等 2015) 。
此外,鉴于高中数学的相对简单性,o1实现了最高的99.62%的准确率,略高于其在大学数学中的表现。其他同行模型也表现出色:DeepSeek-R1,97.04%;o1-mini,98.89%;o3-mini,98.52%;Gemini 2.0 Flash,97.77%。GPT-4o在此领域的准确率较低(88.15%),相较其同侪。再次,DeepSeek-R1的精简版表现挣扎,仅达到86.30%的准确率,进一步展示了模型压缩导致的性能退化。
同样,图 7 呈现了不同数学领域中各种LLMs的综合比较分析,包括抽象代数、大学数学、形式逻辑和高中数学四个关键领域。值得注意的是,OpenAI的模型在抽象推理方面表现出色,特别是在抽象代数领域,符号操作和深度理论理解至关重要。这表明OpenAI的模型在重建和处理抽象数学结构方面具有强大的能力。
重要的是,DeepSeek-R1在形式逻辑方面超越了其同侪,展现了其卓越的逻辑推理能力和有效处理基于规则的复杂问题解决的能力。这些发现进一步突显了不同LLMs的专门优势,并增强了对目标模型改进的需求,以优化在各种数学领域中的性能。
在MMLU基准数据集中不同类型问题上的LLM模型比较。
不同LLMs在MMLU基准的形式逻辑问题上的比较评估。该图展示了来自三个不同模型的逐步推理并突出了正确性。问题以红色显示,而提取的答案则用方框标记。绿色高亮部分表示正确响应,而红色高亮部分表示错误输出。此比较说明了不同模型在数学推理和准确性上的差异。
图 8 展示了不同LLMs在MMLU基准数据集中的形式逻辑问题上的比较评估。任务涉及从给定论证中识别正确结论,四个选项分别标记为A、B、C和D。正确的参考答案是选项D,要求模型区分支持前提和实际结论。DeepSeek-R1成功识别出选项D为正确结论,并通过认识到短语“Because of this”作为语言连接词而非结论的一部分提供了结构化的解释。相反,o1和Gemini 2.0 Flash选择了选项C,误读了论证的逻辑结构,未能区分解释性过渡和中心主张。图 8 中的比较分析进一步证实了DeepSeek-R1在处理基于规则的复杂问题解决任务上的卓越逻辑推理能力。
不同LLMs在MMLU基准中的抽象代数问题上的比较评估。该图展示了来自三个不同模型的逐步推理并突出了正确性。问题以红色显示,而提取的答案则用方框标记。绿色高亮部分表示正确响应,而红色高亮部分表示错误输出。此比较说明了不同模型在数学推理和准确性上的差异。
图 9 展示了一个关于抽象代数问题的不同LLMs的比较评估,该问题源自MMLU基准数据集。该问题要求推理一个群中特定阶元素的数量,具体评估Statement 1和Statement 2是否根据群论原则成立。任务涉及从四个可能的答案选项中选择正确的真值组合:A (True, True), B (False, False), C (True, False), 和 D (False, True)。参考答案如图 9 所示,是选项A (True, True)。
DeepSeek-R1正确识别出两个陈述均为真,并详细使用了循环子群性质、欧拉函数和不交子群结构提供理由。类似地,o1也得出了正确答案,正确认识到超过8个15阶元素需要至少16个元素,因为存在多个不同的子群。然而,Gemini 2.0 Flash错误地将Statement 2分类为假,显示出其在子群结构和元素计数方法上的推理缺陷。图 9 中的比较突显了DeepSeek-R1和o1在抽象代数推理方面优越的能力,因为两者成功应用了循环子群性质和不交集合推理得出正确结论。
总结而言,DeepSeek-R1在形式逻辑方面占据主导地位,而o3-mini在抽象代数方面表现出色。o1和o3-mini在大学数学方面超越了所有模型,这可能是由于它们先进的推理框架和多样化的训练数据。模型蒸馏显著降低了性能,如 (Guo 等 2025) 中所示,尤其是在抽象代数和大学数学等复杂推理任务中。对于高中水平的数学,LLMs相对容易应对,多个模型的准确率超过97%。这些发现强调了模型大小、推理能力和计算效率之间的权衡,突显了优化策略的必要性,即在提高可扩展性的同时保持问题解决能力。
4.4 统计分析
在本节中,表 5 展示了基于三个基准数据集的平均准确率和标准差对LLMs的比较评估。在所评估的模型中,OpenAI的o1实现了最高的平均准确率(96.13%),紧随其后的是DeepSeek-R1(95.21%)和o3-mini(94.57%)。尽管Gemini 2.0 Flash达到了相对较高的准确率(92.11%),但其表现逊于顶级模型。
就稳定性而言,由标准差量化,o1(2.32)和DeepSeek-R1(2.41)表现出最一致的性能。我们认为DeepSeek-R1的高度一致性可以归因于其GRPO框架 (Guo 等 2025) ,该框架利用多代理协作架构,有效整合了多种推理路径。这种协同作用有助于缓解任务特定偏差,并通过减少变异性来增强一致性。结构化的方法允许模型动态优先考虑高置信度解决方案,同时迭代改进不太确定的输出,从而为其在异构数据集上的稳健性做出贡献。
相比之下,o1-mini表现出显著更高的变异性(标准差:8.31),表明其对数据集特定特征敏感。Gemini 2.0 Flash(4.59)和o3-mini(5.74)表现出适度的性能波动,可能是因为其单代理推理范式存在局限性。GPT-4o也表现出显著较大的标准差(10.42),成为除DeepSeek-1.5B之外两个最不一致的模型之一。与此同时,DeepSeek-1.5B的平均准确率显著较低(67.78%),标准差最高(12.82),反映了其响应的显著变异性,进一步证实了参数减少对数学推理的不利影响。
按发布者分组的五个LLMs在多个数据集上的性能比较。条形图代表平均准确率(%),误差线表示三个基准数据集的标准差。
图 10 展示了不同LLMs在三个数据集上的性能统计。图 10 中的条形图展示了每个模型的平均准确率(%),误差线代表数据集上的准确率百分比的标准差。标准差条表示每个模型性能的变化情况。值得注意的是,OpenAI的o1表现出最高的平均准确率且变化较小,而DeepSeek-1.5B表现出最大的变化,表明其在数据集上的准确率不一致。此可视化强调了o1和DeepSeek-R1不仅在准确性方面表现出色,而且在数学问题解决任务上也更加可靠。
4.5 响应时间分析
高效的响应时间在LLMs部署中至关重要,因为它直接影响用户体验和实时应用的实用性。影响推理速度的因素包括模型大小、计算复杂性、硬件能力和优化技术。
不同LLMs的延迟比较
值得注意的是,图 11 展示了各种LLMs的每查询平均响应时间的比较分析。DeepSeek-R1模型表现出最高的延迟,平均每响应时间为81.0秒,这意味着DeepSeek-R1明显比所有其他模型都要慢。在OpenAI的模型中,o1的响应时间为15.0秒,可能因其复杂的CoT过程所致。GPT-4o的延迟也相对较长,为11.5秒,使其成为三个响应时间超过10秒阈值的模型之一。相比之下,o1-mini和o3-mini分别实现了6.8秒和5.3秒的更快推理速度,优于其他两个OpenAI模型。DeepSeek-1.5B的运行时间为5.0秒,略胜OpenAI的o3-mini模型。值得注意的是,Gemini 2.0 Flash表现出最短的响应时间,仅为 4.2 秒,使其成为推理速度方面最高效的模型。
重要的是,了解这些响应时间对于根据应用需求选择合适的模型至关重要,需要在延迟和性能之间进行权衡。
5 讨论
在这项研究中,我们对各种LLMs进行了全面评估,以评估它们在多个基准上的数学推理能力 (Cobbe 等 2021; Hendrycks 等 2020, 2021) 。所评估的LLMs包括Gemini 2.0 Flash (Imran 和 Almusharraf 2024) , GPT-4o (Hurst 等 2024) , o1-mini (Jaech 等 2024) , o1 (Zhong 等 2024) , o3-mini (Arrieta 等 2025) , DeepSeek-1.5B (A. Liu, Feng, Xue, 等 2024) , 和 DeepSeek-R1 (A. Liu, Feng, Wang, 等 2024) 。我们的实证分析显示,DeepSeek-R1和o1在大多数数学领域中优于其同侪,展示了在解决结构化问题时强大的数学推理能力。然而,在某些复杂和抽象的领域(如抽象代数)中,其表现不如o3-mini。此外,我们的研究结果强调了模型蒸馏对数学推理性能的影响。具体而言,蒸馏版本显示出明显的准确率下降,强化了这样的担忧:虽然蒸馏提高了计算效率,但可能会无意中削弱LLM处理复杂问题解决任务的能力。这些观察结果表明,在未来的模型优化中,需要仔细管理计算效率与推理深度之间的权衡。
首先,我们的结果进一步验证了DeepSeek-R1的先进能力,它采用RL而非监督微调(SFT)进行训练 (Evstafev 2025; A. Liu, Feng, Wang, 等 2024; Neha 和 Bhati 2025) 。 DeepSeek-R1引入了GRPO,这是一种基于RL的优化策略,通过相对于一组采样同伴评估模型动作来提高训练效率。与传统RL方法不同,GRPO无需外部奖励模型,而是通过基于群体评分动态计算优势来消除单独奖励函数的需要 (A. Liu, Feng, Wang, 等 2024; A. Liu, Feng, Xue, 等 2024) 。这种独特的训练范式使得DeepSeek-R1能够在解决小学水平的数学问题时平衡成本和性能,从而在GSM8K中展现出优越性能,突显其在处理结构化、多步算术推理任务上的优势。值得注意的是,尽管GRPO提升了效率,但它并不一定能在所有问题类别中超越具有特定CoT的模型。
此外,我们对DeepSeek-R1在MMLU基准上的表现分析显示,在不同领域中的数学推理能力存在显著差异。虽然DeepSeek-R1在形式逻辑方面表现出色,但在更抽象的数学领域(如大学数学和抽象代数)中却显得吃力。特别是,这种差异表明GRPO在依赖结构化逻辑推理的问题上特别有效,其中基于群体的方法可以完善逻辑一致性并改进决策制定 (Ganter 和 Wille 2024) 。例如,形式逻辑问题通常涉及模式识别和结构化演绎 (Ganter 和 Wille 2024) ,这可能与GRPO的框架很好地契合。GRPO的群体评分机制使模型能够内化人类推理中常见的模式,从而在需要基于规则的逻辑推导的问题上表现良好。然而,抽象代数和大学数学中的表现下降表明DeepSeek-R1在需要高度抽象概念化的任务上遇到困难。抽象代数尤其代表了从程序化代数向探索抽象数学结构(如群、环和域)的根本转变 (Yumiati 等 2025) 。与基于规则的逻辑问题不同,抽象代数需要深层次的符号操作、定理证明以及导航复杂代数结构的能力 (Yumiati 等 2025) ,这些都需要超越GRPO核心优化策略的高级演绎推理。
此外,基于证明的推理是高等数学的重要组成部分,它需要超出模式识别的认知过程,包括递归逻辑应用和定理证明。DeepSeek-R1在抽象数学问题上的推广能力有限,这表明需要一种更灵活的推理方法来补充基于GRPO的训练。相比之下,CoT推理通过逐步逻辑分解来增强问题解决的准确性,在特定数学领域表现出色。CoT在需要明确中间推理步骤的任务中表现突出,帮助模型更有效地导航复杂的数学推导。然而,尽管有这些优势,CoT仍然受到其倾向于过度适应结构化问题解决范式的限制 (Boye 和 Moell 2025; C. Li 等 2024) ,当面对需要更广泛概念推广的问题时,适应性有限。因此,尽管CoT提供了更深层次、更有结构的推理框架,但在处理多样化数学挑战时,可能难以满足所需的推广要求。GRPO的结构化逻辑优化与CoT的顺序演绎方法之间的权衡表明,集成这两种框架的优势的混合推理机制对于开发更灵活、数学能力更强的LLM至关重要。
总之,我们的研究结果与先前的研究一致 (Ahn 等 2024a; Akella 2024; Duan 2025; Evstafev 2025; Jiang, Gao, 和 Karniadakis 2025; X. Li 等 2024; Z.-Z. Li 等 2025; Mercer, Spillard, 和 Martin 2025; Mirzadeh 等 2024; Peng 等 2024; Shao 等 2024; Xin 等 2024; Zhong 等 2024; Zhou 等 2024; Zhuang 等 2024) ,进一步确认了DeepSeek-R1与其他LLMs相比具有较强的数学推理能力。然而,我们的研究超越了之前的工作,通过提供不同领域中LLMs性能的细致、领域特定分析。我们不是评估一般推理技能,而是深入探讨逻辑、算术和抽象推理能力的细微差别,提供对不同LLMs在数学学科中表现出色或不足的全面理解。尽管有其宝贵的贡献,我们的研究仍有一些局限性:1). 模型范围有限:尽管我们的评估涵盖了主要的LLMs,但我们未测试其他前沿模型(如Llama-3.2 / Llama-3.3, Claude, Mistral),这可能为替代训练方法提供更多见解。2). 基准多样性受限:我们的评估依赖于三个主要基准数据集,尽管覆盖面广,但可能无法完全捕捉现实世界应用中数学推理挑战的广度。
更重要的是,未来的研究应扩大所评估LLMs的范围,并纳入更多基准测试,以获得对不同数学学科中模型优缺点的更广泛理解。具体而言,将GRPO与同行CoTs结合,可以使模型充分利用结构化逻辑优化和逐步演绎推理。这种整合可能导致LLM集群,其中多个推理框架协同作用以提高效率和准确性。同时,我们的研究重申了蒸馏可能显著削弱推理能力。未来应探索自适应蒸馏方法,以在优化计算效率的同时保留深度推理路径。除了当前的CoT框架 (Q. Chen 等 2025; Z. Li 等 2024; Xia 等 2024; Xiang 等 2024; W. Yang, Fan, 和 Liao 2024) ,研究者可以为高级推理框架提供新见解,如草稿链(CoD) (Silei Xu 等 2025) 。这些研究奠定了更全面和严格评估的未来基础,推动我们对LLMs在数学推理中的理解。
6 结论
总体而言,我们的研究对LLM在数学推理中的表现进行了全面的比较分析,识别了多个领域中的关键优势和劣势。我们强调了GRPO在结构化问题解决中的有效性,展示了其提高逻辑一致性和基于规则推理的能力。然而,我们也揭示了其在处理抽象数学概念时的局限性,其中深度符号操作和基于定理的推理仍然是GRPO训练模型的挑战。此外,我们的研究结果突出了与模型蒸馏相关的权衡,揭示了其在保持数学推理能力方面的潜在弊端。因此,我们提出了新的策略来改进蒸馏技术,确保压缩模型在不牺牲计算效率的情况下保持强大的问题解决能力。除了性能评估外,这项研究还通过概述推理框架中的潜在改进(包括将RL与结构化逐步推理方法相结合的混合模型)为未来基于LLM的数学智能铺平了道路。通过解决这些挑战,我们的工作有助于开发下一代AI系统,使其能够以更高的准确性、效率和适应性处理复杂的数学推理问题。
7 致谢
作者感谢奥古斯塔大学高性能计算服务(AUHPCS)提供的计算资源支持,这些资源为本出版物/报告中的结果做出了贡献。
Achiam, Josh, Steven Adler, Sandhini Agarwal, Lama Ahmad, Ilge Akkaya, Florencia Leoni Aleman, Diogo Almeida, 等. 2023. “Gpt-4 技术报告。” arXiv Preprint arXiv:2303.08774 .
Ahn, Janice, Rishu Verma, Renze Lou, Di Liu, Rui Zhang, 和 Wenpeng Yin. 2024b. “大型语言模型在数学推理中的应用:进展与挑战。” https://arxiv.org/abs/2402.00157 .
———. 2024a. “大型语言模型在数学推理中的应用:进展与挑战。” arXiv Preprint arXiv:2402.00157 .
Akella, Amogh. 2024. “通过分类和策略定制改进大型语言模型的数学问题解决能力。” arXiv Preprint arXiv:2411.00042 .
Amatriain, Xavier. 2024. “提示设计与工程:介绍及高级方法。” arXiv Preprint arXiv:2401.14423 .
Arrieta, Aitor, Miriam Ugarte, Pablo Valle, José Antonio Parejo, 和 Sergio Segura. 2025. “OpenAI 的 O3-Mini 早期外部安全测试:部署前评估的见解。” arXiv Preprint arXiv:2501.17749 .
Benken, Babette M., Jorge Ramírez, Xuhui Li, 和 Scott Wetendorf. 2015. “发展数学成功:学生知识与态度的影响。” Journal of Developmental Education 38: 14. https://api.semanticscholar.org/CorpusID:147012593 .
Bi, Xiao, Deli Chen, Guanting Chen, Shanhuang Chen, Damai Dai, Chengqi Deng, Honghui Ding, 等. 2024. “Deepseek LLM:通过长期主义扩展开源语言模型规模。” arXiv Preprint arXiv:2401.02954 .
Boye, Johan, 和 Birger Moell. 2025. “大型语言模型与数学推理失败。” arXiv Preprint arXiv:2502.11574 .
Cain, William. 2024. “引发变革:探索大型语言模型AI中的提示工程及其对教育的潜在影响。” TechTrends 68 (1): 47–57.
Cecere, Nicola, Andrea Bacciu, Ignacio Fernández Tobı́as, 和 Amin Mantrach. 2025. “蒙特卡罗温度:一种稳健的LLM不确定性量化采样策略。” arXiv Preprint arXiv:2502.18389 .
Chang, Yupeng, Xu Wang, Jindong Wang, Yuan Wu, Linyi Yang, Kaijie Zhu, Hao Chen, 等. 2024. “大型语言模型评估综述。” ACM Transactions on Intelligent Systems and Technology 15 (3): 1–45.
Chen, Mark, Jerry Tworek, Heewoo Jun, Qiming Yuan, Henrique Ponde De Oliveira Pinto, Jared Kaplan, Harri Edwards, 等. 2021. “评估训练于代码上的大型语言模型。” arXiv Preprint arXiv:2107.03374 .
Chen, Qiguang, Libo Qin, Jiaqi Wang, Jingxuan Zhou, 和 Wanxiang Che. 2025. “解锁思维能力:一个用于量化和优化链式思维的推理边界框架。” Advances in Neural Information Processing Systems 37: 54872–904.
Chen, Zui, Tianqiao Liu, Mi Tian, Weiqi Luo, Zitao Liu, 等. 2025. “推进语言模型中的数学推理:问题解决数据、数据合成方法和训练阶段的影响。” In 第十三届国际学习表示会议 .
Cobbe, Karl, Vineet Kosaraju, Mohammad Bavarian, Mark Chen, Heewoo Jun, Lukasz Kaiser, Matthias Plappert, 等. 2021. “训练验证器来解决数学文字问题。” arXiv Preprint arXiv:2110.14168 .
CoLab, Google. n.d.a. “Google CoLab 在 GSM8K 中进行定量比较。” https://colab.research.google.com/drive/1guO9lNk9WENzyin9wgjkHa_4rhrnRyuP?usp=sharing .
———. n.d.b. “Google CoLab 在 MATH 中进行定量比较。” https://colab.research.google.com/drive/1AwK-k9uVtd6aPxK-KDBmfpl727j5cxfz?usp=sharing .
———. n.d.c. “Google CoLab 在 MMLU 中进行定量比较。” https://colab.research.google.com/drive/1ye1Mvu5rSehQBcoUQzMhi8QYJjgqZyu7?usp=sharing .
Dai, Damai, Chengqi Deng, Chenggang Zhao, RX Xu, Huazuo Gao, Deli Chen, Jiashi Li, 等. 2024. “Deepseekmoe:迈向专家混合语言模型的终极专业化。” arXiv Preprint arXiv:2401.06066 .
Dai, Haixing, Yiwei Li, Zhengliang Liu, Lin Zhao, Zihao Wu, Suhang Song, Ye Shen, 等. 2023. “Ad-Autogpt:用于阿尔茨海默病信息学的自主GPT。” arXiv Preprint arXiv:2306.10095 .
Dai, Haixing, Zhengliang Liu, Wenxiong Liao, Xiaoke Huang, Yihan Cao, Zihao Wu, Lin Zhao, 等. 2025. “Auggpt:利用Chatgpt进行文本数据增强。” IEEE Transactions on Big Data .
Dale, Robert. 2021. “GPT-3:它擅长什么?” Natural Language Engineering 27 (1): 113–18.
Dam, Sumit Kumar, Choong Seon Hong, Yu Qiao, 和 Chaoning Zhang. 2024. “基于LLM的AI聊天机器人完整调查。” arXiv Preprint arXiv:2406.16937 .
Denny, Paul, Juho Leinonen, James Prather, Andrew Luxton-Reilly, Thezyrie Amarouche, Brett A Becker, 和 Brent N Reeves. 2024. “提示问题:生成式AI时代的新编程练习。” In 第55届ACM计算机科学教育技术研讨会 v. 1 , 296–302.
Dominguez-Olmedo, Ricardo, Moritz Hardt, 和 Celestine Mendler-Dünner. 2025. “质疑大型语言模型的调查回应。” 神经信息处理系统进展 37: 45850–78.
Duan, Yucong. 2025. “基于DIKWP语义数学的大模型数学能力元分析与评估。” 未发表 .
Dubey, Abhimanyu, Abhinav Jauhri, Abhinav Pandey, Abhishek Kadian, Ahmad Al-Dahle, Aiesha Letman, Akhil Mathur, 等. 2024. “Llama 3 模型家族。” arXiv Preprint arXiv:2407.21783 .
Dulac-Arnold, Gabriel, Nir Levine, Daniel J Mankowitz, Jerry Li, Cosmin Paduraru, Sven Gowal, 和 Todd Hester. 2021. “真实世界强化学习的挑战:定义、基准和分析。” Mach. Learn. 110 (9): 2419–68.
Enis, Maxim, 和 Mark Hopkins. 2024. “从LLM到NMT:使用Claude推动低资源机器翻译的进步。” arXiv Preprint arXiv:2404.13813 .
Evstafev, Evgenii. 2025. “渴望令牌,但精确:DeepSeek R1强调多步推理优于速度在数学中的必要性。” arXiv Preprint arXiv:2501.18576 .
Frieder, Simon, Luca Pinchetti, Ryan-Rhys Griffiths, Tommaso Salvatori, Thomas Lukasiewicz, Philipp Petersen, 和 Julius Berner. 2023. “Chatgpt的数学能力。” 神经信息处理系统进展 36: 27699–744.
Fu, Yao, Hao Peng, Litu Ou, Ashish Sabharwal, 和 Tushar Khot. 2023. “使较小的语言模型专门化于多步推理。” https://arxiv.org/abs/2301.12726 .
Ganter, Bernhard, 和 Rudolf Wille. 2024. 形式概念分析:数学基础 . Springer Nature.
Gema, Aryo Pradipta, Joshua Ong Jun Leang, Giwon Hong, Alessio Devoto, Alberto Carlo Maria Mancino, Rohit Saxena, Xuanli He, 等. 2024. “我们是否完成了MMLU?” arXiv Preprint arXiv:2406.04127 .
Gu, Jiawei, Xuhui Jiang, Zhichao Shi, Hexiang Tan, Xuehao Zhai, Chengjin Xu, Wei Li, 等. 2024. “关于LLM作为法官的调查。” arXiv Preprint arXiv:2411.15594 .
Guo, Daya, Dejian Yang, Haowei Zhang, Junxiao Song, Ruoyu Zhang, Runxin Xu, Qihao Zhu, 等. 2025. “Deepseek-R1:通过强化学习激励LLMs的推理能力。” arXiv Preprint arXiv:2501.12948 .
Guo, Daya, Qihao Zhu, Dejian Yang, Zhenda Xie, Kai Dong, Wentao Zhang, Guanting Chen, 等. 2024. “DeepSeek-Coder:当大型语言模型遇到编程时——代码智能的兴起。” arXiv Preprint arXiv:2401.14196 .
Hendrycks, Dan, Collin Burns, Steven Basart, Andy Zou, Mantas Mazeika, Dawn Song, 和 Jacob Steinhardt. 2020. “测量大规模多任务语言理解。” arXiv Preprint arXiv:2009.03300 .
Hendrycks, Dan, Collin Burns, Saurav Kadavath, Akul Arora, Steven Basart, Eric Tang, Dawn Song, 和 Jacob Steinhardt. 2021. “通过MATH数据集测量数学问题解决能力。” arXiv Preprint arXiv:2103.03874 .
Hu, Siyuan, Mingyu Ouyang, Difei Gao, 和 Mike Zheng Shou. 2024. “GUI代理的黎明:Claude 3.5 计算机使用初步案例研究。” arXiv Preprint arXiv:2411.10323 .
Hu, Wenyang, Yao Shu, Zongmin Yu, Zhaoxuan Wu, Xiaoqiang Lin, Zhongxiang Dai, See-Kiong Ng, 和 Bryan Kian Hsiang Low. 2025. “局部零阶提示优化。” 神经信息处理系统进展 37: 86309–45.
Huang, Jiaxing, 和 Jingyi Zhang. 2024. “多模态大型语言模型评估综述。” arXiv Preprint arXiv:2408.15769 .
Hurst, Aaron, Adam Lerer, Adam Goucher, Adam Perelman, Aditya Ramesh, Aidan Clark, AJ Ostrow, 等. 2024. “Gpt-4o 系统卡片。” arXiv Preprint arXiv:2410.21276 .
Imran, Muhammad, 和 Norah Almusharraf. 2024. “Google Gemini 作为新一代AI教育工具:新兴教育技术综述。” 智能学习环境 11 (1): 22.
Jaech, Aaron, Adam Kalai, Adam Lerer, Adam Richardson, Ahmed El-Kishky, Aiden Low, Alec Helyar, 等. 2024. “Openai O1 系统卡片。” arXiv Preprint arXiv:2412.16720 .
Jiang, Qile, Zhiwei Gao, 和 George Em Karniadakis. 2025. “DeepSeek对比ChatGPT:科学计算和科学机器学习任务的比较研究。” arXiv Preprint arXiv:2502.17764 .
Kasneci, Enkelejda, Kathrin Seßler, Stefan Küchemann, Maria Bannert, Daryna Dementieva, Frank Fischer, Urs Gasser, 等. 2023. “ChatGPT用得好吗?论大型语言模型在教育中的机遇与挑战。” 学习与个体差异 103: 102274.
Lappin, Shalom. 2024. “评估大型语言模型的优势与劣势。” 逻辑、语言与信息杂志 33 (1): 9–20.
Li, Chengpeng, Guanting Dong, Mingfeng Xue, Ru Peng, Xiang Wang, 和 Dayiheng Liu. 2024. “Dotamath:借助代码辅助和自我校正分解思想以进行数学推理。” arXiv Preprint arXiv:2407.04078 .
Li, Shuang, Xavier Puig, Chris Paxton, Yilun Du, Clinton Wang, Linxi Fan, Tao Chen, 等. 2022. “预训练语言模型在交互式决策中的应用。” 神经信息处理系统进展 35: 31199–212.
Li, Xiaoyuan, Wenjie Wang, Moxin Li, Junrong Guo, Yang Zhang, 和 Fuli Feng. 2024. “评估大型语言模型的数学推理能力:专注于错误识别与修正。” arXiv Preprint arXiv:2406.00755 .
Li, Zhiyuan, Hong Liu, Denny Zhou, 和 Tengyu Ma. 2024. “链式思维赋予Transformer解决固有串行问题的能力。” arXiv Preprint arXiv:2402.12875 1.
Li, Zhong-Zhi, Duzhen Zhang, Ming-Liang Zhang, Jiaxin Zhang, Zengyan Liu, Yuxuan Yao, Haotian Xu, 等. 2025. “从系统1到系统2:大型语言模型推理的综述。” arXiv Preprint arXiv:2502.17419 .
Liang, Shizhe, Wei Zhang, 和 Tianyang Zhong. 2024. “数学与机器创造力:连接数学与AI的综述。” arXiv Preprint arXiv:2412.16543 .
Liu, Aixin, Bei Feng, Bin Wang, Bingxuan Wang, Bo Liu, Chenggang Zhao, Chengqi Dengr, 等. 2024. “Deepseek-V2:一种强大、经济且高效的专家混合语言模型。” arXiv Preprint arXiv:2405.04434 .
Liu, Aixin, Bei Feng, Bing Xue, Bingxuan Wang, Bochao Wu, Chengda Lu, Chenggang Zhao, 等. 2024. “Deepseek-V3 技术报告。” arXiv Preprint arXiv:2412.19437 .
Liu, Jiawei, Chunqiu Steven Xia, Yuyao Wang, 和 Lingming Zhang. 2023. “你的由Chatgpt生成的代码真的正确吗?对大型语言模型代码生成的严格评估。” 神经信息处理系统进展 36: 21558–72.
Liu, Zhengliang, Yue Huang, Xiaowei Yu, Lu Zhang, Zihao Wu, Chao Cao, Haixing Dai, 等. 2023. “Deid-Gpt:通过Gpt-4实现零样本医学文本去标识化。” arXiv Preprint arXiv:2303.11032 .
Liu, Zhengliang, Hanqi Jiang, Tianyang Zhong, Zihao Wu, Chong Ma, Yiwei Li, Xiaowei Yu, 等. 2023. “Gpt-4v在生物医学成像中的整体评估。” arXiv Preprint arXiv:2312.05256 .
Liu, Zhengliang, Yiwei Li, Peng Shu, Aoxiao Zhong, Longtao Yang, Chao Ju, Zihao Wu, 等. 2023. “Radiology-Llama2:放射学领域最佳的大型语言模型。” arXiv Preprint arXiv:2309.06419 .
Lu, Pan, Hritik Bansal, Tony Xia, Jiacheng Liu, Chunyuan Li, Hannaneh Hajishirzi, Hao Cheng, Kai-Wei Chang, Michel Galley, 和 Jianfeng Gao. 2023. “Mathvista:通过Gpt-4v、Bard和其他大型多模态模型评估视觉背景下的数学推理。” CoRR .
Lu, Zhenyan, Xiang Li, Dongqi Cai, Rongjie Yi, Fangming Liu, Xiwen Zhang, Nicholas D Lane, 和 Mengwei Xu. 2024. “小型语言模型:综述、测量与洞察。” arXiv Preprint arXiv:2409.15790 .
Mercer, Sarah, Samuel Spillard, 和 Daniel P Martin. 2025. “DeepSeek R1简析及其对生成式AI的影响。” arXiv Preprint arXiv:2502.02523 .
Min, Bonan, Hayley Ross, Elior Sulem, Amir Pouran Ben Veyseh, Thien Huu Nguyen, Oscar Sainz, Eneko Agirre, Ilana Heintz, 和 Dan Roth. 2023. “通过大型预训练语言模型在自然语言处理方面的最新进展:综述。” ACM Computing Surveys 56 (2): 1–40.
Mirzadeh, Iman, Keivan Alizadeh, Hooman Shahrokhi, Oncel Tuzel, Samy Bengio, 和 Mehrdad Farajtabar. 2024. “GSM-Symbolic:了解大型语言模型在数学推理中的局限性。” arXiv Preprint arXiv:2410.05229 .
Mondillo, Gianluca, Mariapia Masino, Simone Colosimo, Alessandra Perrotta, 和 Vittoria Frattolillo. 2025. “评估AI推理模型在儿科医学中的表现:O3-Mini和O3-Mini-High的比较分析。” medRxiv , 2025–02.
Myrzakhan, Aidar, Sondos Mahmoud Bsharat, 和 Zhiqiang Shen. 2024. “Open-Llm-Leaderboard:从多选题到开放式问题的大型语言模型评估、基准和竞技场。” arXiv Preprint arXiv:2406.07545 .
Neha, Fnu, 和 Deepshikha Bhati. 2025. “DeepSeek模型综述。” Authorea Preprints .
Nguyen, Minh, Andrew Baker, Clement Neo, Allen Roush, Andreas Kirsch, 和 Ravid Shwartz-Ziv. 2024. “升温:通过最小概率抽样提高LLM输出的创造性和连贯性。” arXiv Preprint arXiv:2407.01082 .
Ni, Xinzhe, Yeyun Gong, Zhibin Gou, Yelong Shen, Yujiu Yang, Nan Duan, 和 Weizhu Chen. 2024. “探索数学推理中有影响力的数据之谜。” arXiv Preprint arXiv:2404.01067 .
Peng, Shuai, Di Fu, Liangcai Gao, Xiuqin Zhong, Hongguang Fu, 和 Zhi Tang. 2024. “Multimath:连接视觉和数学推理的大型语言模型桥梁。” arXiv Preprint arXiv:2409.00147 .
Sahoo, Pranab, Ayush Kumar Singh, Sriparna Saha, Vinija Jain, Samrat Mondal, 和 Aman Chadha. 2024. “大型语言模型提示工程的系统综述:技术和应用。” arXiv Preprint arXiv:2402.07927 .
Setlur, Amrith, Saurabh Garg, Xinyang Geng, Naman Garg, Virginia Smith,和 Aviral Kumar. 2024. “RL在不正确的合成数据上提高了LLM数学推理效率八倍。” 神经信息处理系统进展 37: 43000–43031.
Shahriar, Sakib, Brady D Lund, Nishith Reddy Mannuru, Muhammad Arbab Arshad, Kadhim Hayawi, Ravi Varma Kumar Bevara, Aashrith Mannuru, 和 Laiba Batool. 2024. “将GPT-4o置于剑下:对语言、视觉、语音和多模态能力的全面评估。” 应用科学 14 (17): 7782.
Shao, Zhihong, Peiyi Wang, Qihao Zhu, Runxin Xu, Junxiao Song, Xiao Bi, Haowei Zhang, 等. 2024. “Deepseekmath:推动开放语言模型中数学推理的极限。” arXiv Preprint arXiv:2402.03300 .
Shen, Zhuocheng. 2024. “带有工具的LLM:综述。” arXiv Preprint arXiv:2409.18807 .
Soroush, Ali, Benjamin S Glicksberg, Eyal Zimlichman, Yiftach Barash, Robert Freeman, Alexander W Charney, Girish N Nadkarni, 和 Eyal Klang. 2024. “大型语言模型是糟糕的医学编码器——医学代码查询基准测试。” NEJM AI 1 (5): AIdbp2300040.
Spracklen, Joseph, Raveen Wijewickrama, AHM Sakib, Anindya Maiti, Bimal Viswanath, 和 Murtuza Jadliwala. 2024. “我们为你准备了一个包!代码生成LLM幻觉包的全面分析。” arXiv Preprint arXiv:2406.10279 .
Stechly, Kaya, Karthik Valmeekam, 和 Subbarao Kambhampati. 2025. “链式思维无用?关于规划中CoT的分析。” 神经信息处理系统进展 37: 29106–41.
Tam, Zhi Rui, Cheng-Kuang Wu, Chieh-Yen Lin, 和 Yun-Nung Chen. 2025. “以上皆非,正确性更少:人类和LLM在多项选择题回答中的平行模式。” arXiv Preprint arXiv:2503.01550 .
Team, Gemma, Thomas Mesnard, Cassidy Hardin, Robert Dadashi, Surya Bhupatiraju, Shreya Pathak, Laurent Sifre, 等. 2024. “Gemma: 基于Gemini技术和研究的开源模型。” arXiv Preprint arXiv:2403.08295 .
Wang, Jiaqi, Hanqi Jiang, Yiheng Liu, Chong Ma, Xu Zhang, Yi Pan, Mengyuan Liu, 等. 2024. “多模态大型语言模型的综合回顾:不同任务中的表现与挑战。” arXiv Preprint arXiv:2408.01319 .
Wei, Jason, Xuezhi Wang, Dale Schuurmans, Maarten Bosma, Fei Xia, Ed Chi, Quoc V Le, Denny Zhou, 等. 2022. “链式提示激发大型语言模型中的推理。” 神经信息处理系统进展 35: 24824–37.
Wen, Jiaxin, Ruiqi Zhong, Akbir Khan, Ethan Perez, Jacob Steinhardt, Minlie Huang, Samuel R Bowman, He He, 和 Shi Feng. 2024. “通过RLHF学习误导人类的语言模型。” arXiv Preprint arXiv:2409.12822 .
Wu, Junchao, Shu Yang, Runzhe Zhan, Yulin Yuan, Lidia Sam Chao, 和 Derek Fai Wong. 2025. “关于LLM生成文本检测的综述:必要性、方法及未来方向。” 计算语言学 , 1–66.
Wu, Zhenyu, Meng Jiang, 和 Chao Shen. 2024. “数学得A:渐进式修正提示。” In AAAI人工智能会议论文集 , 38:19288–96.
Xia, Yu, Rui Wang, Xu Liu, Mingyan Li, Tong Yu, Xiang Chen, Julian McAuley, 和 Shuai Li. 2024. “超越链式思维:LLM的链式-X范式综述。” arXiv Preprint arXiv:2404.15676 .
Xiang, Zhen, Fengqing Jiang, Zidi Xiong, Bhaskar Ramasubramanian, Radha Poovendran, 和 Bo Li. 2024. “Badchain:大型语言模型的后门链式提示。” arXiv Preprint arXiv:2401.12242 .
Xiao, Zhenxiang, Yuzhong Chen, Junjie Yao, Lu Zhang, Zhengliang Liu, Zihao Wu, Xiaowei Yu, 等. 2024. “Instruction-ViT:视觉Transformer中指令学习的多模态提示。” 信息融合 104: 102204.
Xin, Huajian, Daya Guo, Zhihong Shao, Zhizhou Ren, Qihao Zhu, Bo Liu, Chong Ruan, Wenda Li, 和 Xiaodan Liang. 2024. “Deepseek-Prover:通过大规模合成数据推进定理证明在LLM中的发展。” arXiv Preprint arXiv:2405.14333 .
Xu, Shaochen, Yifan Zhou, Zhengliang Liu, Zihao Wu, Tianyang Zhong, Huaqin Zhao, Yiwei Li, 等. 2024. “迈向下一代医疗代理:O1如何重塑医疗场景中的决策。” arXiv Preprint arXiv:2411.14461 .
Xu, Silei, Wenhao Xie, Lingxiao Zhao, 和 Pengcheng He. 2025. “草稿链:通过减少写作来更快思考。” arXiv Preprint arXiv:2502.18600 .
Yang, An, Baosong Yang, Beichen Zhang, Binyuan Hui, Bo Zheng, Bowen Yu, Chengyuan Li, 等. 2024. “Qwen2.5技术报告。” arXiv Preprint arXiv:2412.15115 .
Yang, Wen, Kai Fan, 和 Minpeng Liao. 2024. “用于高效数学推理的马尔可夫链式思维。” arXiv Preprint arXiv:2410.17635 .
Yang, Zhenyuan, Zhengliang Liu, Jing Zhang, Cen Lu, Jiaxin Tai, Tianyang Zhong, Yiwei Li, 等. 2024. “使用大型语言模型分析诺贝尔文学奖作品。” arXiv Preprint arXiv:2410.18142 .
Yao, Yifan, Jinhao Duan, Kaidi Xu, Yuanfang Cai, Zhibo Sun, 和 Yue Zhang. 2024. “大型语言模型(LLM)安全与隐私综述:好、坏与丑。” 高可信度计算 , 100211.
Yuan, Xiaosong, Chen Shen, Shaotian Yan, Xiaofeng Zhang, Liang Xie, Wenxiao Wang, Renchu Guan, Ying Wang, 和 Jieping Ye. 2024. “实例自适应零样本链式思维提示。” arXiv Preprint arXiv:2409.20441 .
Yumiati, Yumiati, Harry Dwi Putra, Saleh Haji, 等. 2025. “混合在线学习:学生对抽象代数感知及其对学习成果的影响。” 无穷大杂志 14 (1): 65–84.
Zablocki, Piotr, 和 Zofia Gajewska. 2024. “通过内部状态分析评估大型语言模型的幻觉风险。” Authorea Preprints .
Zhang, Hugh, Jeff Da, Dean Lee, Vaughn Robinson, Catherine Wu, William Song, Tiffany Zhao, 等. 2024. “小学算术中大型语言模型性能的细致考察。” 神经信息处理系统进展 37: 46819–36.
Zhao, Wayne Xin, Kun Zhou, Junyi Li, Tianyi Tang, Xiaolei Wang, Yupeng Hou, Yingqian Min, 等. 2023. “大型语言模型综述。” arXiv Preprint arXiv:2303.18223 1 (2).
Zhong, Tianyang, Zhengliang Liu, Yi Pan, Yutong Zhang, Yifan Zhou, Shizhe Liang, Zihao Wu, 等. 2024. “OpenAI O1评估:AGI的机会与挑战。” arXiv Preprint arXiv:2409.18486 .
Zhong, Tianyang, Yaonai Wei, Li Yang, Zihao Wu, Zhengliang Liu, Xiaozheng Wei, Wenjun Li, 等. 2023. “Chatabl:通过与Chatgpt自然语言交互进行归纳学习。” arXiv Preprint arXiv:2304.11107 .
Zhou, Zihao, Shudong Liu, Maizhen Ning, Wei Liu, Jindong Wang, Derek F Wong, Xiaowei Huang, Qiufeng Wang, 和 Kaizhu Huang. 2024. “你的模型真的擅长数学推理吗?通过清单评估。” arXiv Preprint arXiv:2407.08733 .
Zhu, Shiben, Wanqin Hu, Zhi Yang, Jiani Yan, 和 Fang Zhang. 2025. “Qwen-2.5在中华护士执业资格考试中优于其他大型语言模型:回顾性横断面比较研究。” JMIR 医疗信息学 13: e63731.
Zhuang, Wenwen, Xin Huang, Xiantao Zhang, 和 Jin Zeng. 2024. “Math-Puma:逐步向上多模态对齐以增强数学推理。” arXiv Preprint arXiv:2408.08640